Full metadata record
DC FieldValueLanguage
dc.contributor.author李嘉晃en_US
dc.contributor.authorCHIA-HOANGLEEen_US
dc.date.accessioned2014-12-13T10:32:17Z-
dc.date.available2014-12-13T10:32:17Z-
dc.date.issued2004en_US
dc.identifier.govdocNSC93-2213-E009-069zh_TW
dc.identifier.urihttp://hdl.handle.net/11536/91467-
dc.identifier.urihttps://www.grb.gov.tw/search/planDetail?id=1006980&docId=189771en_US
dc.description.abstract文件主題分段技術已經廣泛使用於資訊擷取、新聞分類等領域。雖然許多技術在
處理長篇文件上有良好的效果,但針對短文文件集、例如學生寫作作品分析、網
路新聞快訊分類等的實際應用仍有其困難。其主要的困難有三:第一、短文文件
本身受限於文件長度,提供的語意訊息較少,使用現有主題分段方法因未有足夠
訊息導致以文句間語意關聯值誤差擴大。第二、傳統統計式方法或使用機器學習
之規則式方法需要大量的訓練文件集,然而特定主題的短文文件往往數量有限。
而人工建立規則的規則式方法往往需要大量資源建立大量語意規則,針對特定主
題以人工發展語意規則非常困難。第三、中文文件的語言特性使得對拼音文字文
件有效的方法未必適用於中文文件。例如中文詞的高度語意歧義性與中文句斷字
正確率造成語意關聯值的誤差會導致用於拼音語言方法的正確率下降。因此,我
們計畫提出一個文件主題分段的新方法,其特色有三:一、能處理文件長度短的
文件。二、能使用少量的訓練文件訓練模型、卻仍能保持較高的預測正確率與執
行效能。三、對中文文件能維持較高的分段正確率。這主題分段方法將非常適合
於中文語言處理的實際應用中。
zh_TW
dc.description.sponsorship行政院國家科學委員會zh_TW
dc.language.isozh_TWen_US
dc.title文件主題分段的探討zh_TW
dc.titleExploring Topic Segmentation of Documentsen_US
dc.typePlanen_US
dc.contributor.department國立交通大學資訊科學學系zh_TW
Appears in Collections:Research Plans


Files in This Item:

  1. 932213E009069.pdf

If it is a zip file, please download the file and unzip it, then open index.html in a browser to view the full text content.