標題: | 文件主題分段的探討 Exploring Topic Segmentation of Documents |
作者: | 李嘉晃 CHIA-HOANGLEE 國立交通大學資訊科學學系 |
公開日期: | 2004 |
摘要: | 文件主題分段技術已經廣泛使用於資訊擷取、新聞分類等領域。雖然許多技術在 處理長篇文件上有良好的效果,但針對短文文件集、例如學生寫作作品分析、網 路新聞快訊分類等的實際應用仍有其困難。其主要的困難有三:第一、短文文件 本身受限於文件長度,提供的語意訊息較少,使用現有主題分段方法因未有足夠 訊息導致以文句間語意關聯值誤差擴大。第二、傳統統計式方法或使用機器學習 之規則式方法需要大量的訓練文件集,然而特定主題的短文文件往往數量有限。 而人工建立規則的規則式方法往往需要大量資源建立大量語意規則,針對特定主 題以人工發展語意規則非常困難。第三、中文文件的語言特性使得對拼音文字文 件有效的方法未必適用於中文文件。例如中文詞的高度語意歧義性與中文句斷字 正確率造成語意關聯值的誤差會導致用於拼音語言方法的正確率下降。因此,我 們計畫提出一個文件主題分段的新方法,其特色有三:一、能處理文件長度短的 文件。二、能使用少量的訓練文件訓練模型、卻仍能保持較高的預測正確率與執 行效能。三、對中文文件能維持較高的分段正確率。這主題分段方法將非常適合 於中文語言處理的實際應用中。 |
官方說明文件#: | NSC93-2213-E009-069 |
URI: | http://hdl.handle.net/11536/91467 https://www.grb.gov.tw/search/planDetail?id=1006980&docId=189771 |
顯示於類別: | 研究計畫 |