標題: 中文文本分析技術的開發和應用
Chinese Textual Analysis Techniques and Their Applications
作者: 梁婷
LIANG TYNE
國立交通大學資訊工程學系(所)
關鍵字: 自然語言處理;中文;文本分析;指代消解;語篇分析;作文評量
公開日期: 2006
摘要: 隨著中文使用的日趨頻繁,中文語言處理技術的開發也愈趨重要。有鑑於此,本計 劃將探討中文文本分析技術的開發和應用,分三年進行。第一年主要的工作為開發有效 實用的指代消解技術並建構標記語料。第二年和第三年的工作分別為語篇結構分析技術 和中文作文評分系統的應用建置。 在文本中指代運用的方式非常豐富多樣,包括空指代、代名詞指代、和名詞指代。 指代運用可使行文清楚簡潔,避免冗長重複的相關敘述。正確的指代消解不僅有助於自 動答問糸統中正確答案的萃取,亦助於作文評分中主題的認定。目前在中文指代消解多 為法則式的方法處理,然而中文構句的自由度高,規則式的處理涵蓋率較低。因此本研 究將利用語料為本的語意和語用特徵資訊,並整合可用的知識庫,結合機器學習的方法 來處理句間和句內的各種指代問題。 另一方面,語篇分析亦是文本理解一項基本的工作,用以釐清文章的論題或邏輯結 構。正確的語篇結構分析不僅有助於答問系統對敘述型答案的辨識,亦有助於文章中語 義連貫的判別和結構完整性的檢驗。此外研究各語篇間的連貫關係亦可作為投影片內容 的自動產生依據。目前中文文本中語篇結構的研究多為語言學理論的分析,較少有語篇 辦識與分類計算模型的提出。有鑑於此,本計畫將提出一個監督式學習的自動語篇結構 標記程序,可分別就主題內容和修辭種類進行語篇結構辨識,藉以分析在不同的文體中 各種中文修辭關係的相依結構和序列分佈。 最後我們將以所發展的中文文本理解技術應用到作文評量的自動化上。作文是邏輯 推理、記憶、組織與創造等能力的顯示,也是評量語文學習的一項重要指標,而有效的 作文自動評分糸統不僅可節省大量人力評閱,亦有助於語文學習能力的提升。因此在本 計畫中,我們將應用所提的理解法則並整合之前所做的詞彙語意標記、配搭詞彙和相似 句檢索等研究成果,實作一個中文作文評分並建立包含用語索引和相似句檢索等輔助系 統。此評分糸統將對詞彙運用、篇章段落結構、修辭、主題連慣性、文章呈現及完整性 等進行分析。我們將分別利用機器學習和法則式方法評量文章,並整理學生作文常見修 辭結構和用辭問題,以供老師和學生參考。我們相信本計劃的執行不僅對中文文本結構 有深入的探討和創新的法則提出,對資訊自動化技術的發展亦有所幫助。
官方說明文件#: NSC95-2221-E009-194
URI: http://hdl.handle.net/11536/89317
https://www.grb.gov.tw/search/planDetail?id=1309234&docId=241917
Appears in Collections:Research Plans