中文文本分析技術的開發和應用

Full metadata record

DC Field	Value	Language
dc.contributor.author	梁婷	en_US
dc.contributor.author	LIANG TYNE	en_US
dc.date.accessioned	2014-12-13T10:29:28Z	-
dc.date.available	2014-12-13T10:29:28Z	-
dc.date.issued	2006	en_US
dc.identifier.govdoc	NSC95-2221-E009-194	zh_TW
dc.identifier.uri	http://hdl.handle.net/11536/89317	-
dc.identifier.uri	https://www.grb.gov.tw/search/planDetail?id=1309234&docId=241917	en_US
dc.description.abstract	隨著中文使用的日趨頻繁，中文語言處理技術的開發也愈趨重要。有鑑於此，本計劃將探討中文文本分析技術的開發和應用，分三年進行。第一年主要的工作為開發有效實用的指代消解技術並建構標記語料。第二年和第三年的工作分別為語篇結構分析技術和中文作文評分系統的應用建置。在文本中指代運用的方式非常豐富多樣，包括空指代、代名詞指代、和名詞指代。指代運用可使行文清楚簡潔，避免冗長重複的相關敘述。正確的指代消解不僅有助於自動答問糸統中正確答案的萃取，亦助於作文評分中主題的認定。目前在中文指代消解多為法則式的方法處理，然而中文構句的自由度高，規則式的處理涵蓋率較低。因此本研究將利用語料為本的語意和語用特徵資訊，並整合可用的知識庫，結合機器學習的方法來處理句間和句內的各種指代問題。另一方面，語篇分析亦是文本理解一項基本的工作，用以釐清文章的論題或邏輯結構。正確的語篇結構分析不僅有助於答問系統對敘述型答案的辨識，亦有助於文章中語義連貫的判別和結構完整性的檢驗。此外研究各語篇間的連貫關係亦可作為投影片內容的自動產生依據。目前中文文本中語篇結構的研究多為語言學理論的分析，較少有語篇辦識與分類計算模型的提出。有鑑於此，本計畫將提出一個監督式學習的自動語篇結構標記程序，可分別就主題內容和修辭種類進行語篇結構辨識，藉以分析在不同的文體中各種中文修辭關係的相依結構和序列分佈。最後我們將以所發展的中文文本理解技術應用到作文評量的自動化上。作文是邏輯推理、記憶、組織與創造等能力的顯示，也是評量語文學習的一項重要指標，而有效的作文自動評分糸統不僅可節省大量人力評閱，亦有助於語文學習能力的提升。因此在本計畫中，我們將應用所提的理解法則並整合之前所做的詞彙語意標記、配搭詞彙和相似句檢索等研究成果，實作一個中文作文評分並建立包含用語索引和相似句檢索等輔助系統。此評分糸統將對詞彙運用、篇章段落結構、修辭、主題連慣性、文章呈現及完整性等進行分析。我們將分別利用機器學習和法則式方法評量文章，並整理學生作文常見修辭結構和用辭問題，以供老師和學生參考。我們相信本計劃的執行不僅對中文文本結構有深入的探討和創新的法則提出，對資訊自動化技術的發展亦有所幫助。	zh_TW
dc.description.sponsorship	行政院國家科學委員會	zh_TW
dc.language.iso	zh_TW	en_US
dc.subject	自然語言處理	zh_TW
dc.subject	中文	zh_TW
dc.subject	文本分析	zh_TW
dc.subject	指代消解	zh_TW
dc.subject	語篇分析	zh_TW
dc.subject	作文評量	zh_TW
dc.title	中文文本分析技術的開發和應用	zh_TW
dc.title	Chinese Textual Analysis Techniques and Their Applications	en_US
dc.type	Plan	en_US
dc.contributor.department	國立交通大學資訊工程學系(所)	zh_TW
Appears in Collections:	Research Plans