一個2-3階馬可夫語言模式於中文斷詞及詞性標示之應用

標題:	一個2-3階馬可夫語言模式於中文斷詞及詞性標示之應用 A bi-tri-gram markov language model in word segmentation and
作者:	賴芳敏 Fang-Ming Lai 李錫堅 Hsi-Jian Lee 資訊科學與工程研究所
關鍵字:	斷詞；詞語標示；馬可夫；上下文機率;Word segmentation;Tagging;Markov;Contextual probability
公開日期:	1992
摘要:	在本篇論文中,我們提出了一個用於中文斷詞及詞語標示系統中的2-3階馬可夫語言模式(2-3-gram Markov language model).2階及 3階上下文機率(bi-gram contextual probability and tri-gram contextual probability)皆有助於一個中文句子斷詞及詞性標示的決定.為了得到更可靠的上下文資訊,我們結合2階機率及3階機率的語言模式來決定整個句子的斷詞及詞類標記.傳統的動態規劃演算法(dynamic programming)只能求出機率最高的答案,但機率最高並不一定就是正確的答案.為了提供剖析程式正確的答案 ,此斷詞及詞性標示系統提供多個候選答案.在此篇論文中,我們要介紹一個找前N名答案的演算法(an exact N-best algorithm), 及一個找多個答案的近似演算法,稱為雙向動態規劃演算法(bi- direction dynamic programming algorithm).我們並且要比較此二演算法的優劣.在我們所做的實驗中,訓練句子有1714句,而測試句子有233句; 斷詞正確率達98%,詞性標示之正確率是89%.
URI:	http://140.113.39.130/cdrfb3/record/nctu/#NT810392014 http://hdl.handle.net/11536/56741
顯示於類別：	畢業論文