標題: 一個2-3階馬可夫語言模式於中文斷詞及詞性標示之應用
A bi-tri-gram markov language model in word segmentation and
作者: 賴芳敏
Fang-Ming Lai
李錫堅
Hsi-Jian Lee
資訊科學與工程研究所
關鍵字: 斷詞;詞語標示;馬可夫;上下文機率;Word segmentation;Tagging;Markov;Contextual probability
公開日期: 1992
摘要: 在本篇論文中,我們提出了一個用於中文斷詞及詞語標示系統中的2-3階馬 可夫語言模式(2-3-gram Markov language model).2階及 3階上下文機 率(bi-gram contextual probability and tri-gram contextual probability)皆有助於一個中文句子斷詞及詞性標示的決定.為了得到更 可靠的上下文資訊,我們結合2階機率及3階機率的語言模式來決定整個句 子的斷詞及詞類標記.傳統的動態規劃演算法(dynamic programming)只能 求出機率最高的答案,但機率最高並不一定就是正確的答案.為了提供剖析 程式正確的答案 ,此斷詞及詞性標示系統提供多個候選答案.在此篇論文 中,我們要介紹一個找前N名答案的演算法(an exact N-best algorithm), 及一個找多個答案的近似演算法,稱為雙向動態規劃演算法(bi- direction dynamic programming algorithm).我們並且要比較此二演算 法的優劣.在我們所做的實驗中,訓練句子有1714句,而測試句子有233句; 斷詞正確率達98%,詞性標示之正確率是89%.
URI: http://140.113.39.130/cdrfb3/record/nctu/#NT810392014
http://hdl.handle.net/11536/56741
顯示於類別:畢業論文