馬可夫語言模式于手寫中文辨識之應用

標題:	馬可夫語言模式于手寫中文辨識之應用 A markov language model in handwritten chinese text recognition
作者:	張簡哲輝 ZHANG,JIAN, ZHE-HUI 李錫堅資訊科學與工程研究所
關鍵字:	馬可夫語言模式;手寫中文;辨識應用
公開日期:	1991
摘要:	在這篇論文中，我們提出一套兩階段手寫中文辨識系統。第一個階段是用來作候選字的選取，第二階段則是一個上下文後處理器，它具有一個建立在詞類 (part-of- speech, POS)層次上的二階馬可夫語言模式(trigram Markov language model) 。在侯選字選取階段，一個中文字首先被水平地分成10個掃描區域，使得該中文字落在每個區域的黑點數相同；在垂直方向亦作同樣劃分；然後，我們從每個區域抽取出３種統計性的特徵(feature)：CNT、PBA 及CLL ，形成一個60維度的特徵向量，用來代表該中文字。一個架構於city block距離測量法之上的特徵比對法被用來選取Ｎ個最近距離的字元作為輸入字元的候選字集。為求實用性，我們所建立的參考字元庫包括了常用的5401個中文字。在第二個階段，上下文後處理器被用來從輸入中文句的每個候選字集中找出最可能正確的字；此後處理器首先為輸入的中文句建構一個多階段詞類轉換圖形(multi-stage POS transition graph)，然後，應用動態規劃法(dynamic programming) 與三詞類組上下文機率 (tri-POS contextual probability)，從轉換圖形中由輸入中文句的各候選字集所組成的所有可能的句子之中，找出一個其詞類句型具有最高可能性的句子；所使用的三詞類組上下文機率是從一個已經標好詞類的語料庫估計得到的。由於辭典中詞彙的不足，可能使多階段詞類轉換圖形中無完整的句子存在，導致無法找出具有最高可能性的句子；在這篇論文中，我們提出一個方法來解決這個問題。
URI:	http://140.113.39.130/cdrfb3/record/nctu/#NT802393066 http://hdl.handle.net/11536/55904
顯示於類別：	畢業論文