Title: 馬可夫語言模式于手寫中文辨識之應用
A markov language model in handwritten chinese text recognition
Authors: 張簡哲輝
ZHANG,JIAN, ZHE-HUI
李錫堅
資訊科學與工程研究所
Keywords: 馬可夫語言模式;手寫中文;辨識應用
Issue Date: 1991
Abstract: 在這篇論文中,我們提出一套兩階段手寫中文辨識系統。第一個階段是用來作候選 字的選取,第二階段則是一個上下文後處理器,它具有一個建立在詞類 (part-of- speech, POS)層次上的二階馬可夫語言模式(trigram Markov language model) 。 在侯選字選取階段,一個中文字首先被水平地分成10個掃描區域,使得該中文字落 在每個區域的黑點數相同;在垂直方向亦作同樣劃分;然後,我們從每個區域抽取 出3種統計性的特徵(feature):CNT、PBA 及CLL ,形成一個60維度的特徵向量, 用來代表該中文字。一個架構於city block距離測量法之上的特徵比對法被用來選 取N個最近距離的字元作為輸入字元的候選字集。為求實用性,我們所建立的參考 字元庫包括了常用的5401個中文字。在第二個階段,上下文後處理器被用來從輸入 中文句的每個候選字集中找出最可能正確的字;此後處理器首先為輸入的中文句建 構一個多階段詞類轉換圖形(multi-stage POS transition graph),然後,應用動 態規劃法(dynamic programming) 與三詞類組上下文機率 (tri-POS contextual probability),從轉換圖形中由輸入中文句的各候選字集所組成的所有可能的句子 之中,找出一個其詞類句型具有最高可能性的句子;所使用的三詞類組上下文機率 是從一個已經標好詞類的語料庫估計得到的。由於辭典中詞彙的不足,可能使多階 段詞類轉換圖形中無完整的句子存在,導致無法找出具有最高可能性的句子;在這 篇論文中,我們提出一個方法來解決這個問題。
URI: http://140.113.39.130/cdrfb3/record/nctu/#NT802393066
http://hdl.handle.net/11536/55904
Appears in Collections:Thesis