標題: 固定表格手中寫中文之切割
Handwritten Character Segmentation in Form Documents with Known Structure
作者: 許文瑞
Xu, Wen-Rui
李錫堅
Li, Xi-Jian
資訊科學與工程研究所
關鍵字: 投影;相連元件抽取;最短路徑切割;水平投影;表格;手寫中文;資訊;電腦科學;Form Documents;Segmentation;Handwritten Character;INFORAMTION;COMPUTER-SCIENCE
公開日期: 1995
摘要: 本論文是介紹在固定表格手寫中文字切割的方法。在論文的第一個部份,我們將介紹 三個關於手寫中文字切割的方法,分別是投影(projection operation)、相連元件 抽取(connected component extraction)和最短路徑切割(short path cutting) 。為了要有效率的抽字,我們使用水平和垂直投影來抽取文件上的中文字。第一次的 水平投影是用來決定一個欄位有多少列的字,如果在最欄位的最高級最低的現有超過 一定量的點數,我們就會考慮欄位外的黑點。接著的垂直投影是為了將字分開,如果 有兩個元件比較近,我們就將之合成一個字。最後的水平投影是為了找出字超出格現 外的部份。因為格線的座標已知,我們直接將格線去除。然而有些初切的字組其寬度 比平均寬度大,我們使用相連元件來抽取。而有些字可能還連在一起,我們便使用最 短路竟的方法來切割比平均寬度的1.5倍大的字組區塊。 在論文的第二部份,統計式的辨認模組來辨識所有從文件中抽出的中文字。因為數字 的寬度比較小,所以會被合成一個中文字,當這些誤抽的區塊輸入時,辨認模組將會 根據他們的差異性(difference)而拒認。我們系統的抽出率可達89.40%而系統的 辨識率則是55.23%。
URI: http://140.113.39.130/cdrfb3/record/nctu/#NT844392004
http://hdl.handle.net/11536/61194
顯示於類別:畢業論文