標題: 中文報紙切割的專家系統
作者: 張志偉
ZHANG,ZHI-WEI
張文鐘
任建葳
ZHANG,WEN-ZHONG
REN,JIAN-WEI
電子研究所
關鍵字: 中文報紙切割;專家系統;矩行區塊;版面編排;BINARIZATION;DIGITIZATION;NOISE
公開日期: 1989
摘要: 不同的紙式文件,其訴求重點不同,彼此之間相異性非常大。由於報紙是非常複雜, 也是大家最常接觸的文件,所以我們針對中文報紙當作代表性的文件來處理。從整張 報紙的組織結構來看,可視為由各種長寬不等,且內容性質不同的矩形區塊所組成的 ,每個矩形可歸類為不同的項目:標題文字、副標題文字、文章內容文字、圖形、影 像及線條。因此一個好的中文報紙處理分析系統,最基本的條件是要能正確的切割出 矩形。 報紙內容項目非常複雜,印刷品質不如一般文件那麼優良,再加上彩色印刷,在二元 化(binarization)與數位化(digitization)之後,產生許多雜訊(noise) 理象,會影 響到統計的正確性,使切割與分類動作錯誤,並且不同種類的文件,必須重新做統計 的工作,這是實際應用上的困擾。並且在標題大字切割方面,會有一個中文字體被分 割成數個區塊的現象。而在小字方面,會有數個中文字體被合並成為一個區塊的問題 出現。而這些問題皆有個共同特色,就是基本身是一種不確定現象。但這些問題對人 而言卻非常簡單,可以輕而易舉的辦別出那些區塊應該合並,那些區塊須要再分割, 區塊應該歸屬為文字/ 圖形/ 影像中的那一類,這是因為人的頭腦里,已經事先充滿 關於報紙版面編排的格式,知道中文字體的特性,中文書寫有直向與橫向的方式•• •等等,將傳統運算後支離破碎結果,依照已經存在頭腦中關於報紙方面的知識,做 進一步的推論處理並加以判斷。 本篇論文基於以上的認知,嘗試將人們對於報紙格式的經驗知識萃取出來,並選擇一 種知識的表達方式,將其表現在計算機的記憶體中,希望藉著這些知識的幫助能在切 割與分類方面推論出更正確的結果。
URI: http://140.113.39.130/cdrfb3/record/nctu/#NT782430108
http://hdl.handle.net/11536/54719
顯示於類別:畢業論文