中文報紙切割的專家系統

Full metadata record

DC Field	Value	Language
dc.contributor.author	張志偉	en_US
dc.contributor.author	ZHANG,ZHI-WEI	en_US
dc.contributor.author	張文鐘	en_US
dc.contributor.author	任建葳	en_US
dc.contributor.author	ZHANG,WEN-ZHONG	en_US
dc.contributor.author	REN,JIAN-WEI	en_US
dc.date.accessioned	2014-12-12T02:07:17Z	-
dc.date.available	2014-12-12T02:07:17Z	-
dc.date.issued	1989	en_US
dc.identifier.uri	http://140.113.39.130/cdrfb3/record/nctu/#NT782430108	en_US
dc.identifier.uri	http://hdl.handle.net/11536/54719	-
dc.description.abstract	不同的紙式文件，其訴求重點不同，彼此之間相異性非常大。由於報紙是非常複雜，也是大家最常接觸的文件，所以我們針對中文報紙當作代表性的文件來處理。從整張報紙的組織結構來看，可視為由各種長寬不等，且內容性質不同的矩形區塊所組成的，每個矩形可歸類為不同的項目：標題文字、副標題文字、文章內容文字、圖形、影像及線條。因此一個好的中文報紙處理分析系統，最基本的條件是要能正確的切割出矩形。報紙內容項目非常複雜，印刷品質不如一般文件那麼優良，再加上彩色印刷，在二元化(binarization)與數位化(digitization)之後，產生許多雜訊(noise) 理象，會影響到統計的正確性，使切割與分類動作錯誤，並且不同種類的文件，必須重新做統計的工作，這是實際應用上的困擾。並且在標題大字切割方面，會有一個中文字體被分割成數個區塊的現象。而在小字方面，會有數個中文字體被合並成為一個區塊的問題出現。而這些問題皆有個共同特色，就是基本身是一種不確定現象。但這些問題對人而言卻非常簡單，可以輕而易舉的辦別出那些區塊應該合並，那些區塊須要再分割，區塊應該歸屬為文字/ 圖形/ 影像中的那一類，這是因為人的頭腦里，已經事先充滿關於報紙版面編排的格式，知道中文字體的特性，中文書寫有直向與橫向的方式•• •等等，將傳統運算後支離破碎結果，依照已經存在頭腦中關於報紙方面的知識，做進一步的推論處理並加以判斷。本篇論文基於以上的認知，嘗試將人們對於報紙格式的經驗知識萃取出來，並選擇一種知識的表達方式，將其表現在計算機的記憶體中，希望藉著這些知識的幫助能在切割與分類方面推論出更正確的結果。	zh_TW
dc.language.iso	zh_TW	en_US
dc.subject	中文報紙切割	zh_TW
dc.subject	專家系統	zh_TW
dc.subject	矩行區塊	zh_TW
dc.subject	版面編排	zh_TW
dc.subject	BINARIZATION	en_US
dc.subject	DIGITIZATION	en_US
dc.subject	NOISE	en_US
dc.title	中文報紙切割的專家系統	zh_TW
dc.type	Thesis	en_US
dc.contributor.department	電子研究所	zh_TW
Appears in Collections:	Thesis