Title: | 專利文件之自動分類研究 Automatic Classification of Patent Documents |
Authors: | 林蘭綺 梁婷 資訊科學與工程研究所 |
Keywords: | 專利;分類;熵;patent;classification;entropy |
Issue Date: | 2005 |
Abstract: | 專利文件分類是專利文件分析一項重要的工作。目前在重新調整分類結構和文件分類都需要以人工的方式進行,因此提高自動化分類的正確性,將有效地幫助專利研究人員快速地完成工作。在分類階段,以往利用tf-idf計算詞彙的權重,進行向量空間模型分類法。在本論文中,我們加入Entropy的概念提出新的修正詞彙權重計算方法,以降低因過少的詞彙群組數對文件分類造成的負面影響。我們分別取以主類別(語料1)和子類別(語料2)分類的美國專利文件進行分類研究,經過權重修正之後,在語料1中,當減少至200個詞群數時,調和平均值可由0.387提升至0.735;而語料2在8836至2000之間的詞群數,調和平均值從0.35可提升至0.42。 |
URI: | http://140.113.39.130/cdrfb3/record/nctu/#GT009223561 http://hdl.handle.net/11536/76611 |
Appears in Collections: | Thesis |
Files in This Item:
If it is a zip file, please download the file and unzip it, then open index.html in a browser to view the full text content.