標題: 專利文件之自動分類研究
Automatic Classification of Patent Documents
作者: 林蘭綺
梁婷
資訊科學與工程研究所
關鍵字: 專利;分類;熵;patent;classification;entropy
公開日期: 2005
摘要: 專利文件分類是專利文件分析一項重要的工作。目前在重新調整分類結構和文件分類都需要以人工的方式進行,因此提高自動化分類的正確性,將有效地幫助專利研究人員快速地完成工作。在分類階段,以往利用tf-idf計算詞彙的權重,進行向量空間模型分類法。在本論文中,我們加入Entropy的概念提出新的修正詞彙權重計算方法,以降低因過少的詞彙群組數對文件分類造成的負面影響。我們分別取以主類別(語料1)和子類別(語料2)分類的美國專利文件進行分類研究,經過權重修正之後,在語料1中,當減少至200個詞群數時,調和平均值可由0.387提升至0.735;而語料2在8836至2000之間的詞群數,調和平均值從0.35可提升至0.42。
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT009223561
http://hdl.handle.net/11536/76611
顯示於類別:畢業論文


文件中的檔案:

  1. 356101.pdf

若為 zip 檔案,請下載檔案解壓縮後,用瀏覽器開啟資料夾中的 index.html 瀏覽全文。