標題: 基於互信息的變數分群和變數選取
Variable Clustering and Variable Selection Based on Mutual Information
作者: 王景文
周志成
電控工程研究所
關鍵字: 互信息;變數分群;變數選取;mutual information;variable clustering;variable selection
公開日期: 2010
摘要: 資訊爆炸時代各領域處理的資料量不斷倍增,變數選取——如何從龐大的資料中挑選出最有價值的變數——已成為一個至關重要的問題。變數選取的目的有二:藉由挑選代表變數達到簡化系統的效果,以及針對給定的目標變數挑選有效的解釋變數以建立高準確度的預測模型。變數分群是變數選取的一種實現過程,其功用在將相似度高的變數聚在一群,再從每一群中挑出具代表性的變數。傳統變數分群和變數選取的方法受到變數間必須呈線性關係、資料型態必須是連續及呈多變量常態分布這些條件的限制,本論文提出一種基於互信息理論的變數分群、變數選取方法,使用互信息來衡量變數的相似度可以克服傳統方法的限制。變數分群有兩種模式,一是以互信息當作變數間的“距離”使用k-中心分群,二是先推論出互信息網路,在其上使用譜分群。變數選取則依兩種不同的目的分別以互信息和中心度來挑選每一群的代表變數。最後以晶圓製程的資料來驗證我們的方法,結果顯示k-中心分群所選出來的變數在兩種變數選取的目的上均有較佳的表現。
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT079812536
http://hdl.handle.net/11536/46893
Appears in Collections:Thesis


Files in This Item:

  1. 253601.pdf

If it is a zip file, please download the file and unzip it, then open index.html in a browser to view the full text content.