標題: 生醫領域語意相似度測量
Semantic Similarity Measurement in Biomedical Domain
作者: 張文勇
Chang, Wen-Yung
謝筱齡
林正中
Hsieh, Sheau-Ling
Lin, Cheng-Chung
資訊科學與工程研究所
關鍵字: 生醫術語;語意相似度;網路探勘;biomedical terminology;semantic similarity;web minning
公開日期: 2008
摘要: 語意相似性度計算在信息檢索和自然語言處理領域扮演重要的角色。在本文中,我們提出了一種基於網頁數的語意相似性度計算方法並應用到生物醫學領域。以往的研究中語意網相關的應用已經使用了各種語意相似度計算的方法。儘管語意相似度計算應用範圍甚廣,但是測量兩個詞之間的語意相似度仍然是一個具有挑戰性的任務。本文提出的方法利用搜尋引擎傳回的網頁數來計算語意相似度。給予兩個詞 P和Q ,利用網頁數的查詢 P和Q和P AND Q以及所定義的公式作為計算整合我們提出的一種新方法使用一些句法查詢其出現的網頁數來計算語意相似度。將這些不同的相似分數分別使用支持向量機和決策樹學習,再計算其出現於同義字類別的機率作為語意的相似度。兩組數據實驗結果顯示,在第一組(A. Hliaoutakis所提出)可以達到0.798的相關係數 ,在第二組(T. Pedersen等人所提出)以醫生的分數為基準可以達到0.705的相關係數 ,以醫學專業人員的分數為基準可以達到0.496的相關係數。
Semantic similarity measure plays an important role in Information Retrieval and Natural Language Processing. In this paper we propose a page-count-based semantic similarity measure and apply it into the biomedical domain. Previous work in semantic web related applications have used various semantic similarity measures. Despite the usefulness of these applications, measuring semantic similarity between two terms remains a challenging task. The proposed method exploits page counts returned by the Web search engine. We define various similarity scores for two given terms P and Q, using the page counts for the queries P, Q and P AND Q. Moreover, we propose a novel approach to compute semantic similarity based upon lexico-syntactic patterns using page counts. The different similarity scores are integrated with support vector machines and decision tree classifier models, to leverage a robustness of the measures. Experimental results achieve a correlation coefficient of 0.798 on the dataset provided by A. Hliaoutakis, 0.705 on the dataset provide by T. Pedersen et al with physician scores and 0.496 with expert scores, respectively.
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT079655574
http://hdl.handle.net/11536/43378
顯示於類別:畢業論文


文件中的檔案:

  1. 557401.pdf

若為 zip 檔案,請下載檔案解壓縮後,用瀏覽器開啟資料夾中的 index.html 瀏覽全文。