標題: 生物文獻中蛋白質交互關係抽取之研究
Protein-Protein Interaction Extraction from Biomedical Literature
作者: 施曉茹
Hsiao-Ju Shih
梁婷
Tyne Liang
資訊科學與工程研究所
關鍵字: 關係抽取;蛋白質交互作用;分類;生物文獻;relation extraction;protein-protein interaction;classification;biomedical literature
公開日期: 2005
摘要: 在分子生物領域中,對於分子生物學家,若能從文獻中自動抽取出具有交互關係的蛋白質配對,將有助於生物知識庫的自動化。 過去,一些研究利用自然語言的處理技術,將文獻中的語句做語法分析,再進一步,利用設定好的規則,抽取關係,然而,語法的分析是複雜且耗時的。相反的,另一些研究,利用資料探勘的技術,從大量文獻或資料中找出有用的特徵,利用特徵抽取關係,雖然避免複雜的語句分析,但常因訓練資料不足而所限制。過去多數研究以句子為主,進行關係抽取,而本篇論文,是考慮整篇摘要後,再抽取關係,避免使用複雜的語句分析,進而解決跨句關係的抽取問題。 在本篇論文,我們利用文獻資訊、生物資料庫以及網路資源提出一套二階段的辨識程序。在第一階段,我們延用過去研究所使用的樣式,來抽取句中所含關係配對;在第二階段,建構了Naïve Bayes分類器,來處理跨句關係的抽取,除了考慮常被使用的特徵,如詞間距離、共現詞彙、以及共現頻率外,我們另外加入了蛋白質資料庫的資訊,利用分類器,進行二元分類。我們發現除了詞間距離、共現詞彙及頻率外,共同參考文獻的相似值在分類上也扮演重要的角色。我們分別在兩個測試語料上進行實驗,得出第一階段分別可達到41%、32%的F分數,經由第二階段,F分數分別可提升到62%、61%。
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT009223631
http://hdl.handle.net/11536/76681
Appears in Collections:Thesis


Files in This Item:

  1. 363101.pdf

If it is a zip file, please download the file and unzip it, then open index.html in a browser to view the full text content.