生物文獻中蛋白質交互關係抽取之研究

標題:	生物文獻中蛋白質交互關係抽取之研究 Protein-Protein Interaction Extraction from Biomedical Literature
作者:	施曉茹 Hsiao-Ju Shih 梁婷 Tyne Liang 資訊科學與工程研究所
關鍵字:	關係抽取;蛋白質交互作用;分類;生物文獻;relation extraction;protein-protein interaction;classification;biomedical literature
公開日期:	2005
摘要:	在分子生物領域中，對於分子生物學家，若能從文獻中自動抽取出具有交互關係的蛋白質配對，將有助於生物知識庫的自動化。過去，一些研究利用自然語言的處理技術，將文獻中的語句做語法分析，再進一步，利用設定好的規則，抽取關係，然而，語法的分析是複雜且耗時的。相反的，另一些研究，利用資料探勘的技術，從大量文獻或資料中找出有用的特徵，利用特徵抽取關係，雖然避免複雜的語句分析，但常因訓練資料不足而所限制。過去多數研究以句子為主，進行關係抽取，而本篇論文，是考慮整篇摘要後，再抽取關係，避免使用複雜的語句分析，進而解決跨句關係的抽取問題。在本篇論文，我們利用文獻資訊、生物資料庫以及網路資源提出一套二階段的辨識程序。在第一階段，我們延用過去研究所使用的樣式，來抽取句中所含關係配對；在第二階段，建構了Naïve Bayes分類器，來處理跨句關係的抽取，除了考慮常被使用的特徵，如詞間距離、共現詞彙、以及共現頻率外，我們另外加入了蛋白質資料庫的資訊，利用分類器，進行二元分類。我們發現除了詞間距離、共現詞彙及頻率外，共同參考文獻的相似值在分類上也扮演重要的角色。我們分別在兩個測試語料上進行實驗，得出第一階段分別可達到41%、32%的F分數，經由第二階段，F分數分別可提升到62%、61%。
URI:	http://140.113.39.130/cdrfb3/record/nctu/#GT009223631 http://hdl.handle.net/11536/76681
顯示於類別：	畢業論文

文件中的檔案：

363101.pdf

若為 zip 檔案，請下載檔案解壓縮後，用瀏覽器開啟資料夾中的 index.html 瀏覽全文。