標題: GIDL - 網頁萃取技術的一般化介面定義語言之研究
GIDL:General Interface Definition Language for Web Extraction
作者: 陳俊琪
Jun-Chi Chen
I-Chen Wu
關鍵字: 網頁資料萃取;GIDL;PBP;Multiple PBP;GIDLet
公開日期: 2000
摘要: 由於全球資訊網的盛行,許許多多、各式各樣的資訊皆可在網路上取得。但是網路上的資料量愈來愈多,卻加深了使用者在尋找自己想要的資料時的困難度。自動化網頁資料萃取系統在這裡解決了我們的問題,它可以代理使用者到網路上萃取出他們想要的資料。 在本篇論文中,我們對現行的全球資訊網以及相關的網頁萃取技術作一番剖析,提出一套新的網頁萃取的一般化介面定義語言,GIDL (General Interface Definition Language),特別針對Multiple PBP(Page-By-Page)萃取型態的網頁萃取提出解決的方法,並提出了GIDLet的概念來擴充萃取系統的功能。這裡的PBP萃取型態指的是一個網頁接著一個網頁的萃取,而Multiple PBP萃取型態指的就是在萃取一個網頁之後,會同時繼續萃取其中所連結的某些網頁。最後,我們也以GIDL為核心技術實作了一套自動化網頁資料萃取系統,來達到最一般化的網頁萃取功能。
Millions of users can get more and more information through web. Because of ever-increasing volumes of information, it’s not only harder for users to find what they want but also inefficient. An automatic data extraction system of web pages may help us to do that, because it can be users’ agent so to extract what they want on the web. This thesis analyzes the situation of web and current relative technology of data extraction of web pages, and proposes a new data extraction language, named GIDL (General Interface Definition Language). GIDL provides with a new extraction model, named Multiple PBP (Page-By-Page) extraction, and a new plug-in extension mechanism, GIDLet, to extend the function of data extraction system of web pages. PBP is a data extraction model to extract data page by page, and Multiple PBP is a data extraction model to extract data pages by pages. Besides, we also implement an automatic data extraction system of web pages based on GIDL to meet the general extraction of web pages.