標題: Web萃取資料之資料管理及資料模式之研究(I)
The Study of Data Management and Data Model for Extracted Web Data(I)
作者: 吳毅成
I-CHENWU
國立交通大學資訊工程研究所
關鍵字: 資料管理;資料模式;資料定義語言;資料萃取;資料貯存;資訊查詢;網站再生工程;網站資料整合
公開日期: 2004
摘要: 隨著全球資訊網(World Wide Web)的快速發展,如何在這些大量資料中萃取出有用的訊息是非常重要的事情,例如:比價系統須萃取出相關電子商務網站中的有用訊息,如產品名稱、價格、購買方式等;其他,如萃取網路上一些新聞、及出版單位之書籍文章目錄等。在我們過去的國科會計畫中,我們設計了一個資料萃取語言叫做DESDL (Data Extraction Service Description Language)及其雛形系統來解決這些問題,並已技術轉移至業界。然而如何對所萃取的資料進一步做一般化的管理是接下來的一件非常重要研究課題。萃取出Web資料的管理之基本應用有︰資料貯存(data storing)、資料查詢(data query)、網站再生工程(web site reengineering) 、網站資料整合(web site integration)等。 這些Web資料管理應用的共通需求,是如何將Web的資料與資料庫的資料容易地互轉及整合,以便於管理。然而由於Web資料較為不規律,解決這些需求並非易事。首要工作是研究明確及有彈性的Web資料模式,如此方能簡化這些需求。因此,本計畫將以過去設計出的DESDL資料萃取系統為基礎,提出一套適用於DESDL的資料模式,以便於管理所萃取出的資料。主要工作項目如下:(前四項為第一年計畫,而後四項為第二年計畫) 1. 收集並分析過去Web資料模式及資料管理的研究。 2. 提出一套適用於DESDL的資料模式,並對此模式制定資料定義語言。 3. 研究此模式與關聯式資料庫之對應關係。這研究含如何從這資料定義語言自動產生相對應的關聯式資料庫schema。 4. 研究DESDL萃取系統與此模式之對應關係。這研究含如何從DESDL系統所產生的script,自動產生相對應的資料定義語言。結合前項研究工作,可使DESDL萃取系統自動萃取網站資料至關聯式資料庫。 5. 研究並設計如何整合不同網站的資料。這須研究及分析如何將不同的資料定義整合於同一個資料定義。 6. 研究並設計適用於此資料定義語言的查詢語言及系統。 7. 研究並設計適用於此資料定義語言的網站再生工程系統。 8. 以現有電子商務網站為實例,展示所研究的系統對萃取資料之管理能力。
官方說明文件#: NSC93-2213-E009-088
URI: http://hdl.handle.net/11536/91365
https://www.grb.gov.tw/search/planDetail?id=1007033&docId=189788
顯示於類別:研究計畫


文件中的檔案:

  1. 932213E009088.pdf

若為 zip 檔案,請下載檔案解壓縮後,用瀏覽器開啟資料夾中的 index.html 瀏覽全文。