標題: 知識管理中資料自動擷取與追蹤
Automatic Crawling and Tracking on Knowledge Management System
作者: 李杰樷
Jie-Tsung Li
袁賢銘
Shyan-Ming Yuan
資訊科學與工程研究所
關鍵字: 知識管理系統;資料自動擷取;資料追蹤;砍站軟體;Knowledge Management System;Automatic Crawling;Data Tracking;Crawler
公開日期: 2005
摘要: 面對龐大的數位資料,使用者可以透過知識管理系統的協助,自動整理這些資料,將原本雜亂無章的資料轉換成為有用的資訊,並且給予使用者建議:哪些是建議使用者閱讀的?或者哪些資料需要使用者協助過濾。 網際網路本身就是一個相當龐大的數位資料庫,使用者想要讓知識管理系統可以幫忙從中萃取知識,知識管理系統的管理員可以透過代理程式的幫助,將龐大的資料自動的從網際網路裡抓取及其他的前置處理,提供後端的知識管理系統。然而知識管理系統的管理員必須根據不同的通訊協定使用不同的代理程式,代理程式的操作隨著不同的程式有不同的設定方法,不夠彈性的設定往往讓程式多抓了很多不必要的資料,造成網路頻寬與計算資源的浪費;同時,無從得知每次擷取的一大堆資料中,究竟哪些是已經擁有的,那些才是新的資料或更新過的資料,知識管理系統處理很多重複且已經處理過的資料,將造成計算資源的浪費。 為了解決上述的問題,我們提出一個代理程式的架構,並且將之實做出來;代理程式的開發人員只要照著這個架構針對不同的通訊協定實做程式元件,便能容易的整合進這個程式裡;代理程式不但提供擷取資料的能力,並且還能追蹤資料,透過程式的報告便可以追蹤資料的改變狀況。我們目前整合了檔案傳輸協定(FTP)與超文件傳輸協定(HTTP)兩種通訊協定的擷取與追蹤,並且提出一個演算法支援採用網址改寫(URL rewriting)實做超文件傳輸協定議程(session)的網站的資料追蹤。以外,知識管理系統的管理者只要熟習這個代理程式的多重步驟的使用介面,便可以精確的描述想要擷取的資料,從被支援的網路協定的資料來源下載或者追蹤資料。
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT009323506
http://hdl.handle.net/11536/79032
顯示於類別:畢業論文


文件中的檔案:

  1. 350601.pdf

若為 zip 檔案,請下載檔案解壓縮後,用瀏覽器開啟資料夾中的 index.html 瀏覽全文。