標題: 特徵檔的新存取方式
作者: 傅華
FU,HUA
李素瑛
LI,SU-YING
資訊科學與工程研究所
關鍵字: 特徵檔;新存取方式;文章檔;不定型資料庫;資料相關性;批次作業
公開日期: 1989
摘要: 特徵檔是文章檔的簡明表式。搜尋特徵檔可事先消除大部分不符合要求的文章。因此 ,特徵檔是以耗費較小的額外儲存空間,為加速擷取資料的時間以改進傳統存取系統 擷取資料之效益。然而由於特徵檔隨原資料庫的增長而增長,所以搜尋特徵檔所需的 時間也相對的提昇。因此,若能改進特徵檔的搜尋方式便可進而提高其效益。 本文中針對特徵檔提出一種新的架構。此架構可運用在各種型式定型與不定型資料庫 中。主要目的在改進搜尋特徵檔與擷取資料所需的時間。基本上是將原特徵檔根據在 原檔中所有不同且非通常字的出現機率來排序。然後依據排序時所用的數值來建立指 標檔。將各個指標指到特徵檔中相對應的段中。每一段中包含一組記錄或文章的特徵 。當給定一查詢字時,則依據該字的出現機率找出其在指標檔中對應的指標。由此指 標得到可能包含該查詢字的段組。針對此段組中文章的特徵進行搜尋以得到合格的資 料。 在此文中,除了考慮有效率的取出外,對於不定型資料庫更加入資料相關性的考慮, 並提供了三種不同的方式。每一種方式配合了一個排名函數,用以按照積分來排列取 出的文章,以便將最符合要求的資料回應給使用者。 此外,我們建立一個數學模式來分析其性能,並經由實驗結果驗證此方法的優異比之 其他方法有大幅度的改進。此文所提出的方法非常適於變動較少大型資料庫。採用此 法可以加快擷取的速度。對於必須變更的資料,則可每隔一段時間以批次作業方式完 成更新。
URI: http://140.113.39.130/cdrfb3/record/nctu/#NT782392041
http://hdl.handle.net/11536/54443
顯示於類別:畢業論文