標題: | 中文搜尋引擎在tw.bbs上的應用 Chinese Searching Engine: an Application in tw.bbs |
作者: | 許學良 Shyuu, Shyue-Liarng 李嘉晃 Lee, Chia-Hoang 資訊科學與工程研究所 |
關鍵字: | 搜尋引擎;tw.bbs |
公開日期: | 1995 |
摘要: | 本論文探討一個中文搜尋引擎的製作。整個系統分成索引與搜尋兩個部分。索引的部份是採用反轉索引法。在傳統的反轉索引法中,必須詳細地索引(記錄)每個中文字出現的地方,這其中包括了這個中文字出現在哪些檔案及在該檔案中的哪些位置。在我們採用的方法中,索引檔只記載每個中文字分別出現在哪些檔案。即使某個中文字在某個檔案中出現許多次,該檔也只會被記錄一次。搜尋的部份則分為兩個階段,首先我們搜尋索引檔,找出所有可能含有檢索詞的檔案列表,接著,我們再到這些可能的檔案中,使用波以耳-莫爾演算法做字詞的搜尋,進一步確定該檔的內容的確包含了這個檢索詞,而不是只含有組成該詞的中文單字罷了。 This thesis designs and implements a Chinese search engine. The system consists of indexing and searching. In the indexing part, we use inverted index method. In a regular inverted ivdex, every occurrence of every word is indexed with a pointer to the exact location of the occurrence. In our scheme every Chinese character is indexed, but not every occurrence. Even if a Chinese character appears many times in one file, only its document ID appears in the index and only once. The search part consists of two phases. First we search the index for a list of all document IDs that may contain a match to the query. Then, we use Boyer-Moore algorithm to search each file separately. |
URI: | http://140.113.39.130/cdrfb3/record/nctu/#NT843394001 http://hdl.handle.net/11536/61092 |
顯示於類別: | 畢業論文 |