完整後設資料紀錄
DC 欄位語言
dc.contributor.author黃瀚萱en_US
dc.contributor.authorHen-Hsen Huangen_US
dc.contributor.author孫春在en_US
dc.contributor.authorChuen-Tsai Sunen_US
dc.date.accessioned2014-12-12T01:19:15Z-
dc.date.available2014-12-12T01:19:15Z-
dc.date.issued2007en_US
dc.identifier.urihttp://140.113.39.130/cdrfb3/record/nctu/#GT009555586en_US
dc.identifier.urihttp://hdl.handle.net/11536/39538-
dc.description.abstract斷句是古漢語處理的特殊議題。在20世紀之前,中文的書寫系統,並沒有使用標點符號的習慣。在閱讀古籍的時候,讀者必須從文句中,辨別應該停頓或分隔的地方,而後才能理解文義。由於斷句並沒有明確的規則和方法,全憑讀者的語感和經驗來判斷,同一個句子,不同的讀者,往往會有不同的斷法,而不同的斷法,造成了不同的文義解讀。所以,在處理古籍的時候,斷句是重要而困難的第一步驟。 過去沒有理想的自動化斷句方法,斷句的工作,多半交由文史專家,以人力來處理。雖然常見的經史典籍,目前已有斷句標點過的版本,但隨著歷史文獻不斷地發掘出土,仍然有無數的古代文獻,尚待斷句處理。 在本研究中,我以hidden Markov models(HMMs)和conditional random fields(CRFs)等兩種序列標記模型,設計古漢文斷句系統,並在實驗中獲得不錯的斷句結果。同時,在實驗中也發現,只要training data的質量足夠,則具有跨文本、跨作者、跨體裁的適用性。例如,以《史記》作training data,對於其他上古漢語的文本,都有頗佳的斷句表現。本研究的成果,展現了自動化古漢語斷句的可行性,並得以實用在數位典藏、文字探勘、資訊擷取等工作上,輔助人力,更快速地處理大量歷史文獻。zh_TW
dc.description.abstractSentence segmentation is a special issue in Classical Chinese language processing. To facilitate reading and processing of the raw Classical Chinese data, I proposed a statistical method to split unstructured Classical Chinese text into smaller pieces such as sentences and clauses. To build this segmenter, I transformed the sentence segmenting task to a character labeling task, and utilized two sequence labeling models, hidden Markov models (HMMs) and conditional random fields (CRFs), to perform the labeling work. My methods are evaluated on nine datasets from several eras (from the 5th century BCE to the 19th century). My CRF segmenter achieves an acceptable performance and can be applied on a variety of data from different eras.en_US
dc.language.isozh_TWen_US
dc.subject古漢語斷句zh_TW
dc.subject自然語言處理zh_TW
dc.subject文本分割zh_TW
dc.subject序列標記zh_TW
dc.subject條件隨機域zh_TW
dc.subjectClassical Chinese sentence divisionen_US
dc.subjectnatural language processing (NLP)en_US
dc.subjecttext segmentationen_US
dc.subjectsequence labelingen_US
dc.subjectconditional random fields (CRFs)en_US
dc.title以序列標記方法解決古漢語斷句問題zh_TW
dc.titleClassical Chinese Sentence Division by Sequence Labeling Approachesen_US
dc.typeThesisen_US
dc.contributor.department資訊科學與工程研究所zh_TW
顯示於類別:畢業論文


文件中的檔案:

  1. 558601.pdf

若為 zip 檔案,請下載檔案解壓縮後,用瀏覽器開啟資料夾中的 index.html 瀏覽全文。