完整後設資料紀錄
DC 欄位 | 值 | 語言 |
---|---|---|
dc.contributor.author | 范長康 | en_US |
dc.contributor.author | FAN, CHANG-KANG | en_US |
dc.contributor.author | 蔡文祥 | en_US |
dc.contributor.author | CAI, WEN-XIANG | en_US |
dc.date.accessioned | 2014-12-12T02:06:50Z | - |
dc.date.available | 2014-12-12T02:06:50Z | - |
dc.date.issued | 1989 | en_US |
dc.identifier.uri | http://140.113.39.130/cdrfb3/record/nctu/#NT782394035 | en_US |
dc.identifier.uri | http://hdl.handle.net/11536/54567 | - |
dc.description.abstract | 斷詞是中文資訊處理的一個重要步驟。由於中文書寫習慣各字間並無間隔符號,大多 數中文字均可做單字詞使用,在句子裡許多字與其前後的字各別均可相連成詞,以及 許多長詞裡包含數個短詞,這些中文的特性都會造成斷詞時的混淆。本論文提出一種 基於鬆弛原理的中文斷詞方法。將斷詞視做一種對句中各字做「字詞指派」的過程。 分析利用句中字詞間的組成關係做為指派方式的約束條件;並以機率式鬆弛循環建立 指派機率的修正模式。在執行鬆弛程序時,這些約束條件將剔除不相容的指派,而在 最後找出正確的斷詞結果。 本研究又以此為基礎發展出三項應用。第一項是直接將此方法用於把句子分解成各個 組成詞的片段,實驗結果得到95%的正確率。 此一程序經修改調整後應用到另外兩項中文處理的問題。其一與注音輸入時一音多字 有關;其二則與中文輸入時減省輸入碼數的問題有關。由於中文一音多字,故在注意 輸入時,使用者常須花費甚多精神在螢幕上的同音字集挑出所需要的字。本研究將此 問題轉換成「音節對詞的指派」,修改上述的斷詞程序可自動將輸入音節串轉換成對 應的中文字,實驗結果得到96%的正確率。另外由於多數中文碼編碼規則均甚繁雜, 一般使用者常苦於難以記全。本研究提出一種方法,允許使用者不必鍵入全碼,只須 建入縮減碼即可。方法是先找出所有對應於同一縮減碼的同碼字,以及它們所能組成 的詞,再運用「縮減碼對詞的指派」的觀念修改原來的鬆弛程序,來找出正確對應的 中文字。實驗結果在允許對每一字均可隨機減省二碼的情況下,得到90%的正確率。 | zh_TW |
dc.language.iso | zh_TW | en_US |
dc.subject | 鬆弛法 | zh_TW |
dc.subject | 中文斷詞 | zh_TW |
dc.subject | 間隔符號 | zh_TW |
dc.subject | 注音 | zh_TW |
dc.subject | 編碼 | zh_TW |
dc.title | 以鬆弛法做中文斷詞及其應用 | zh_TW |
dc.type | Thesis | en_US |
dc.contributor.department | 資訊科學與工程研究所 | zh_TW |
顯示於類別: | 畢業論文 |