以鬆弛法做中文斷詞及其應用

標題:	以鬆弛法做中文斷詞及其應用
作者:	笵昌康 FAN,CHANG-KANG 蔡文祥 CAI,WEN-XIANG 資訊科學與工程研究所
關鍵字:	鬆弛法;中文斷詞;中文資訊處理;單字詞;字詞指派;縮減瑪對詞的指派
公開日期:	1989
摘要:	斷詞是中文資訊處理的一個重要步驟。由於中文書寫習慣各字間並無間隔符號，大多數中文字均可做單字詞使用，在句子裡許多字與其前后的字各別均可相連成詞，以及許多長詞裡包含數個短詞，這些中文的特性都會造成斷詞時的混淆。本論文提出一種基於松馳原理的中文斷詞方法。將斷詞視做一種對句中各字做「字詞指派」的過程。分析利用句中字詞間的組成關係做為指派方式的約束條件；並以機率式松馳循環建立指派機率的修正模式。在執行松馳程序時，這些約束條件將剔除不相容的指派，而在最后找出正確的斷詞結果。本研究又以此為基礎發展出三項應用。第一項是直接將此方法用於把句子分解成各個組成詞的片段，實驗結果得到95% 的正確率。此一程序經修改調整後應用到另外兩項中文處理的問題。其一與注音輸入時一音多字有關；其二則與中文輸入時減省輸入碼數的問題有關。由於中文一音式字，故在注意輸入時，使用者常須花費甚多精神在螢幕上的同音字集挑出所需要的字。本研究將此問題轉換成對應的中文字，實驗結果得到96% 的正確率。另外由於多數中文碼編碼規則均甚繁雜，一般使用者常苦於難以記全。本研究提出一種方法，允許便用者不必鍵入全碼，只須鍵入縮減碼即可。方法是先找出所有對應於同一縮減碼的同碼字，以及它們所能組成的詞，再運用「縮減碼對詞的指派」的觀念修改原來的松馳程序, 來找出正確對應的中文字。實驗結果在允許對每一字均可隨機減省二碼的情況下，得到90 % 的正確率。
URI:	http://140.113.39.130/cdrfb3/record/nctu/#NT782392003 http://hdl.handle.net/11536/54404
顯示於類別：	畢業論文