標題: 以音諧頻率定位碼辨認國語連續語音
作者: 顏百宏
YAN, BAI-HONG
魏凌雲
WEI, LING-YUN
電信工程研究所
關鍵字: 國語;語言辨認;頻諧能量比例碼;音諧頻率定位碼;雙音詞;詞量;會話;SERC;FFLC
公開日期: 1988
摘要: 本論文研製之目的在建立一套用以辨認165 個國語連續音句子的語音辨認系統。這些 句子包含了176 個單音詞,796 個變音詞和31個三音詞。為便利於實際上的應用,實 驗中所辨認的句子是有關於飛機、火車訂票的對話。因為在這些情形下,會話所使用 的詞彙有一定的範疇,這使得實驗中採用的句子更具有實用性。 我們採用頻譜能量比例嗎(SERC)來代表語音的特性,此參數能充份表現聲音的特性 ,同時計算兩個示樣之間的距離相當簡便。為了達到即時處理的目的,我們利用R562 1 這個積體電路來做頻帶濾波器,它和半波整流器以及低通濾波器三者共同構成了一 個頻道。頻譜能量比例碼是由十二個頻道所組成。另外,我們使用了一種稱為相似度 比較器的計算器(PF474C),它主要的功能是用來比較兩組由字串構成的序列。實際 的應用是將一組待處理的字串序列和資料庫中的大量序列做相似度的比較,經過從頭 至尾的搜尋後,PF474C可以找出十六個最相似的候選者,然後再做進一步的處理。 對於辨認國語連續音,我們的策略是將句子正確的切割成單音詞與雙音詞,然後分別 的做辨認。這個策略使得切割的問題處理起來較為容易,同時充份利用國語本身所具 有的特性。根據中文辭源的統計顯示,雙音詞占所有字彙的三分之二,因此,我們特 別注重雙音詞的辨認。音諧頻率定位碼(FFLC)是由SERC轉換而來,FFLC可用以做相 似度的排序,因此減少了比對的資料庫,利用這個方法,辨認所須的時間很顯著的減 少了。 實驗數據顯示平均的切割率是91%,證明我們的策略相當可行。句子的平均辨認率是 97%,這是因為國語鄉連續語音可視為由單音詞和雙音詞的二元化示樣穿差而成,此 特性可用來提高辨認率。值得注意的是,雙音詞的辨認率明顯的高於單音詞的辨認率 ,因而我們相信雙音詞是最佳的辨認單位。
URI: http://140.113.39.130/cdrfb3/record/nctu/#NT772436006
http://hdl.handle.net/11536/53960
Appears in Collections:Thesis