標題: 模糊邏輯控制於語者調適及音訊事件偵測之參數調適
On the Use of Fuzzy Logic Control in Adaptive Parameter Tuning for Speaker Adaptation and Audio Event Detection
作者: 丁英智
林正中
資訊科學與工程研究所
關鍵字: 模糊邏輯控制;語者調適;音訊事件偵測;Fuzzy Logic Control;Speaker Adaptation;Audio Event Detection
公開日期: 2008
摘要: 本篇論文在語者調適(speaker adaptation, SA)領域及音訊事件偵測(audio event detection)領域中導入了模糊邏輯控制(fuzzy logic control, FLC)機制以強化調適品質,從而改善自動語音辨識(automatic speech recognition, ASR)系統及音訊事件辨認(audio event recognition)系統的辨識性能。個人提出了數個結合模糊邏輯控制器的方法以有效地掌控辨識系統中的不定參數,進而使系統在處於極為不利的辨識情況時仍能保持令人滿意之辨識結果。對於語者調適領域,個人針對兩個廣為流傳的調適技術範疇:貝氏調適(Bayesian-based)及轉換調適(transformation-based)置入FLC調控機制。最大後機率(maximum a posteriori, MAP)估測調適是一種貝氏調適的典型方法。根據MAP方法,個人提出了結合一適當的模糊控制器的FCMAP方法。所發展之FCMAP可以藉由所設計的模糊控制器依據調適語料量之多寡有效地糾正隱藏式馬可夫模型(hidden Markov model, HMM)參數。然而, MAP僅針對調適語料所涉及的HMM參數進行調適的改善,對於絕大部份沒有調適語料的HMM參數並無法提供有效的助益;FCMAP亦承繼此一弱點。由於向量場平滑化方法(vector field smoothing, VFS)可以填補MAP方法的此項弱點,因此,個人延續FCMAP的設計概念而提出了在VFS調適程序中整合一個模糊邏輯控制器的FLC-VFS調適方法以對較多無調適語料的HMM參數在調適上提供有效的改善。目前廣為使用之最大可能性線性迴歸(maximum likelihood linear regression, MLLR)乃經典之轉換調適。以此MLLR方法做為基礎,個人提出了一個FLC-MLLR調適方法以確保傳統MLLR在遭遇調適語料稀少時的強健性。FLC-MLLR調適程序乃先建構一種像MAP方法的模型結合調適方式,而後再利用所設計的FLC依據調適語料量之多寡以決定需參考語者不相關(speaker independent, SI)模型之程度。再者,對於特定音訊事件的偵測,個人也提出了一個在FLC的架構之下實現可變動長度之決定視窗的辨識方法。實驗結果顯示在本篇論文中所提出各個整合FLC調控機制的方法之辨識精確度皆明顯優於傳統的方法。
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT009017816
http://hdl.handle.net/11536/81769
顯示於類別:畢業論文


文件中的檔案:

  1. 781601.pdf

若為 zip 檔案,請下載檔案解壓縮後,用瀏覽器開啟資料夾中的 index.html 瀏覽全文。