標題: | 新世代自動語音辨識技術之研究---子計畫二---語音、韻律之屬性與事件偵測之研究(I) Attribution and Landmark Detection for Mandarin Speech Recognition(I) |
作者: | 王逸如 WANG YIH-RU 交通大學電信工程系 |
關鍵字: | 新世代自動語音辨識系統;語音屬性偵測;語音事件偵測;基頻軌跡偵測;語者資訊偵測 |
公開日期: | 2005 |
摘要: | 在傳統語音辨認方法中,通常只使用語音的頻譜參數作辨認。但是在新世代自動語音辨識技術中,將結合語音與語言學知識,以多種語音屬性(attribution)與語音事件(event)偵測器群,盡可能從語音信號中擷取各種聲學、韻律及語言相關的訊息,在交與後級『語音事件及相關知識整合』及『語音證據確認』單元,做語音辨認甚至於語意瞭解,以期突破傳統隱藏式馬可夫模型(hidden Markov model, HMM)方式的困境。 本計畫中即擬進行國語語音之各種語音屬性、音節邊界、基頻軌跡、韻律資訊、語者資訊之偵測研究,以做為新世代自動語音辨識系統之前端處理器。各項目之研究重點說明如下: (1) 中文語音屬性(attribution)與各種語音事件(event),包括偵測發音方法(articulation manner) ,發音部位(articulation position)與其他語音特徵參數(distinctive feature)。 (2) 中文音節界標(boundary landmark)偵測器,提供後級正確時序訊號。 (3) 中文基頻軌跡偵測器,包括新的求取方法與軌跡追蹤(tracking)方式。 (4) 中文音調與韻律訊息偵測器。 (5) 語者資訊(speaker profile)偵測器,包括語者性別、年齡、口音等。 在研究這些偵測器時,將採取有別於傳統HMM方法的新策略,以求超越傳統語音辨認技術的限制,包括: (1) 使用新的語音訊號參數求取技術,包括: .. Minimum variance distortionless response spectrum (MVDR)。 .. Cochleagram聽覺生理內耳聽覺模型。 .. Hilbert-Huang Transform (HHT)即時訊號頻率(instant frequency)轉換方法。 (2) 使用新發展出的辨認器技術,包括: .. 類神經網路模型-如TDNN (Time delay neural network)或 RNN (Recurrent neural network); .. SVM (Support vector machine); .. GMM (Gaussian mixture model)模型與Reinforcement learning 技術。 (3) 使用語言學知識線索,包括: .. 語言學參數(Acoustic Parameter,AP) .. 鑑別性語言學線索參數(Confusion pair cues) 本計畫將與其它子計畫共同訂定合適的溝通格式,並進行系統整合與提供各子系統理論發展評量工具,以期建立一套新世代自動語音辨識架構。 |
官方說明文件#: | NSC94-2213-E009-134 |
URI: | http://hdl.handle.net/11536/90451 https://www.grb.gov.tw/search/planDetail?id=1136967&docId=217310 |
顯示於類別: | 研究計畫 |