標題: 以時、頻域聽覺處理為依據之語音強化策略
Spectro-Temporal Auditory Processing Based Speech Enhancement Strategies
作者: 冀泰石
CHI TAI-SHIH
交通大學電信工程系
關鍵字: 聽覺模型;語音強化;噪音降低;時;頻域分析;多重解析
公開日期: 2006
摘要: Ephraim和Malah於1984年提出一個單通道噪音降低之演算法。此演算法預測在無語音信號下,噪音之最小均方誤差(MMSE)的短期頻譜振幅。幾乎所有的單通道噪音降低演算法都必須對噪音頻譜做預測。然而,較近期的研究指出,時域上的封包(envelope)與頻譜的內容對語言理解度都有決定性的影響。因此,我們相信較有效的語音強化(speech enhancement)策略必與聯合時域、頻率的信號特徵有關。 我們曾提出一個時、頻域(spectro-temporal)混合的聽覺運算模型。此模型是根據已知的外圍聽覺系統的生物物理現象(biophysics)及大腦皮質成音區單一神經元的反應而建立。此模型也經由模型輸出與心理聲學(psycho-acoustic)實驗對人類聽力的時、頻域調變轉換函數(modulation transfer functions)測量值之間成功的匹配而獲得驗證。從功能上來說,大腦皮質成音區可視為一組時、頻域的調幅濾波器。也就是說,成音區的輸出是一組對輸入聲譜圖(spectrogram)經由帶通濾波後的二維圖像。因神經元的反應區域(response fields)重疊而造成模型輸出也有著高度的重複性。我們相信就是此高度重複性造就了清晰且穩固的時、頻域特徵。 此研究將專注於分析不同噪音條件下的聽覺模型輸出,並據此提出在二維聯合時、頻域上的語音強化策略。我們並將對所提出的策略與傳統的頻域策略在結合語音辨識的應用上做性能的比較與驗證。
官方說明文件#: NSC95-2221-E009-232
URI: http://hdl.handle.net/11536/89303
https://www.grb.gov.tw/search/planDetail?id=1309372&docId=241951
顯示於類別:研究計畫