標題: 多重解析之聽覺表徵圖中的相位特異點在語者辨識上之應用
Phase Singularities in Multi-Resolution Auditory Representation for Speaker Recognition Application
作者: 冀泰石
CHI TAI-SHIH
交通大學電信工程系
關鍵字: 聽覺模型;相位特異點;多重解析;小波轉換;語者辨識
公開日期: 2006
摘要: T. Chi和 S. Shamma於1999年提出一個運算分析的聽覺模型。 此聽覺模型是根據心理聲學(Psychoacoustics)及神經生理學(Neurophysiology)在哺乳類聽覺系統之耳蝸及大腦皮質區的一些研究發現。 從數學的觀點來看, 此模型對一些聲音感知上扮演重要角色的時域和頻率上的特徵提供了一個一元化的多重解析的表徵圖(multi-resolution representation)。 此多重解析的聽覺表徵圖已於2003年成功的延伸應用於語言理解度(Speech Intelligibility)上的量測。 在此聽覺模型中,聲波信號將經過連續的兩個轉換: (1) 一個類似小波轉換(affine wavelet transform)並連接著非線性壓縮及訊息縮減階段。 這些過程將會預測產生一種對噪音相對不敏感及強化感知的聲音頻譜, 此種頻譜稱為聽覺頻譜。這一階段的轉換是模擬耳蝸的功能。 (2) 對聽覺頻譜的一個複數類似小波轉換(complex affine wavelet transform)。 這個轉換將產生一個對應於聽覺頻譜的多重解析之聽覺表徵圖。 此表徵圖明白紀錄在不同解析度上的頻譜形狀特徵, 例如頻譜高峰之局部寬度, 對稱性及頻譜能量之大致分配狀況。 這一階段的轉換是模擬大腦皮質成音區的功能。 此研究計畫的目標是檢視聲音頻譜於聽覺表徵圖中的相位特異點(phase singularity)特徵編碼狀況, 並將此特異點特徵應用在語者辨識之問題上。 我們在此將會探討此相位特異點相對於傳統的梅爾倒頻譜參數特徵(Mel-Frequency Cepstral Coefficients)在高斯混合模型(Gaussian Mixture Model)之辨識器下於抗噪音, 感知強化, 及提高語者辨識正確率之優越表現。
官方說明文件#: NSC95-2221-E009-005
URI: http://hdl.handle.net/11536/89079
https://www.grb.gov.tw/search/planDetail?id=1192121&docId=225565
顯示於類別:研究計畫