標題: 以時、頻域多重解析聽覺模型為基礎之客觀語音品質估測
The Spectro-Temporal Multiresolution Auditory Model Based Objective Speech Quality Assessment
作者: 冀泰石
CHI TAI-SHIH
國立交通大學電信工程學系(所)
關鍵字: 語音品質;客觀品質量測;多重解析聽覺模型;多維度品質量測;侵入式及非侵入式測試
公開日期: 2007
摘要: 在電信網路的設計及評估領域中,研究人員一直持續追求可靠的客觀式語音品質量測以取代耗時及高成本的主觀式量測。從1990年開始,客觀式語音品質的量測已從原本計算信號波形或語音產生模型為基礎(speech-production-model based)的參數距離移轉至計算以心理聲學為基礎所發展出來的知覺模型參數之距離。一個成功的客觀式量測應當能應用於侵入式及非侵入式兩種不同的測試條件。前者是指乾淨的參考信號及損耗的信號同時存在。而後者是指僅有損耗的信號可供測試,此亦較類似於主觀式測試時的條件。 一個可靠的客觀式品質評估應該包含兩個部份,分別為聽覺的低階特性及人類高階認知行為的闡釋。我們曾提出一個時、頻域(spectro-temporal)混合的聽覺運算模型。此模型是根據已知外圍聽覺系統的生物物理現象(biophysics)及大腦皮質成音區單一神經元的反應而建立。我們將使用此多重解析聽覺模型來涵蓋絕大部分從低階至大腦成音區之聽覺知覺特性。 此次提案的研究將著重於高階認知模型(cognitive model)的發展,並運用於客觀語音品質量測。此認知模型具多重維度,其中的兩個維度是語音的可辨度及語音的自然性。此外,我們將會探索其它可能的維度,例如:語音起始點/結束點的重要性,並且將這些維度納入我們的認知模型。我們將驗證吾人所提出之低階聽覺模型伴隨著高階認知模型在預估主觀測試的實驗結果之成效。此研究成果將提供TTS(text-to-speech)合成器的語音品質或行動電話通道上傳輸語音品質的評估。更進一步的,我們將擴展我們的客觀性語音品質量測至多媒體內容上的音樂品質量測。
官方說明文件#: NSC96-2221-E009-027
URI: http://hdl.handle.net/11536/103124
https://www.grb.gov.tw/search/planDetail?id=1441898&docId=258354
顯示於類別:研究計畫