一個關於一般音訊資料之音訊分類，音訊分段及音訊檢索之研究(I)

標題:	一個關於一般音訊資料之音訊分類，音訊分段及音訊檢索之研究(I) A Study On Classification, Segmentation And Retrieval For Generic Audio Data(I)
作者:	陳玲慧 CHEN LING-HWEI 國立交通大學資訊科學學系(所)
關鍵字:	音訊分類;音訊分段;音訊檢索;MPEG-7;聲紋圖;Fisher Linear Discriminator;Gabor wavelets
公開日期:	2005
摘要:	近年來由於多媒體資料之大量增長，使得有效管理多媒體資料庫之議題變得十分重要而富挑戰性。因此多媒體資料庫之檢索及儲存便成為一個重要之研究領域。由於音訊資料在多媒體資料當中隨處可見，因此音訊資料相關的研究與分析便顯得重要；尤其是基於音訊內涵為主的相關分析更為重要與迫切。目前以音訊內涵為主的相關研究十分有限，而其主要的問題與研究課題可歸納為三: 音訊分類、音訊分段以及音訊檢索。本計畫係為三年期之計畫，其主要目的為以聲紋圖為基礎，運用圖型識別等相關的理論來發展一些解決上述問題的方法。就音訊資料內容分析而言，音訊分類為重要的處理步驟之一；而目前音訊分類的研究主要的問題乃是音訊的分類種類不足。大多數的分類法都只將音訊分成語音和音樂兩大類；發展這樣的分類法比較簡單容易，然而這樣的分類法並不足以應付目前的多媒體資料。為了解決這個問題，在第一年的計畫中，我們將提出一個新的音訊分類法；除了語音和音樂這兩大類，我們所提出的分類法尚考慮了目前多媒體資料中常見的語音與背景音樂混合、流行歌曲等複合型態音訊資料。這個分類法主要的重點在於，利用所提出的新音訊特徵與階層式分類法來達到音訊分類的目的。其系統之設計除了具備以音訊內涵為特徵來處理之功能及特色之外，其處理效率更是一個核心重點。接著在第二年的計畫中，我們將會提出一個基於音訊分類的音訊分段法。此方法的主要觀念是基於一個事實，即不同種類的音訊資料其聲紋圖上蘊含了視覺上可見的特徵；例如音樂性的資料其能量在聲紋圖上會集中分佈在某些方向，而語音類的資料，其能量的分佈會集中在某些頻帶區間，而隨機性的音訊資料例如雜訊，其能量的分佈則出現在所有方向。基於上述事實，我們將利用Gabor Wavelet 先針對以一秒為單位之音訊資料的聲紋圖上能量在方向性分佈以及比例進行強化，接著利用強化後的聲紋圖上能量在方向性分佈以及比例的分析來進一步將音訊資料分類。接著，基於分類後的結果，將音訊作分段切割處理。最後，在第三年的計畫中，我們將提出一個基於音訊內涵的音訊資料檢索方法。此方法將針對使用者所提供的音訊查詢片段進行音訊檢索，其檢索能力範圍包括資料庫中相似的音訊片段，樂曲中重複的音訊片段及旋律相同但表達方式不同的歌曲，例如使用不同語言演唱或者不同演唱人等。此方法的主要觀念也是運用音訊資料其聲紋圖上所蘊含的視覺上可見的有效特徵，並利用Gabor Wavelets 針對音訊資料的聲紋圖上能量在方向性分佈以及比例進行強化，並利用強化後的聲紋圖其傅立葉頻譜的反應值來找出最有效率的聲紋圖。最後利用特徵選擇以及圖型識別理論找出所需要的特徵以提供音訊檢索之用。本計畫所欲提出之三種方法可應用於多媒體資料檢索，音訊瀏覽及數位圖書館系統之設計。
官方說明文件#:	NSC94-2213-E009-091
URI:	http://hdl.handle.net/11536/90556 https://www.grb.gov.tw/search/planDetail?id=1136828&docId=217267
顯示於類別：	研究計畫