标题: | 一个关于一般音讯资料之音讯分类,音讯分段及音讯检索之研究(I) A Study On Classification, Segmentation And Retrieval For Generic Audio Data(I) |
作者: | 陈玲慧 CHEN LING-HWEI 国立交通大学资讯科学学系(所) |
关键字: | 音讯分类;音讯分段;音讯检索;MPEG-7;声纹图;Fisher Linear Discriminator;Gabor wavelets |
公开日期: | 2005 |
摘要: | 近年来由于多媒体资料之大量增长,使得有效管理多媒体资料库之议题变得十分重 要而富挑战性。因此多媒体资料库之检索及储存便成为一个重要之研究领域。由于音讯 资料在多媒体资料当中随处可见,因此音讯资料相关的研究与分析便显得重要;尤其是 基于音讯内涵为主的相关分析更为重要与迫切。 目前以音讯内涵为主的相关研究十分有限,而其主要的问题与研究课题可归纳为三: 音讯分类、音讯分段以及音讯检索。本计画系为三年期之计画,其主要目的为以声纹图 为基础,运用图型识别等相关的理论来发展一些解决上述问题的方法。 就音讯资料内容分析而言,音讯分类为重要的处理步骤之一;而目前音讯分类的研 究主要的问题乃是音讯的分类种类不足。大多数的分类法都只将音讯分成语音和音乐两 大类;发展这样的分类法比较简单容易,然而这样的分类法并不足以应付目前的多媒体 资料。为了解决这个问题,在第一年的计画中,我们将提出一个新的音讯分类法;除了 语音和音乐这两大类,我们所提出的分类法尚考虑了目前多媒体资料中常见的语音与背 景音乐混合、流行歌曲等复合型态音讯资料。这个分类法主要的重点在于,利用所提出 的新音讯特征与阶层式分类法来达到音讯分类的目的。其系统之设计除了具备以音讯内 涵为特征来处理之功能及特色之外,其处理效率更是一个核心重点。 接着在第二年的计画中,我们将会提出一个基于音讯分类的音讯分段法。此方法的 主要观念是基于一个事实,即不同种类的音讯资料其声纹图上蕴含了视觉上可见的特 征;例如音乐性的资料其能量在声纹图上会集中分布在某些方向,而语音类的资料,其 能量的分布会集中在某些频带区间,而随机性的音讯资料例如杂讯,其能量的分布则出 现在所有方向。基于上述事实,我们将利用Gabor Wavelet 先针对以一秒为单位之音讯 资料的声纹图上能量在方向性分布以及比例进行强化,接着利用强化后的声纹图上能量 在方向性分布以及比例的分析来进一步将音讯资料分类。接着,基于分类后的结果,将 音讯作分段切割处理。最后,在第三年的计画中,我们将提出一个基于音讯内涵的音讯资料检索方法。此 方法将针对使用者所提供的音讯查询片段进行音讯检索,其检索能力范围包括资料库中 相似的音讯片段,乐曲中重复的音讯片段及旋律相同但表达方式不同的歌曲,例如使用 不同语言演唱或者不同演唱人等。此方法的主要观念也是运用音讯资料其声纹图上所蕴 含的视觉上可见的有效特征,并利用Gabor Wavelets 针对音讯资料的声纹图上能量在方 向性分布以及比例进行强化,并利用强化后的声纹图其傅立叶频谱的反应值来找出最有 效率的声纹图。最后利用特征选择以及图型识别理论找出所需要的特征以提供音讯检索 之用。 本计画所欲提出之三种方法可应用于多媒体资料检索,音讯浏览及数位图书馆系统 之设计。 |
官方说明文件#: | NSC94-2213-E009-091 |
URI: | http://hdl.handle.net/11536/90556 https://www.grb.gov.tw/search/planDetail?id=1136828&docId=217267 |
显示于类别: | Research Plans |