标题: 以多解析度听觉模型嵌入之神经网路模拟听觉专注现象之语音强化演算法
Multi-resolution auditory model embedded neural network for attentional hearing on speech enhancement
作者: 赖贞延
冀泰石
Lai, Chen-Yen
电机工程学系
关键字: 语音增强;听觉模型;专注听觉现象;speech enhancement;auditory model;attentional hearing
公开日期: 2017
摘要: 于本论文中,我们根据神经生物学研究发现的专注听觉现象和生物听觉实验发现的大脑听觉皮质上神经作用的模式,结合现今正当红的类神经网路学习,发想出一种独特的类神经网路模型,并针对语音增强这个议题做讨论,期望能藉由神经生理学的知识,有效的解决工程上的问题。 而我们所设计的这个类神经网路模型,是以基本的卷积神经网路模型作为基底,再作微调整,特别的是,我们嵌入了由 NSL 提出的听觉模型,把其用于模拟大脑皮质 A1 区,设计可同时解析时频域资讯的滤波器,放置于卷积神经网路的卷积层当成初始值;之后模型经过训练,根据设定目标的需要,会自动微调整其中参数,使输入资料映射至目标的型态,而在我们的语音增强议题上,目标即是干净的语音参数。训练完后的模型,之前嵌入卷积层的滤波器初始值也会被调整至可映射到干净语音参数的形式,即自动噪音消除,而这个模型参数微调整的动作,我们认为非常相似于神经生物学上的专注听觉反应,即当有特定目的要达成时,大脑皮质产生的滤波器与在安静环境中使用滤波器并不相同。我们设计了几种不同的比较模型,并且也与传统的神经网路模型进行比较,进而发现在训练资料相当不足的情况下,我们所设计的模型表现都优于其他种模型,即可以快速地达到收敛的状态。
In this thesis, we propose a neural network to emulate auditory attention on speech enhancement. The proposed system integrates a spectro-temporal analytical auditory model with a multi-layer fully-connected network to form a quasi-CNN structure. The initial kernels of the convolutional layer are derived from the neuro-physiological auditory model. To simulate the plasticity of cortical neurons, the kernels are allowed to adjust themselves pertaining to the task at hand. For the application of speech enhancement, the Fourier spectrogram instead of the auditory spectrogram is used as input to the proposed system such that the speech signal can be well reconstructed. The proposed system performs comparably with standard DNN and CNN systems when plenty resources are available. On the other hand, under the limited-resource condition, the proposed system outperforms standard systems in all test settings.
URI: http://etd.lib.nctu.edu.tw/cdrfb3/record/nctu/#GT070450723
http://hdl.handle.net/11536/140223
显示于类别:Thesis