基于MFCC与IMFCC的说话人识别研究

说话人识别是指利用语音信号包含的信息来辨认说话人是谁或者确认此说话人是否为所声言的说话人。如今在低噪声、低失真环境下说话人识别已经达到较高的识别性能,但说话人识别的实际应用环境中却充满了噪声,导致说话人识别系统的识别率急剧下降。因此,目前的研究热点已转为提取噪声环境下仍能达到较好性能的鲁棒性特征和设计更加有效的分类器,从而真正实现说话人识别系统走出实验室,走向实际应用场合。针对以上需求,设计了一个以短波信道为背景的说话人识别系统,即以在短波信道环境下获得的语音信号为数据进行实验。在特征提取阶段,剖析了基于人耳听觉机理的美尔倒谱系数(MFCC),从美尔滤波器组的结构上看,MFCC只在信号的低频区域具有较高的分辨率,在高频部分分辨率却较低,这样必然会遗失一些包含在高频区域的信息。本文应用翻转的美尔滤波器组提取出一组特征IMFCC,弥补了传统的MFCC在高频提取特征信息薄弱的不足,与原始MFCC形成互补关系。鉴于两种特征的互补关系,设计多分类融合系统,以支持向量机为分类器,分别以MFCC和IMFCC为特征单独执行分类,将得到结果按某种方式融合,取两者之长,最后做出判决来提高说话人识别系统的性能。另外应用自适应动态阈值的开集说话人识别算法,建立一个综合所有参考说话人语音特性的非特定说话人RN+1,将其列入参考说话人之中,识别时以其得分作为阈值判定待识说话人是否在集内,若在集内给出识别结果,若在集外则将待测者自动加入参考说话人集中。经实验证明,以MFCC&IMFCC为特征进行多分类融合的方法能够在短波信道环境下获得较好的识别效果。

说话人识别; 美尔倒谱系数; 翻转美尔倒谱系数; 多分类融合; 支持向量机;

李雪耀;

TN912.34

459622974K
在线咨询 用户反馈