当今语音识别的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。
(1) 动态时间规整(DTW)
DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题,在语音识别中获得了良好性能。
(2) 矢量量化(VQ)
矢量量化是一种重要的信号压缩方法,主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每1帧,或有k个参数的每1参数帧,构成k维空间中的1个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。
(3) 隐马尔可夫模型(HMM)
HMM是对语音识别的时间序列结构建立统计模型,将其看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音识别统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音识别本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程,很好地描述了语音识别的整体非平稳性和局部平稳性,是较为理想的一种语音识别。
(4 )人工神经元网络(ANN)
人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统,它模拟了人类神经元活动的原理,最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间归正性能。因此,人们尝试研究基于HMM和ANN的混合模型,把两者的优点有机结合起来,从而提高整个模型的鲁棒性,这也是目前研究的一个热点。
(5) 支持向量机(SVM)
支持向量机是应用统计学习理论的一种新的学习机模型,它采用结构风险最小化原理(SRM),有效克服了传统经验风险最小化方法的缺点,在解决小样本、非线性及高维模式识别方面有许多优越的性能。其基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。
一、语音识别所面临的问题
(1)识别识别系统的适应性差。主要体现在对环境依赖性强,特别在高噪音环境下语音识别性能还不理想。
(2)语音识别系统从实验室演示系统到商品的转化过程中,还有许多具体问题需要解决。例如,口语中的重复、改正、强调、倒叙、省略、拖音、韵律、识别速度、拒识等问题,还有连续语音中去除不必要语气词如“呃”、“啊”等语音识别的技术细节问题。
(3)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需要进一步研究。
(4)语音识别的方言和口音问题
(5)信道问题:我们知道在无线互联应用中,涉及到的信道种类可能会很多,比如固定电话、手机、IP、网络、车载系统等等,各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。
(6)语音合成:语音合成当中,怎样能够很好地把感情色彩、情绪等正确地表达出来,也需要进一步去研究。
二、语音识别的前景展望
语音识别作为当前通信系统中最自然的通信媒介,语音识别是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。
近年来语音交互功能被应用到了应急指挥中心当中,通过语音调用大屏幕场景,语音调用监控,语音调用信号源,语音调用预设内容等;
智能语音交互基于指挥中心的应用,领导只需按键,说出关键词即可调用想要的监控、PC、及相关信息,提高了整体指挥调度的水平。
以上仅为驰声对语音识别的浅谈,详细了解请咨询www.chivox.com驰声官网。