语音识别的原理

语音识别就是对麦克风输入的语音信号进行解析和理解，并将其转化为相应的文本或命令。

一个完整的语音识别系统主要包括三个部分：

语音特征提取（前端处理部分）：目的是滤除各种干扰成分，从语音波形中提取出随时间变化的能表现语音内容的特征矢量序列。

声学模型和模式匹配（识别算法）：声学模型通常由获得的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将输入的语音特征同声学模型进行匹配与比较，得到最佳识别结果。

语义理解（后处理）：计算机对识别结果进行语义、语法分析，明白语音的意义以便做出相应的反应，通常通过语言模型来实现。

语音识别原理如下图所示：

图片1.png

待识别语音经话筒转化为电信号后加在识别系统的输入端，经过预处理，接着进行语音特征提取，用反映语音信号特征的若干参数来代表原始语音。常用的语音特征包括：线性预测系数（LPC）、线性预测倒谱系数（LPCC）、Mel频谱系数（MFCC）等。

接下来分为两个阶段：：训练阶段和识别阶段。

在训练阶段，对用特征参数形式表示的语音信号进行相应处理，获得表示识别基本单元共性特点的标准数据，以此构成参考模板，将所有能识别的基本单元的参考模板结合在一起，形成参考模式库；

在识别阶段，将待识别的语音信号经特征提取后逐一与参考模式库中的各个模板按某种原则进行匹配，找出最相似的参考模板所对应的发音，即为识别结果。

最后进行语音处理，涉及语法分析、语音理解、语义网络等。

语音识别过程要根据模式匹配原则，计算未知语音模式与语音模板库中的每一个模板的距离测度，从而得到最佳的匹配模式。语音识别所应用的模式匹配方法主要有动态时间规整（Dynamic Time Warping，DTW），隐马尔科夫模型（Hidden Markov Model，HMM）和人工神经元网络（Artificial Neural Networks，ANN）。

关于驰声

ABOUT CHIVOX

苏州驰声信息科技有限公司，系教育领域老牌语音技术厂商，在智能语音技术方面拥有10多项发明专利、60多项软件著作权，并且是中国首个英语口语机评标准——《英语口语能力等级考试计算机测评规范》的起草研制单位。

从2012年起，驰声与中高考改革同行近10载，是中国真正有中高考实施经验的英语听说考试服务提供商，先后服务了北京、上海、广东、广西、湖北、宁夏、辽宁等多个省市的英语听说考试试题难度锚定、技术验证、考试方案设计、机考机评组织实施等项目，并在基教、职教等多个领域落地。

行业新闻

为您实时推荐驰声动态、行业新闻等最新资讯

语音识别的原理