智能语音识别技术详解

人工智能中的语音识别是完成语音到文字的转换。语音合成是用语音方式输出用户想要的信息，用语音实现人与计算机之间的交互，主要包括语音识别、自然语言理解和语音合成。

相对于机器翻译，人工智能语音识别是更困难的。机器翻译系统的输入通常是印刷文本，计算机能清楚地区分单词和单词串。而语音识别系统的输入是语音，其复杂度要大得多，特别是口语，有很多的不确定性，要使计算机像人一样识别语音是很困难的。

语音识别过程包括从一段连续声波中采样，将每个采样值量化，得到声波的压缩数字化表示，语音识别过程主要分为五步：
摄图网_500765117_banner_语音识别（企业商用） (1)_副本.jpg

1.语音信号采集

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号，然后通过A/D装置（如声卡）进行采样，从而将连续的电压信号转换为计算机能够处理的数字信号。

2.语音信号预处理

语音信号号在采集后首先要进行滤波、A/D变换，预加重（Preemphasis)和端点检测等预处理，然后才能进入识别、合成、增强等实际应用。

滤波的目的有两个：一是抑制输入信号中频率超出1/2的所有分量，以防止混叠干扰，二是抑制50 Hz的电源工频干扰。因此，滤波器应该是一个带通滤波器。

端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间，而且能排除无声段的噪声干扰。目前主要有两类方法：时域特征方法和频域特征方法。

3.语音信号的特征参数提取

人说话的频率在10 kHz以下。根据香农采样定理，为了使语音信号的采样数据中包含所需单词的信息，计算机的采样频率应是需要记录的语音信号中包含的最高语音频率的两倍以上。

话筒等语音输入设备可以采集到声波波形，虽然这些声音的波形包含了所需单词的信息，但用肉眼观察这些波形却得不到多少信息因此，需要从采样数据中抽取那些能够帮助辨别单词的特征信息。在语音识别中，常用线性预测编码技术抽取语音特征。

4.向置量化

向量量化（Vector Quantization,VQ)技术是一种数据压缩和编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。

在标量量化中整个动态范围被分成若干个小区间，每个小区间有一个代表值，对于一个输入的标量信号，量化时落入小区间的值就用这个代表值>[戈替。因为这时的信号量是一维的标量，所以称为标量量化。

向量量化的基本原理是将若干个标量数据组成一个向量（或者是从一帧语音数据中提取的特征向量）在多维空间给予整体量化，从而可以在信息量损失较小的情况下压缩数据量。

5.语音识别

当提取声音特征集合以后，就可以识别这些特征所代表的单词。识别系统的输入是从语音信号中提取出的特征参数，如LPC预测编码参数，当然，单词对应于字母序列。语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。这三种方法都是建立在最大似然决策贝叶斯（Bayes)判决的基础上的。

除了这三种语音识别方法外，还有许多其他的语音识别方法。例如，基于人工神经网络的语音识别方法，是目前的一个研究热点。目前用于语音识别研究的神经网络有BP神经网络、Kohcmen特征映射神经网络等，特别是深度学习用于语音识别取得了长足的进步。

行业新闻