基于STM32实现孤立词语音识别系统

语音识别是机器通过识别和理解过程把人类的语音信号转变为相应文本或命令的技术，其根本目的是研究出一种具有听觉功能的机器。本设计研究孤立词语音识别系统及其在STM32 嵌入式平台上的实现。识别流程是：预滤波、ADC、分帧、端点检测、预加重、加窗、特征提取、特征匹配。端点检测（VAD）采用短时幅度和短时过零率相结合。检测出有效语音后，根据人耳听觉感知特性，计算每帧语音的Mel频率倒谱系数（MFCC）。然后采用动态时间弯折（DTW）算法与特征模板相匹配，最终输出识别结果。先用Matlab对上述算法进行仿真，经多次试验得出算法中所需各系数的最优值。然后将算法移植到STM32嵌入式平台，移植过程中根据嵌入式平台存储空间相对较小、计算能力也相对较弱的实际情况，对算法进行优化。最终设计并制作出基于STM32的孤立词语音识别系统。

从技术上讲，语音识别属于多维模式识别和智能接口的范畴。它是一项集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术，可广泛应用在信息处理、通信和电子系统、自动控制等领域。

国际上对语音识别的研究始于20世纪50年代。由于语音识别本身所固有的难度，人们提出了各种条件下的研究任务，并有此产生了不同的研究领域。这些领域包括：针对说话人，可分为特定说话人语音识别和非特定说话人语音识别；针对词汇量，可划分为小词汇量、中词汇量和大词汇量的识别，按说话方式，可分为孤立词识别和连续语音等。最简单的研究领域是特定说话人、小词汇量、孤立词的识别，而最难的研究领域是非特定人、大词汇量、连续语音识别。

在进入新世纪之前，语音识别技术大都只在特定行业或场所中使用或者仅仅停留在实验室，处于探索和试验中。最近十年由于消费电子行业的兴起和移动互联网技术的爆发。越来越多的自动化和自能化产品走进人们的日常生活。语音识别技术也随之进入大众的视线，并开始为更多人所了解和使用。例如语音门禁、智能电视上的语音换台、智能手机上的语音拨号、语音控制等等。语音识别技术正在由过去的实验探索迈入实用化阶段。我们有理由相信会有越来越多的产品用到语音识别技术，它与人工智能能技术的结合将会是一个重要的发展方向。语音识别技术最终会改变人与机器之间的交互方式，使之更加自然、便捷、轻松。

本设计的孤立词语音识别是语音识别技术中较为基本的，算法实现也较简单，适合于在嵌入式平台中实现一些简单的语音控制功能。以往类似系统大都基于ARM9、ARM11、DSP、SOC等。这些平台系统规模较大、开发和维护的难度较大、成本也相对较高。STM32是意法半导体（ST）公司推出的基于ARM Cortex-M3内核的高性能单片机。上市之后，由于其出色的性能、低廉的价格，很快被运用到众多产品中。经测试，STM32F103VET6单片机拥有能够满足本系统孤立词语音识别所需的运算和存储能力。所以在本系统中采用STM32F103VET6作为主控制器，采集并识别语音信号。以低廉的成本，高效的算法完成了孤立词语音识别的设计目标。本系统主要涉及的内容如下述：

语音信号的采集和前端放大、防混叠滤波、模数转换。

语音信号预处理，包括预加重、分帧、加窗。

语音信号端点检测，检测输入信号中有效语音的起始和结束点

语音信号特征提取。提取有效语音中每帧语音信号的Mel频率倒谱系数（MFCC）系数。

模板训练，对每个语音指令采集多个语音样本，根据语音样本获取每个语音指令的特征模板。

特征匹配，使用动态时间规整（DWT）算法计算输入语音信号与各模板的匹配距离。识别输入的语音信号。

系统硬件电路设计，人机界面设计。

第一章方案论证及选择1.1系统设计任务要求本系统利用单片机设计了一个孤立词语音识别系统，能够识别0~9、 “上”、“下”、“左”、“右”14个汉语语音指令。系统通过触摸式LCD与用户交互。

本设计的主要要求如下：

1．采集外部声音信号，转换为数字信号并存储。

2．在采集到的声音信号中找出有效语音信号的开始和结束点。

3．分析检测到的有效语音，得出语音信号特征。

4．对每个待识别的语音指令，建立特征模版。

5．比较输入语音信号特征与特征模版，识别输入的语音信号

6．显示系统操作界面，并能够接受用户控制。

1.2硬件选择1.2.1 硬件方案总体介绍系统硬件由音频放大模块、MCU、触摸屏、电源四部分组成。音频放大模块完成对外部声音信号的采集和放大。将声音信号转化为电信号，并放大到0~3V。MCU的ADC参考电压为其电源电压3.3V。音频放大模块的输出信号不超出MCU ADC的电压范围，并且能够获得最大的量化精度。MCU对音频放大模块输入的声音信号进行AD转换。然后提取并识别信号特征。另外，MCU还控制触摸屏的显示和读取触摸屏点击位置。触摸屏负责显示操作界面，并接收用户操作。电源为电池供电。

系统硬件结构图如图1.1所示。

基于STM32实现孤立词语音识别系统

图1.1系统硬件总体结构图

1.2.2 MCU选择传统上孤立词语音识别多采用语音识别专用芯片，例如凌阳SPCE061A、LD3320等。此种方案设计简单，开发周期较短，但可拓展性较差，一般只能识别特定的语音，或者识别语音指令的个数有限制。且专用芯片价格一般相对较高，对系统成本控制不利。

STM32F103VET6是意法半导体（ST）推出的高性能32位Cortex-M3内核单片机，带有ADC、DAC、USB、CAN、SDIO、USART、SPI、IIC、FSMC、RTC、TIM、GPIO、DMA等大量片上外设。Cortex-M3内核属于ARM公司推出的最新架构ARMv7中的M系列，侧重于低成本、低功耗、高性能。其最高主频可达72MHz， 1.25 DMIPS/MHz的运算能力，三级流水线另加分支预测，并且还带有单周期乘法器和硬件除法器。相比较ARM7TDMI内核，Cortex-M3在性能上有较大的提升。

STM32F103VET6内置3个一共21通道的12位ADC，采样频率最高可达1MHz。12通道DMA控制器，可访问系统Flash、SRAM、片上外设，能够处理内存到外设、外设到内存的DMA请求。11个16位定时器，其中T1、T2、T3、T4、T5、T8可连接到ADC控制器，在每次定时器捕获/比较事件到来时自动触发ADC开始一次A/D转换。A/D转换完成后可自动触发DMA控制器将转换后的数据依次传送至SRAM的数据缓冲区。因此STM32F103VET6能够进行精确且高效的A/D转换。能够满足音频信号采集的需求。

STM32F103VET6的FSMC（Flexible Static Memory Controller，可变静态存储控制器）能够根据不同的外部存储器类型，发出相应的数据/地址/控制信号类型以匹配信号的速度。FSMC连接至LCD控制器，可将LCD控制器配置为外部NOR Flash。在系统需要访问LCD时，自动生成满足LCD控制器要求的读写时序，能够精确、快速地完成对LCD界面显示的控制。内置3个最高可达18Mbit/s的SPI控制器，与触摸屏控制器相连能够实现触摸屏点击位置检测。

本系统中采集一个汉语语音指令。录音时间长度2s，以8KHz 16bit采样率对语音进行采集，所需存储空间为32KB，另外加上语音处理、特征提取及特征匹配等中间步骤所需RAM空间不会超过64KB。而STM32F103VET6带有512KB Flash和64KB RAM。所以STM32F103VET6在程序空间上能够满足。语音识别中最耗时的部分是特征提取中的快速傅立叶变换换。一般来说，孤立词语音识别中有效语音时间长度小于1s。语音信号一般10~30ms为一帧，本系统中按20ms一帧，帧移（相邻两帧的重叠部分）10ms，这样一个语音指令不超过100帧。在8KHz 16bit的采样率下，20ms为160采样点。STM32固件库所提供的16位、1024点FFT，在内核以72MHz运行时每次运算仅需2.138ms。完成100帧数据的FFT所需时间为213.8ms，加上其他处理所需时间，识别一个语音指令耗时不会超过0.5s。所以在程序运行时间上STM32F103VET6也能够满足需要，能够进行实时的孤立词语音识别。

基于以上论证，本系统选用STM32F103VET6作为主控MCU。

1.2.3音频信号采集方案选择音频信号采集多采用音频编解码芯片，例如UDA1341、VS1003等。此类芯片能够提供丰富的功能，且系统一致性较好，但它们成本较高。本系统是一个低成本解决方案，并且只需要采集音频信号。因此不宜采用那些专用的音频编解码芯片。

在本系统的音频放大模块中使用小型话筒完成声电信号转换，两个9014三极管构成两级共基极放大电路。在每一级中加电压负反馈，稳定放大倍数。

语音信号的频带为300~3400Hz，根据抽样定理，抽样频率设为8000Hz就足以完成对语音信号的采集。在本系统中TIM1被设置为ADC触发信号源。TIM时钟源为系统时钟72MHz。经100分频，变为720KHz。计数模式为向上递增，自动重载值为90，即计数值从0递增到90再返回0。比较匹配值设为0~90间任意一个数值，则每秒可发出8000次比较匹配事件。ADC每秒完成8000次A/D转换，即抽样频率为8KHz。

1.2.4显示及操作界面选择触摸屏作为一种新的输入设备，它是目前最简单、方便、自然的一种人机交互方式。LCD触摸屏是一种可接收触摸点击输入信号的感应式液晶显示装置。当接触或点击屏幕时，触摸控制器可读取触摸点位置，如此可通过屏幕直接接受用户的操作。相比较机械式按钮，触摸屏在操作上更加直观生动。综合考虑，本设计中采用2.5寸240×320分辨率的LCD触摸屏实现界面显示和操作。

1.3算法选择1.3.1软件算法总体介绍对采集到的音频信号进行预处理、端点检测、特征提取、模板训练、特征匹配的一些列处理，最终识别输入语音。

系统软件流程图如下图所示。

基于STM32实现孤立词语音识别系统

1.3.2预处理算法选择语音信号的预处理主要包括： ADC、分帧、数据加窗、预加重。

语音信号的频率范围通常取100Hz~3400Hz，因为这个频段包含绝大部分的语音信息，对语音识别的意义最大。根据采样定律，要不失真地对3400Hz的信号进行采样，需要的最低采样率是6800Hz。为了提高精度，常用的A／D采样率在8kHz到12kHz。

语音信号有一个重要的特性：短时性。由于人在说话中，清音与浊音交替出现，并且每种音通常只延续很短的一段时间。因此，从波形上看，语音信号具有很强的“时变特性”。在浊音段落中它有很强的周期性，在清音段落中又具有噪声特性，而且浊音和清音的特征也在不断变化之中。如图1.4所示，其特性是随时间变化的，所以它是一个非稳态过程。但从另一方面看，由于语音的形成过程是与发音器官的运动密切相关的，这种物理性的运动比起声音振动速度来说是缓慢的（如图1.5所示）。因此在一个短时间范围内，其特性变化很小或保持不变，可以将其看做一个准稳态过程。我们可以用平稳过程的分析处理方法来分析处理语音信号。

图1.4 语音“7”的时域波形

图1.5 语音“7”清音段和浊音段的20ms短时波形

基于以上考虑，对语音信号的分析处理必须采用短时分析法，也就是分帧。语音信号通常在10ms~30ms之间保持相对平稳。在本设计中，每帧取20ms。为了使前后帧之间保持平滑过渡，帧移10ms，即前后帧之间交叠10ms。

为了便于后续语音处理，需对分帧后的信号加窗。加窗方式如式（1-1）。

（1-1）

式中Y（n）是加窗后的信号，y（n）是输入信号，w（n）是窗函数，N是帧长。

窗函数可以选择矩形窗，即

（1-2）

图1.6 矩形窗时域、频域示意图

或其他形式窗函数，如汉明窗

（1-3）

图1.7 汉明窗时域、频域示意图

这些窗函数的频率响应都具有低通特性，但不同的窗函数形状将影响分帧后短时特征的特性。图1.7和图1.8分别给出了160点矩形窗和汉明窗的时域和频域示意图。从图中可以看出汉明窗的带宽大约是同样宽度矩形窗带宽的两倍。同时，在通带外汉明窗的衰减比矩形窗大得多。矩形窗的主瓣较小，旁瓣较高；而汉明窗具有最宽的主瓣宽度和最低的旁瓣高度。

对语音信号分析来说，窗函数的形状是非常重要的，矩形窗的谱平滑性较好，但波形细节易丢失，并且矩形窗会产生泄露现象。而汉明窗可以有效地克服泄露现象，应用范围也最为广泛。基于以上论述，本设计选用汉明窗作为窗函数。图1.9和图1.10分别给出了一帧浊音加矩形窗和汉明窗后的时域和频域效果。

图1.8 加矩形窗

图1.9 加汉明窗

由于人的发声器官的固有特性，语音从嘴唇辐射将有6dB／倍频的衰减。此种效应主要表现在高频信息的损失，对语音信号的特征提取会造成不利的影响。因此，必须对信号进行高频提升，即对信号进行高频的补偿，使得信号频谱平坦化，以便于进行频谱分析或声道参数分析。预加重可以用具有6dB/倍频提升高频特性的预加重数字滤波器实现。预加重滤波器一般是一阶的，其系统函数和差分方程如式（1-4）

（1-4）

其中y（n）为提升后的输出值，x（n）和x（n-1）分别为当前时刻和前一时刻的输入值。u接近于1，典型取值在0.94~0.97之间。本设计取0.95。预加重效果如图1.11所示。

图1.10 预加重效果图

1.3.3端点检测算法选择语音端点检测（VAD），也称为语音活动性检测，主要应用在语音处理中的语音编解码，语音识别及单信道语音增强等领域。语音端点检测的基本方法可以用一句话来表达：从输入信号中提取一个或一系列的对比特征参数，然后将其和一个或一系列的门限阀值进行比较（如图3-2）。如果超过门限则表示当前为有音段；否则表示当前为无音段。门限阀值通常是根据无音段时的特征确定的。但是由于语音和环境噪声的不断变化，使得这一判决过程变得非常复杂。通常语音端点检测是在语音帧的基础上进行的，语音帧的长度在10ms~30ms不等。一个好的语音端点检测算法必须具有对各种噪声的鲁棒性，同时要简单、适应性能好、时延小、且易于实时实现。

在高信噪比的情况下，常用的检测方法大体上有以下几种：短时能量、短时过零率。这些方法都是利用了语音和噪声的特征参数，因此判别效果较好。并且它们实现简单，计算量相对较小，因而得到广泛的应用。

短时能量定义如下式：

（1-6）

式中N为帧长，E为一帧的短时能量值。

短时能量主要有以下几个方面的应用：首先短时能量可以区分清音和浊音，因为浊音的能量要比清音的大得多；其次可以用短时能量对有声段和无声段进行判定，以及连字分界等。短时能量由于是对信号进行平方运算，因而人为增加了高低信号之间的差距。更重要的的是平方运算的结果很大，容易产生数据溢出。解决这些问题的简单方法是采用短时平均幅度值来表示能量的变化。其定义如下：

（1-7）

短时过零率是语音信号时域分析中最简单的一种特征，它指每帧内信号通过零值的次数，定义如下：

（1-8）

式中，sgn（x）是符号函数，即

（1-9）

根据以上定义，清音由于类似于白噪声，所以过零率较高。浊音的能量集中于低频段，所以浊音信号的短时过零率较低。噪声的短时过零率较高，这主要是因为语音信号的能量主要集中在较低的频率范围内，而噪声信号的能量主要集中于较高的频段。这样计算的短时过零率容易受到噪声干扰。解决这个问题的方法是对上述定义稍作修改，即设置一个门限T，将过零率的含义修改为跨过正负门限的次数。修改后的定义如下式：

（1-10）

这样计算的短时过零率就有一定的抗干扰能力，即使存在随机噪声，只要它不超过正负门限所构成的带，就不会产生虚假过零率。

综合考虑设计需要和系统处理能力，本设计采用短时幅度值和改进后的短时过零率判断语音起始和结束点。分别为短时幅度和短时过零率设置门限值。每次识别前，选定语音段前300ms作为背景噪声，用以确定这两个门限值，实现对背景噪声的自适应。具体的端点检测方法如下。

判断语音起始点，要求能够滤除突发性噪声。突发性噪声可以引起短时能量或过零率的数值很高，但是往往不能维持足够长的时间，如门窗的开关，物体的碰撞等引起的噪声，这些都可以通过设定最短时间门限来判别。超过两门限之一或全部，并且持续时间超过有效语音最短时间门限，返回最开始超过门限的时间点，将其标记为有效语音起始点。判断语音结束点，要求不能丢弃连词中间短暂的有可能被噪声淹没的“寂静段”。这可以通过设定无声段最长时间门限来判别。同时低于两门限，并且持续时间超过无声最长时间门限，返回最开始低于门限的时间点，将其标记为有效语音结束点。

图1.12和图1.13分别给出了上述算法在一般信噪比和低信噪比情况下的端点检测效果。从图中可以看出上述算法能够适应一般的背景噪声。在背景噪声较高时，上述算法无法准确判断语音起始结束点。但经过试验，当信噪比低至图1.13所示时时人耳也很难准确辨识语音。所以上述算法在实际使用中能够满足端点检测的需求。

图1.11 一般信噪比下的端点检测效果

图1.12 低信噪比下的端点检测效果

1.3.4特征提取算法选择在语音识别系统中，vwin 语音信号在完成A／D转换后成为数字信号。此时的语音信号为时域的信号，时域的信号难以进行分析和处理，而且数据量庞大。通常的做法是对时域信号进行变换，提取其中某种特定的参数，通过一些更加能反映语音本质特征的参数来进行语音识别。特征提取是识别过程中一个非常重要的环节，选取的特征直接影响到识别的结果。不同的特征对不同语音的敏感度也不一样，优秀的语音特征应该对不同字音距离较大，而相同字音距离较小。

另外，特征值的数目也是一个重要的问题。在满足使用要求的情况下，所使用的特征数应该尽量减少，以减少所涉及的计算量。但是过少的特征有可能无法恰当的描述原始语音，以致识别率下降。语音特征的提取方法是整个语音识别的基础，因此受到了广泛的重视。通过近几十年的发展，目前语音特征的提取方法主要有以下三类：

1.基于线性预测分析的提取方法。这一类的典型代表是线性预测倒谱系数LPCC。

2.基于频谱分析的提取方法。这一类的典型代表是Mel频率倒谱系数MFCC。

3.基于其它数字信号处理技术的特征分析方法。如小波分析、时频分析、人工神经网络分析等。

目前的孤立词语音识别系统大多采用前两种语音特征提取方法。在本文中，借鉴前人对LPCC系数和MFCC系数的总结对比，采用Mel频标倒谱系数MFCC。

人类的耳蜗实质上相当于一个滤波器组，耳蜗的滤波作用在1000Hz以下为线性尺度，而1000Hz以上为对数尺度，这就使得人耳对低频信号的分辨率高于对高频信号的分辨率。根据这一特性，研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组，这就是Mel频率滤波器组。Mel频率可以用如下公式表示：

（1-11）

图1.13 Mel频率与实际频率的对应关系

对频率轴的不均匀划分是MFCC特征区别于普通倒谱特征的最重要特点。将频率按照式（1-11）和图1.13变换到Mel域后，Mel带通滤波器组的中心频率是按照Mel频率刻度均匀排列的。在本设计中，MFCC倒谱系数的计算过程如下述。

1.对语音信号预加重、分帧、加汉明窗处理，然后进行短时傅里叶变换，得出频谱。

2.取频谱平方，得能量谱。并用24个Mel三角带通滤波器进行滤波；由于每个频带的分量在人耳中是叠加的，因此将每个滤波器频带内的能量进行叠加，输出Mel功率谱。

3.对每个滤波器的输出值取对数，得到相应频带的对数功率谱。然后对24个对数功率进行反离散余弦变换得到12个MFCC系数，反离散余弦变换如式（1-12），式中M=24，L=12。

基于STM32实现孤立词语音识别系统

（1-12）

在本设计中采集语音信号的抽样频率是8000Hz，频率范围是0Hz~4000Hz。在此频率范围内的Mel三角带通滤波器组如下图所示：

图1.14 Mel三角滤波器组

与LPCC参数相比，MFCC参数具有以下优点：

1．语音的信息大多集中在低频部分，而高频部分易受环境噪声干扰。MFCC参数将线性频标转化为Mel频标。强调语音的低频信息，从而突出了有利于识别的信息，屏蔽了噪声的干扰。

2．MFCC参数没有任何前提假设，在各种情况下均可使用。而LPCC参数需要假定所处理的信号为AR信号，对于动态特性较强的辅音，这个假设并不是严格成立的。

因此，MFCC参数的抗噪声特性是优于LPCC参数的。在本设计中，采用的语音特征参数均为MFCC参数。

1.3.5特征匹配算法选择要建立一个性能良好的语音识别系统仅有好的语音特征还不够，还要有适当的语音识别的模型和算法。在现阶段，语音识别的过程是根据模式匹配的原则，计算未知语音模式与语音模板库中的每一个模板的距离测度，从而得到最佳的匹配模式。目前，语音识别所应用的模型匹配方法主要有动态时间弯折（DTW：Dynamic Time Warping）、隐马尔可夫模型（HMM：Hidden Markov Model）和人工神经网络（ANN：Artificial Neural Networks）等。当今孤立词识别领域最常用的识别算法是DTW和HMM。

DTW算法是较早的一种模式匹配和模型训练技术，它应用动态规划的方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好的性能。DTW算法是建立在动态规划（DP：Dynamic Programming）的理论基础上的。动态规划是一个很有效的方法来求取一个问题的最佳解。其中心思想简单的说可以描述为：在一条最佳的路径上，其中任意一条子路径也都必须是相关子问题的最佳路径，否则原路径就不是最佳路径。

HMM算法是数学上一类重要的双重随机模型，用概率统计的方法描述时变语音信号，很好的描述了语音信号的整体非平稳性和局部平稳性。HMM的各状态对应语音信号的各平稳段，各状态之间以一定转移概率相联系，是一种较为理想的语音模型。HMM模型属于统计语音识别，适用于大词汇量、非特定人的语音识别系统。随着现代计算机技术的迅猛发展，计算机的运算速度迅速提高，隐马尔科夫模型分析方法也得到了广泛利用。该算法在识别阶段计算量较少，适应性强，但是需要大量的前期训练工作，对系统资源的要求较多。

用于孤立词识别，DTW算法与HMM算法在相同的环境条件下，识别效果相差不大，但是HMM算法要复杂得多，这主要体现在HMM算法在训练阶段需要提供大量的语音数据，通过反复计算才能得到模型参数，而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中，DTW算法得到更广泛的应用。

综合比较DTW算法的工作量小，不需要大量的语音数据，而且DTW算法适合孤立词语音识别，且容易实现，节省系统资源，比较方便移植到嵌入式系统中。所以本系统选择DTW算法作为语音识别的核心算法。下面介绍DTW算法及其实现方法。

假设参考模板的特征矢量序列为，输入语音特征矢量序列为，输入语音特征矢量序列为。DTW算法就是要寻找一个最佳的时间规整函数，使待测语音的时间轴j非线性地映射到参考模板的时间轴i上，使总的累积失真量最小。

设时间规整函数为

（1-13）

式中N为匹配路径长度，表示第n个匹配点是参考模板的第i（n）个特征矢量与待测模板的第j（n）个特征矢量构成。两者之间的距离称为局部匹配距离。DTW算法就是通过局部优化的方法实现匹配距离总和最小。

一般时间规整函数满足一下约束：

1.单调性，规整函数单调增加。

2.起点终点约束，起点对起点，终点对终点。

3.连续性，不允许跳过任何一点。

4.最大规整量不超过某一极限值。

M为窗宽。规整函数所处的区域位于平行四边形内，本设计中将平行四边形的约束区域端点放宽3点。局部路径约束，用于限制当第n步时，后几步存在几种可能的路径。本设计中DTW规整区域和局部路径如图1.16、图1.17所示。

图1.15 放宽端点限制的DTW规整区域

图1.16 DTW局部路径

本设计中DTW算法计算步骤：

1.初始化。令i（0）=j（0）=0，i（N）=I，j（N）=J，确定一个如图1.16所示的规整约束区域Reg。它由一平行四边形变化而来。此平行四边形有两个位于（1，1）和（I，J）的顶点，相邻两条边的斜率分别为2和1/2。

2.按照如图1.17所示的路径递推求累计匹配距离。第n步匹配距离如下式

基于STM32实现孤立词语音识别系统

（1-14）

3.累计匹配距离除匹配步数，得归一化匹配距离。即输入特征与特征模板之间的匹配距离。计算输入特征与每一特征模板的匹配距离，匹配距离最小的特征模板与输入特征有最大的相似性。

第二章系统设计2.1硬件设计2.1.1 MCU及其最小系统电路设计经过第一章的论证，选用意法半导体公司的STM32F103VET6单片机。

MCU输入时钟由8MHz晶振提供，经MCU内部PLL倍频至72MHz。在每一个电源引脚上并接0.1uF去耦电容，以提高MCU电源稳定性和抗干扰性。

2.1.2 音频信号采集电路设计音频信号采集电路原理图如下

基于STM32实现孤立词语音识别系统

图2.6 音频信号采集原理图

2.1.3 LCD接口电路设计本设计中显示器件选用2.4英寸TFT LCD显示屏，LCD驱动器是ILI9325 。

Thin Film Transistor （薄膜场效应晶体管），是指液晶显示器上的每一液晶象素点都是由集成在其后的薄膜晶体管来驱动。从而可以做到高速度高亮度高对比度显示屏幕信息。

ILI9325 是一个262144色的单芯片TFT LCD SoC 驱动。它提供240×320的分辨率， 172，800字节的图形数据RAM ，并且带有内部电源电路。它与控制器的接口可设置为16位并口、8位并口、SPI接口。在本设计中为了提高显示数据的传输速率，采用了STM32F103VET6的FSMC（可变静态存储控制器）的16位并口作为MCU和ILI9325的接口。将ILI9325的数据和控制接口映射为外部存储器。MCU传送控制命令或显示数据时，自动生成相应的时序，避免了传统上采用IO口模拟时序，提高了数据传输效率。

2.2软件设计2.2.1 语音预处理算法设计语音信号预处理包括：语音信号采集、分帧、数据加窗、预加重。

语音信号采集就是将外部模拟的语音信号，转换为MCU可处理和识别的数字信号的过程。在本设计中，通过MCU内部的定时器、模数转换器以及DMA控制器实现了对音频信号采集模块输入语音信号的数字化。其处理流程如下图所示。

图2.9 语音信号数字化流程图

在程序中，控制语音信号采集的函数如下。

1void record（void）

3 delay_ms（atap_len_t）; //延时，规避点击屏幕发出的噪声

4 TIM_Cmd（TIM1， ENABLE）; //开启定时器，开始信号采集

5 GUI_ClrArea（&（Label［G_ctrl］））; //显示操作提示

7 GUI_DispStr（&（Label［G_ctrl］），“录音中”）;

8 delay_ms（atap_len_t）; //开始说话之前，录制一小段背景声音，用以实现背景噪声自适应

9 //提示开始说话

10 set_label_backclor（&（Label［G_spk］）， spk_clor）;

11 //等待缓冲区数据更新完毕

12 while（DMA_GetFlagStatus（DMA1_FLAG_TC1）==RESET）;

13 TIM_Cmd（TIM1， DISABLE）; //数据采集结束，关闭定时器

14 DMA_ClearFlag（DMA1_FLAG_TC1）; //清数据传输完成标志，以备下次使用

15 //提示开始处理采集到的数据

16 set_label_backclor（&（Label［G_spk］）， prc_clor）;

17}

分帧就是将采集到的语音数据分割成相同长度的片段，以用于短时分析。本设计中取20ms即160点为一帧，帧移10ms即80点。为了适应MCU存储空间有限的实际情况，分帧并没有被单独设计和占用单独的空间，而是在读语音数据缓冲区的时候按照帧长帧移的顺序依次读取。

由于端点检测属于时域分析，并不需要加窗和预加重，所以本设计中，分帧和预加重都加在端点检测之后提取MFCC之前。

2.2.2 端点检测算法设计本设计采用短时幅度和短时过零率相结合的端点检测算法。

首先去缓冲区前300ms作为背景噪声，提取背景噪声参数。用于后续端点检测。背景噪声参数由以下结构体定义。

1typedef struct

3 u32 mid_val; //语音段中值相当于有符号的0值用于短时过零率计算

4 u16 n_thl; //噪声阈值，用于短时过零率计算

5 u16 z_thl; //短时过零率阈值，超过此阈值，视为进入过渡段。

6 u32 s_thl; //短时累加和阈值，超过此阈值，视为进入过渡段。

7}atap_tag; //自适应参数

提取函数为void noise_atap（const u16* noise，u16 n_len，atap_tag* atap），其提取过程如下。

图2.10 背景噪声参数提取流程

然后根据提取到的短时过零率和短时幅度计算有效语音起始和结束点。有效语音端点由以下结构体定义。

1typedef struct

3 u16 *start; //起始点

4 u16 *end; //结束点

5}valid_tag; //有效语音段

端点检测函数为void VAD（const u16 *vc， u16 buf_len， valid_tag *valid_voice， atap_tag *atap_arg）。其流程图如下。

图2.11 端点检测流程

2.2.3 特征提取算法设计及优化本设计选用12阶MFCC作为语音特征。此步是整个算法流程中最耗时也是优化空间最大的部分。因此，在程序设计中，沿用经典算法的同时做了大量的针对STM32嵌入式平台的优化工作。优化的中心思想是：尽量少使用或不使用浮点运算；使用整型数，其运算结果应尽量大以减少舍入噪声，但必须保证数据不会溢出；空间换时间。

FFT函数是u32* fft（s16* dat_buf， u16 buf_len）。它封装了了ST提供的STM32固件库里的void cr4_fft_1024_stm32（void *pssOUT， void *pssIN， u16 Nbin）函数。cr4_fft_1024_stm32（）输入参数是有符号数，包括实数和虚数，但语音数据只包括实数部分，虚数用0填充，fft点数超出输入数据长度时，超过部分用0填充。cr4_fft_1024_stm32（）输出数据包括实数和虚数，应该取其绝对值，即平方和的根。

语音特征用如下结构体定义。

1typedef struct

3 u16 save_sign; //存储标记用于判断flash中特征模板是否有效

4 u16 frm_num; //帧数

5 s16 mfcc_dat［vv_frm_max*mfcc_num］; //MFCC转换结果

6}v_ftr_tag;

获取MFCC的函数是void get_mfcc（valid_tag *valid， v_ftr_tag *v_ftr， atap_tag *atap_arg）。获取MFCC的一般步骤在上一章已有论述，在此介绍移植到MCU上需做的优化。

预加重的高通滤波系数为0.95，如果直接使用，则需要进行浮点运算，尽量避免，故使用y（n）=x（n）-x（n-1）×95/100。加汉明窗窗函数值如果每次都要重新计算，则需要进行三角函数运算，耗时严重，效率低下。但其数值是一定的，因此事先计算好160点的汉明窗值。存于数组中const u16 hamm［］，使用时直接读取。FFT函数直接输入ADC转换过的值-2048~2047，其输出频谱幅值过小，舍入误差较大。数据输入前需作放大处理。vc_temp［ i］=（s16）（temp*hamm［ i］/（hamm_top/10））;此句代码在实现加窗的同时，将语音数据放大10倍。Mel三角滤波器的中心频率和数值的计算涉及到对数运算，不宜直接计算，也实现计算好的数值存于Flash中，使用时直接读取。还有其他的优化措施，详见附件代码。

void get_mfcc（valid_tag *valid， v_ftr_tag *v_ftr， atap_tag *atap_arg）函数流程如下。

图2.12 特征提取流程

2.2.4模板训练算法设计

本设计模板训练采用冗余模板算法，即每个语音指令存储4个特征模板，识别时输入特征分别与每个特征模板相比较，匹配距离最小的，就是识别结果。这4个特征模板存储于MCU Flash后端，模板训练时，将模板存于指定的Flash地址。为了保证保存的特征模板不被擦除或被其他代码或数据占用，需设置编译器的地址范围。

2.2.5特征匹配算法设计

本设计特征匹配算法采用 DTW（动态时间弯折）。其原理在上一章已有论述，在此不再赘述。其流程如下。

图2.13 特征匹配流程

2.2.6显示界面设计本设计在触摸式LCD上实现了简单的GUI操作界面。能够显示中英文文本框、按钮。

最基本元素为GUI_Area，定义如下。

1typedef struct

3 u16 Left; //区域离屏幕左边界的距离像素

4 u16 Top; //区域离屏幕上边界的距离像素

5 u16 Width; //区域宽度像素

6 u16 Height; //区域高度像素

7 u16 BackColor; //区域背景色

8 u16 ForeColor; //区域前景色

9}GUI_Area;

在此基础上实现了以下函数。

1void wait_touch（void）; //等待屏幕点击

2u8 touch_area（GUI_Area *area）; //判断是否点击指定区域

3void GUI_HideArea（GUI_Area *Area）; //隐藏区域显示屏幕前景色

4void GUI_ClrArea（GUI_Area *Area）; //清除区域显示区域背景色

5void GUI_DispStr（GUI_Area *Area，const u8 *str）; //在区域内显示字符串

6void GUI_printf（GUI_Area *Area，char *fmt，。。。）; //printf函数在区域内的实现

配合显示界面，主函数流程如下。

基于STM32实现孤立词语音识别系统

图2.14 主程序流程

第三章系统制作及调试结果3.1系统制作与调试本系统的制作调试主要分为Matlab仿真、硬件调试、软件调试。

经过初步的分析设计后，Matlab中仿真算法。调节算法细节，直至能够较好地实现所需功能，再将其移植到MCU平台上。在设计制作硬件电路的同时，调试穿插进行，应用系统的硬件调试和软件调试是分不开的，许多硬件故障是在调试软件时才发现的。但通常是先排除系统中明显的硬件故障后才和软件结合起来调试，如此有利于问题的分析和解决，不会造成问题的积累，从而可以节约大量的调试时间。软件编程中，首先完成单元功能模块的调试，然后进行系统调试，整体上采用硬件调试的调试方法。

3.2制作与调试结果经过制作与调试，实现了系统预设功能。实物图如下。

图3.1 实物图欢迎界面

图3.2 实物图模板训练界面

图3.3 实物图语音识别界面

结论原理样机经过设计方案论证，设计了相应的硬件电路和系统软件，制作了电路原理样机并进行单机调试，结果表明，所设计的电路和软件能完成基本的测试功能。

采用STM32F103VET6单片机构建语音识别系统，通过此系统对语音信号进行采集、前端放大、AD转换、预处理、MFCC特征提取、模板训练、DTW特征匹配的一系列步骤，完成孤立词语音识别的预期目标。

本设计目前也存在一些不足，例如语音信号采集模块的动态范围不足，当说话声音较大或较小时，会出现无法识别的现象，需加上自动增益控制功能。语音识别时，录音控制不方便，最好能够改进为完全通过语音控制。特征模板仅仅用12阶MFCC略显不足，可添加MFCC一阶差分。

参考文献［1］韩纪庆、张磊、郑铁然。语音信号处理。北京：清华大学出版社［M］，2004年9月

［2］董辰辉、彭雪峰。 MATLAB 2008 全程指南。北京：电子工业出版社［M］，2009年3月

［3］张雪英。数字语音处理及MATLAB仿真。北京：电子工业出版社［M］，2011年7月

［4］赵力。语音信号处理第2版。北京：机械工业出版社［M］，2011年6月

［5］陈程。机载环境下的语音识别技术及实现［J］。电子科技大学硕士学位论文，2008年5月

［6］蒋子云。基于ARM嵌入式孤立词语音识别系统研究与实现［J］。中南大学硕士学位论文， 2009年5月

［7］白顺先。汉语孤立字语音识别技术的研究［J］。西南交通大学硕士学位论文， 2009年6月

［8］童红。孤立词语音识别系统的技术研究［J］。江苏大学硕士学位论文， 2009年6月

［9］汪冰。小词汇非特定人的孤立词语音识别系统的研究与设计［J］。广东工业大学硕士学位论文， 2008年5月

［10］黄振华。孤立词识别中的说话人归一化技术［J］。上海大学硕士学位论文， 2009年1月

开源

/********* main.C **********/

#include “includes.h”

#include “VAD.H”

#include “MFCC.H”

#include “DTW.H”

#include “GUI.H”

#include “flash.h”

#include “delay.h”

u16 VcBuf［VcBuf_Len］;

atap_tag atap_arg;

valid_tag valid_voice［max_vc_con］;

v_ftr_tag ftr;

typedef struct

{

u8 str［3］;

}comm_tag;

comm_tag commstr［］={“0 ”，“1 ”，“2 ”，“3 ”，“4 ”，“5 ”，“6 ”，“7 ”，“8 ”，“9 ”，“上”，“下”，“前”，“后”，“左”，“右”，“大”，“小”};

#define sel_clor BRED

#define dis_sel_clor GRED

#define spk_clor BRED

#define prc_clor GRED

#define save_ok 0

#define VAD_fail 1

#define MFCC_fail 2

#define Flash_fail 3

void disp_comm（u8 comm）

{

GUI_ClrArea（&（Label［comm］））;

GUI_DispStr（&（Label［comm］），（u8 *）（commstr［comm-G_comm_fst］.str））;

}

void set_comm_backclor（u8 comm， u16 backclor）

{

Label［comm］.BackColor=backclor;

disp_comm（comm）;

}

void set_label_backclor（GUI_Area *Label， u16 backclor）

{

Label-》BackColor=backclor;

GUI_ClrArea（Label）;

}

void disp_home（void）

{

GUI_ClrArea（&Screen）;

GUI_ClrArea（&（Label［G_wel］））;

GUI_DispStr（&（Label［G_wel］），“欢迎使用”）;

GUI_ClrArea（&（Label［G_neme］））;

GUI_DispStr（&（Label［G_neme］），“孤立词语音识别测试系统”）;

GUI_ClrArea（&（Label［G_prc］））;

GUI_DispStr（&（Label［G_prc］），“模板训练”）;

GUI_ClrArea（&（Label［G_recg］））;

GUI_DispStr（&（Label［G_recg］），“语音识别”）;

GUI_ClrArea（&（Label［G_designer］））;

GUI_DispStr（&（Label［G_designer］），“设计者：宋健”）;

}

void record（void）

{

delay_ms（atap_len_t）; //延时，避免点击屏幕发出的噪声

TIM_Cmd（TIM1， ENABLE）; //开启定时器，开始信号采集

GUI_ClrArea（&（Label［G_ctrl］））; //显示操作提示

GUI_DispStr（&（Label［G_ctrl］），“录音中”）;

//开始说话之前，录制一小段背景声音，用以实现背景噪声自适应

delay_ms（atap_len_t）;

//提示开始说话

set_label_backclor（&（Label［G_spk］）， spk_clor）;

//等待缓冲区数据更新完毕

while（DMA_GetFlagStatus（DMA1_FLAG_TC1）==RESET）;

//数据采集结束，关闭定时器

TIM_Cmd（TIM1， DISABLE）;

//清数据传输完成标志，以备下次使用

DMA_ClearFlag（DMA1_FLAG_TC1）;

//提示开始处理采集到的数据

set_label_backclor（&（Label［G_spk］）， prc_clor）;

}

void disp_mdl_prc（void）

{

u16 i;

GUI_ClrArea（&Screen）;

set_label_backclor（&（Label［G_cap］）， BRED）;

GUI_DispStr（&（Label［G_cap］），“开始训练”）;

for（i=G_comm_fst;i《=G_comm_lst;i++）

{

disp_comm（i）;

}

GUI_ClrArea（&（Label［G_return］））;

GUI_DispStr（&（Label［G_return］），“返回”）;

}

u8 save_mdl（u16 *v_dat， u32 addr）

{

noise_atap（v_dat，atap_len，&atap_arg）;

VAD（v_dat， VcBuf_Len， valid_voice， &atap_arg）;

if（valid_voice［0］.end==（（void *）0））

{

return VAD_fail;

}

get_mfcc（&（valid_voice［0］），&ftr，&atap_arg）;

if（ftr.frm_num==0）

{

return MFCC_fail;

}

return save_ftr_mdl（&ftr， addr）;

}

void prc（void）

{

u32 i;

u8 prc_start=0;

u8 comm=G_comm_fst;

u8 prc_count=0;

u32 addr;

//v_ftr_tag *sav_ftr;

disp_mdl_prc（）;

set_comm_backclor（comm，sel_clor）;

while（1）

{

wait_touch（）;

if（touch_area（&（Label［G_return］）））

{

Label［G_cap］.BackColor=GREEN;

Label［comm］.BackColor=dis_sel_clor;

disp_home（）;

return;

}

else if（touch_area（&（Label［G_cap］）））

{

delay_ms（150）;

if（prc_start==0）

{

GUI_ClrArea（&（Label［G_cap］））;

GUI_DispStr（&（Label［G_cap］），“停止训练”）;

prc_start=1;

GUI_ClrArea（&（Label［G_ctrl］））;

GUI_DispStr（&（Label［G_ctrl］），“开始”）;

GUI_ClrArea（&（Label［G_spk］））;

GUI_ClrArea（&（Label［G_count］））;

GUI_DispStr（&（Label［G_count］），“已训练0次”）;

}

else

{

GUI_ClrArea（&（Label［G_cap］））;

GUI_DispStr（&（Label［G_cap］），“开始训练”）;

prc_start=0;

prc_count=0;

GUI_HideArea（&（Label［G_ctrl］））;

GUI_HideArea（&（Label［G_spk］））;

GUI_HideArea（&（Label［G_stus］））;

GUI_HideArea（&（Label［G_count］））;

}

else if（（touch_area（&（Label［G_ctrl］）））&&（prc_start==1））

{

record（）;

GUI_ClrArea（&（Label［G_ctrl］））;

GUI_DispStr（&（Label［G_ctrl］），“提取中”）;

addr=ftr_start_addr+（comm-G_comm_fst）*size_per_comm+prc_count*size_per_ftr;

if（save_mdl（VcBuf， addr）==save_ok）

{

prc_count++;

GUI_ClrArea（&（Label［G_count］））;

GUI_printf（&（Label［G_count］），“已训练%d次”，prc_count）;

if（prc_count==ftr_per_comm）

{

prc_count=0;

}

GUI_ClrArea（&（Label［G_stus］））;

GUI_DispStr（&（Label［G_stus］），“语音有效”）;

sav_ftr=（v_ftr_tag *）addr;

USART1_printf（“mask=%d ”，sav_ftr-》save_sign）;

USART1_printf（“frm_num=%d”，sav_ftr-》frm_num）;

for（i=0;i《（（sav_ftr-》frm_num）*mfcc_num）;i++）

{

USART1_printf（“%d，”，sav_ftr-》mfcc_dat［i］）;

}

else

{

GUI_ClrArea（&（Label［G_stus］））;

GUI_DispStr（&（Label［G_stus］），“语音无效”）;

}

GUI_ClrArea（&（Label［G_ctrl］））;

GUI_DispStr（&（Label［G_ctrl］），“开始”）;

}

else if（prc_start==0）

{

for（i=G_comm_fst;i《=G_comm_lst;i++）

{

if（touch_area（&（Label［i］）））

{

set_comm_backclor（comm，dis_sel_clor）;

comm=i;

set_comm_backclor（comm，sel_clor）;

break;

}

u8* spch_recg（u16 *v_dat， u32 *mtch_dis）

{

u16 i;

u32 ftr_addr;

u32 min_dis;

u16 min_comm;

u32 cur_dis;

v_ftr_tag *ftr_mdl;

noise_atap（v_dat， atap_len， &atap_arg）;

VAD（v_dat， VcBuf_Len， valid_voice， &atap_arg）;

if（valid_voice［0］.end==（（void *）0））

{

*mtch_dis=dis_err;

USART1_printf（“VAD fail ”）;

return （void *）0;

}

get_mfcc（&（valid_voice［0］），&ftr，&atap_arg）;

if（ftr.frm_num==0）

{

*mtch_dis=dis_err;

USART1_printf（“MFCC fail ”）;

return （void *）0;

}

i=0;

min_comm=0;

min_dis=dis_max;

for（ftr_addr=ftr_start_addr; ftr_addr《ftr_end_addr; ftr_addr+=“size_per_ftr）

{

ftr_mdl=（v_ftr_tag*）ftr_addr;

//USART1_printf（”save_mask=%d “，ftr_mdl-》save_sign）;

cur_dis=（（ftr_mdl-》save_sign）==save_mask）？dtw（&ftr，ftr_mdl）：dis_err;

//USART1_printf（”cur_dis=%d “，cur_dis）;

if（cur_dis《min_dis）

{

min_dis=cur_dis;

min_comm=i;

}

i++;

}

min_comm/=ftr_per_comm;

//USART1_printf（”recg end “）;

*mtch_dis=min_dis;

return （commstr［min_comm］.str）;

}

void disp_recg（void）

{

GUI_ClrArea（&Screen）;

GUI_ClrArea（&（Label［G_cap］））;

GUI_DispStr（&（Label［G_cap］），”语音识别“）;

GUI_ClrArea（&（Label［G_ctrl］））;

GUI_DispStr（&（Label［G_ctrl］），”开始“）;

GUI_ClrArea（&（Label［G_spk］））;

GUI_ClrArea（&（Label［G_return］））;

GUI_DispStr（&（Label［G_return］），”返回“）;

}

void recg（void）

{

u8 *res;

u32 dis;

u32 recg_count=0;

disp_recg（）;

while（1）

{

wait_touch（）;

if（touch_area（&（Label［G_return］）））

{

disp_home（）;

return;

}

else if（touch_area（&（Label［G_ctrl］）））

{

record（）;

GUI_ClrArea（&（Label［G_ctrl］））;

GUI_DispStr（&（Label［G_ctrl］），”识别中“）;

res=spch_recg（VcBuf， &dis）;

if（dis！=dis_err）

{

recg_count++;

GUI_ClrArea（&（Label［G_recg_res］））;

GUI_printf（&（Label［G_recg_res］），”识别结果：%s“，（s8 *）res）;

GUI_ClrArea（&（Label［G_mtch_dis］））;

GUI_printf（&（Label［G_mtch_dis］），”匹配距离：%d“，dis）;

GUI_ClrArea（&（Label［G_stus］））;

GUI_DispStr（&（Label［G_stus］），”语音有效“）;

GUI_ClrArea（&（Label［G_count］））;

GUI_printf（&（Label［G_count］），”已识别%d次“，recg_count）;

}

else

{

GUI_HideArea（&（Label［G_recg_res］））;

GUI_HideArea（&（Label［G_mtch_dis］））;

GUI_ClrArea（&（Label［G_stus］））;

GUI_DispStr（&（Label［G_stus］），”语音无效“）;

}

GUI_ClrArea（&（Label［G_ctrl］））;

GUI_DispStr（&（Label［G_ctrl］），”开始“）;

}

int main（void）

{

BSP_Init（）;

USART1_printf（”SYS Init OK！“）;

USART1_printf（”CPU Speed：%ld MHz“， BSP_CPU_ClkFreq（） / 1000000L）;

disp_home（）;

while（1）

{

wait_touch（）;

if（touch_area（&（Label［G_prc］）））

{

prc（）;

}

else if（touch_area（&（Label［G_recg］）））

{

recg（）;

}

阅读全文

STM32(347780) STM32(347780)
语音识别(111781) 语音识别(111781)

基于DSP的高速实时语音识别系统的设计

实时语音识别系统中，由于语音的数据量大，运算复杂，对处理器性能提出了很高的要求，适于采用高速DSP实现。虽然DSP提供了高速和灵活的硬件设计，但是在实时处理系统中，还需结

2011-10-03 11:10:53

1899

创意耳纹识别系统的研究与实现方案

基于FPGA与传感技术的耳纹识别系统的研究与实现。

2014-07-24 09:13:43

777

一种基于DSP的汉字语音识别系统设计

本汉语语音识别系统是一个非特定人的、孤立音语音识别系统。其中孤立音至少包括汉语的400多个调音节（不考虑声调）以及一些常用的词组。##测度估计技术可以采用动态时间弯折DTW、隐马尔可夫模型HMM

2014-12-16 13:44:37

3123

实时语音识别系统在家庭监护机器人的实现

文中阐述的是家庭监护机器人项目中语音识别系统设计的部分，通过DSP、DMA和ARM Cortex-A8的并行处理，利用双缓冲的方法，在嵌入式Linux上实现了基于ATK的实时语音识别系统

2014-12-16 14:14:43

2752

ARM嵌入式孤立词语音识别系统电路设计

语音识别技术就是能使计算机“听瞳“人类的语言，然后根据其义来执行相应的命令，从而实现为人类服务。

2014-12-18 09:36:07

1168

语音识别技术原理及实用系统设计汇总

监护机器人项目中语音识别系统设计的部分，通过DSP、 DMA和ARM Cortex-A8的并行处理，利用双缓冲的方法，在嵌入式Linux上实现了基于ATK的实时语音识别系统。##本文

2014-12-19 13:50:54

17721

智能家庭应用之语音识别系统

开发基于自然语言的语音识别系统面临许多技术挑战，包括使用精确的语音识别引擎将机器听到的内容翻译成文字—以及一个综合的自然语言处理器

2015-10-20 09:31:10

3998

1小时玩转AI语音识别

`报名链接：http://t.elecfans.com/live/563.html直播主题及亮点本次直播讲解AI语音识别核心技术知识以及语音识别系统架构，现场实操写代码实现语音采集、语音传输与解析

2018-09-19 13:40:42

语音识别的现状如何？

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

2019-10-08 14:29:52

语音识别系统在智能家庭系统中的应用是什么？

语音识别系统在智能家庭系统中的应用是什么？

2021-05-31 06:54:34

AT32上实现关键词语音识别（KWS）

AT32上实现关键词语音识别（KWS）本文基于此开源模型和代码，在AT32 MCU 上对KWS 效果进行展示。

2023-10-26 07:45:24

FPGA和Nios_软核的语音识别系统的研究

FPGA和Nios_软核的语音识别系统的研究引言语音识别的过程是一个模式匹配的过程在这个过程中，首先根据说话人的语音特点建立语音模型，对输入的语音信号进行分析，并提取所需的语音特征，在此基础上建立

2012-08-11 11:47:15

RFID射频识别系统怎么实现？

概述射频识别（RFID，Radio Frequency Identification）是一种非接触式的自动识别技术，通过射频信号在空间上的耦合实现非接触式数据传输，达到自动识别对象并获取相关信息

2019-08-26 06:03:03

【Nuvoton ISD9160语音识别试用体验】结项总结语音识别智能抽屉控制~~~~~~~~~

家居自动化进行分析理解,以及语音识别在控制方面的具体应用结合当前实际情况,设计出一套通过非特定人的特定语音控制家具抽屉的打开和关闭。该语音识别系统控制抽屉的打开和关闭通过驱动步进电机来实现。在一些特殊

2016-12-23 09:19:55

主动式射频识别系统的设计和实现

射频识别(RFID)是一种利用射频信号进行识别的技术，它的基本原理是利用应答器直接发射或反射的电磁波来进行通信。根据系统应答器向读写器通信方式可以分为主动式和被动式两种。主动式射频就识别系统由于其

2019-05-29 07:41:40

使用紧急呼叫和DSP的语音识别系统

开发并测试了安装在汽车内、使用简单离散字的特定发音人语音识别系统。

2019-11-04 07:23:41

基于STM32嵌入式的孤立词语音识别系统设计

语音识别是机器通过识别和理解过程把人类的语音信号转变为相应文本或命令的技术，其根本目的是研究出一种具有听觉功能的机器。本设计研究孤立词语音识别系统及其在STM32嵌入式平台上的实现。识别流程是：预

2021-08-06 08:32:00

基于ATMEGAl28的语音识别系统设计

量大，一般在计算机上实现，即使是嵌入式方面，多数方案也需要运算能力强的ARM或DSP，并且外扩RAM、FLASH等资源，增加了硬件成本，这些特点无疑限制了语音识别技术的应用，尤其是嵌入式领域。本系统

2014-03-17 13:31:40

基于AVR单片机的语音识别系统设计

　　基于AVR单片机的语音识别系统设计，系统以AVR单片机为控制核心，实现对人的语音的识别控制。系统采用的主控芯片为Atreel公司的ATMEGAl28，语音识别功能采用ICR oute公司的单芯片

2021-01-13 15:54:14

基于DSP的汉字语音识别系统如何实现

基于DSP的汉字语音识别系统如何实现

2021-03-12 06:33:15

基于FPGA的车辆牌照识别系统的设计

基于FPGA的车辆牌照识别系统的设计介绍了一种以FPGA 芯片为核心，基于SoPC技术实现的车辆牌照识别系统。系统通过CCD摄像头完成含车牌图像的采集，经过系统的存储、处理来实现车牌识别的目的。系统具有良好的便携性、灵活性和通用性。详细的论述了该系统硬件结构和软件设计思想，并分析了系统具有的优点。

2012-08-11 15:35:45

基于HMM的语音识别系统是怎么训练的

基于HMM的语音识别系统是怎么训练的？有哪些步骤？

2021-12-23 06:16:50

基于LabVIEW的语音识别系统

基于LabVIEW的语音识别系统

2020-03-07 16:41:15

基于LabVIEW的语音识别系统

请大家帮帮忙，基于LabVIEW的语音识别系统，要求先录几个人的声音做样板，然后再让其中一个人说话，能辨别出是谁说的

2013-05-16 11:16:15

基于labview的语音识别

处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。（2）声学模型

2019-03-10 22:00:15

如何去实现一种无线远距识别系统的设计？

本文介绍了一种基于声表面波器件的无线远距识别系统的实现。

2021-06-03 06:25:50

如何去实现一种特定人语音识别系统？

特定人语音识别的方法有哪些？特定人语音识别系统是由哪些部分组成的？如何去实现一种特定人语音识别系统？

2021-05-19 06:44:14

如何通过LD3320语音识别模块识别我们预定的短语

LD3320A语音识别一、LD3320A语音识别模块介绍二、本章节实现功能介绍三、接线图四、完整代码五、代码运行结果六、一些优化语音识别效果的建议一、LD3320A语音识别模块介绍LD3320A

2022-01-12 08:19:47

嵌入式语音识别系统中的电路设计是如何的

调高点或者调低点，空调就会做相应的反应，那到底是如何来实现这些语音交互的呢，那就得说嵌入式语音识别系统了，今天我们先来看一下嵌入式语音识别系统中的电路设计是如何的，是如何实现这些语音交互的。语音识别在现...

2021-12-20 07:52:03

嵌入式语音识别系统在生活中的应用有哪些呢

嵌入式语音识别系统是什么？嵌入式语音识别系统在生活中的应用有哪些呢？

2021-12-23 08:27:03

微软语音识别系统错误率仅为5.1%，达成新的精准里程碑！

　　导读：微软今天宣布，其会话语音识别系统的误率达到了5.1%，是目前为止最低的。 [img][/img] 　　这一数据超过了微软人工智能和研究团队去年5.9%的误差率，并将其准确性与专业的人

2017-08-23 09:18:35

怎么实现基于STM32F103单片机的车牌识别图像处理识别系统的设计？

STM32的主要优点是什么？怎么实现基于STM32F103单片机的车牌识别图像处理识别系统的设计？

2021-09-29 06:29:46

怎么实现基于MATLAB的车牌识别系统的设计？

一个完整的牌照识别系统包括哪些单元？怎么实现基于MATLAB的车牌识别系统的设计？

2021-05-12 07:04:46

怎么实现基于射频技术的无线识别系统设计？

本文给出一种实现简单射频识别系统的方式。阅读器和应答器均包含在单片机控制系统中，利用ASK调制与解调电路以及匹配网络电路，使整个系统的可识别有效距离约为8．3cm，有一定的使用价值。

2021-06-03 06:33:01

怎么实现小型无线射频识别系统的设计？

怎么实现小型无线射频识别系统的设计？

2021-05-19 07:03:16

怎么设计基于嵌入式系统的语音口令识别系统？

回答等。在数字信号处理芯片上已经实现了语音口令识别系统或语音口令识别系统的部分功能，然而随着嵌入式微处理器处理能力的大幅度提高，计算量大的语音口令识别算法已经能够通过嵌入式微处理器来完成，将语音口令识别系统与嵌入式系统相结合，发挥语音识别系统的潜力，使语音识别系统能够广泛应用于便携式设备中。　　

2019-09-03 08:27:23

怎样去搭建一个基于kaldi的在线语音识别系统

(GMM+HMM+NGRAM)概述）。一段时间后老板就布置了具体任务：在我们公司自己的ARM芯片上基于kaldi搭建一个在线语音识别系统，三个人花三个月左右的时间完成。由于我们都是语音识别领域的小白，要求...

2021-07-29 08:59:19

怎样去搭建一个基于kaldi的嵌入式语音识别系统呢

怎样去搭建一个基于kaldi的嵌入式语音识别系统呢？

2021-12-23 09:30:05

怎样去搭建一个基于kaldi的嵌入式在线语音识别系统

怎样去搭建一个基于kaldi的嵌入式在线语音识别系统？分为哪几个阶段呢？

2021-10-28 08:37:01

怎样去搭建一种基于嵌入式平台的在线语音识别系统呢

怎样去搭建一种基于嵌入式平台的在线语音识别系统呢？有哪些阶段？

2021-12-23 06:51:31

怎样去设计一种基于LD3320芯片的嵌入式语音识别系统呢

LD3320语音识别芯片的工作原理是什么？LD3320语音识别芯片有何应用？怎样去设计一种基于LD3320芯片的嵌入式语音识别系统呢？

2021-12-23 09:50:11

怎样去设计基于LD3320的嵌入式语音识别系统

摘要：语音交互系统是比较人性化的人机操作界面，它需要语音识别系统的支持。LD3320就是这样一款语音识别芯片。介绍了该芯片的工作原理及应用，给出了LD3320与微处理器的硬件接口电路及软件程序。随着

2021-07-21 09:31:27

怎样去设计基于嵌入式Linux的语音识别系统

该设计运用三星公司的S3C2440，结合ICRoute公司的高性能语音识别芯片LD3320，进行了语音识别系统的硬件和软件设计。在嵌入式Linux操作系统下，运用多进程机制完成了对语音识别芯片

2021-11-04 09:03:09

怎样去设计并制作出基于STM32的孤立词语音识别系统呢

语音识别是什么？怎样去设计并制作出基于STM32的孤立词语音识别系统呢？

2021-11-08 07:04:19

求一种基于TMS320VC5402的嵌入式音乐语音识别系统设计方案

音乐语音识别系统的硬件电路该如何去设计？音乐语音识别系统的软件该如何去实现？

2021-12-23 08:50:56

求大佬分享一种基于SVM的0MAP5912非特定人嵌入式语音识别系统的实现方法

SVM多类分类方法是什么？嵌入式系统开发环境怎么搭建？基于SVM的0MAP5912非特定人嵌入式语音识别系统的实现方法

2021-06-01 06:47:44

疯壳AI语音及人脸识别系统开发文档教程pdf

疯壳AI语音及人脸识别系统开发文档教程pdf

2019-02-25 19:56:19

直播福利：1小时玩转AI语音识别

2018-09-19 13:46:18

基于SPCE061A的语音识别系统的设计

系统采用凌阳SPCE061A 单片机作为语音识别系统的主控芯片。通过硬件电路设计和软件代码部分成功的设计并实现了一种具有语音识别功能、语音提示(语音合成)及语音回放(语音编

2009-05-26 10:54:08

基于ARM的语音识别系统的设计与实现

语音识别技术是语音处理领域的一个关键技术。在研究了语音识别技术原理的基础上，本文提出了一种基于ARM 处理器的孤立词语音识别系统的设计方案，包括系统硬件设计、软件

2009-09-03 10:52:49

基于片上系统SoC的孤立词语音识别算法设计

本文首先介绍了研究的孤立词语音识别系统，并针对片上系统进行了语音识别算法的选择。然后对基于语音帧的端点检测算法、线性预测编码倒谱系数LPCC 算法和动态时间规整DTW 算

2009-11-27 15:42:08

基于片上系统SoC的孤立词语音识别算法设计

本文首先介绍了研究的孤立词语音识别系统，并针对片上系统进行了语音识别算法的选择。然后对基于语音帧的端点检测算法、线性预测编码倒谱系数LPCC算法和动态时间规整DTW算法

2010-07-17 17:05:50

基于DSP的孤立词语音识别系统的设计

本文提出了基于TMS320VC5402的语音识别系统方案。整个系统以TMS320VC5402为核心电路进行设计，由TLC320AD50C进行A/D转换，由TMS320VC5402识别语音信号，然后和机器人通信，并由AT89S52控制 LCD

2010-07-27 17:36:56

基于TMS320C6711 DSP的非特定人、孤立词语音识别

本文介绍了一种基于TMS320C6711 DSP的非特定人、孤立词语音识别系统。本文首先介绍了语音识别技术的基本原理，然后对不同的识别算法在多种嵌入式系统平台上进行性能分析和比较

2010-07-27 17:49:13

孤立词语音识别系统的DSP实现

孤立词语音识别系统的DSP实现 0 引言在孤立词语音识别中，最为简单有效的方法是采用动态时间规整(Dynamic Time Warping，DTW)算法，该算法解决了发音长

2009-11-10 09:25:37

937

交互式语音识别系统研究

为了实现大词汇量连续语音识别技术的实际应用，本文提出了交互式语音识别的概念并着重研究其中的各项关键技术。所谓的交互式语音识别，是指为语音识别系统配置一位操作员，该

2011-05-28 16:30:26

语音识别系统在家庭监护机器人的实现

文中对该系统的软硬件进行了设计。在硬件方面，给出语音识别系统的硬件组成原理，并提供了关键部分原理图；在软件方面，提出实时语音识别的方法，给出应用程序实现流程。最后

2012-05-09 15:10:23

234

ADSP-BF531在嵌入式语音识别系统中的应用

设计了一个嵌入式语音识别系统，该系统硬件平台以ADSP-BF531为核心，采用离散隐马尔可夫模型(DHMM)检测和识别算法完成了对非特定人的孤立词语音识别。试验结果表明，该系统对非特定

2012-07-12 14:02:32

基于LD3320的嵌入式语音识别系统设计

语音交互系统是比较人性化的人机操作界面，它需要语音识别系统的支持。LD3320就是这样一款语音识别芯片。介绍了该芯片的工作原理及应用，给出了LD3320与微处理器的硬件接口电路及

2012-12-21 12:00:33

27635

基于STM32的语音识别系统的设计与实现

基于STM32的语音识别系统的设计与实现

2015-11-09 18:03:00

基于stm32的指纹识别系统设计与实现_杨磊

基于stm32的指纹识别系统设计与实现，嵌入式的指纹识别系统，32位单片机，功能强大。

2016-03-22 15:27:44

FPGA和Nios_软核的语音识别系统的研究

FPGA和Nios_软核的语音识别系统的研究。

2016-05-10 10:46:40

STM32嵌入式平台上的实现孤立词语音识别系统

基于STM32嵌入式的语音识别系统的设计，是某位大神的毕业设计。

2016-07-08 11:33:08

科大讯飞新一代语音识别系统解读

今天，我们就为大家从技术上揭秘科大讯飞的新一代语音识别系统。

2016-08-17 14:31:02

3245

LD3320的嵌入式语音识别系统的应用

基于LD3320语音识别系统的学习

2016-12-31 15:06:59

基于神经网络的汉语孤立词语音识别_朱淑琴

基于神经网络的汉语孤立词语音识别_朱淑琴

2017-03-16 09:40:35

基于语音特征聚类的HMM语音识别系统研究姚敏锋

基于语音特征聚类的HMM语音识别系统研究_姚敏锋

2017-03-15 08:00:00

语音识别系统硬软件方案分析

2017-10-15 10:53:42

基于嵌入式系统的语音口令识别系统的实现

或做出回答等。在数字信号处理芯片上已经实现了语音口令识别系统或语音口令识别系统的部分功能，然而随着嵌入式微处理器处理能力的大幅度提高，计算量大的语音口令识别算法已经能够通过嵌入式微处理器来完成，将语音口令

2017-12-02 09:09:01

707

LCD液晶显示模块与基于FPGA的语音识别系统电路设计

在与DSP、FPGA、ASIC等器件为平台的嵌入式系统结合后，逐渐向实用化、小型化方向发展。本课题通过对现有各种语音特征参数与孤立词语音识别模型进行研究的基础上，重点探索基于动态时间规整算法的DTW模型在孤立词语音识别领域

2017-12-02 09:43:40

一种基于嵌入式系统的语音口令识别系统的设计

2019-04-23 15:52:53

863

嵌入式语音识别系统是什么

嵌入式语音识别系统分为封闭域识别和开放域识别，封闭域识别范围围绕指定的字/词语集合，也就是说在开发系统的时候会设定好应识别的字或词语，对范围外的词语语音系统不会识别。

2019-06-12 11:38:09

2859

语音识别系统功能_语音识别系统的应用

，与一台甚至多台PC机相比起来，其运算速度，存储容量都非常有限，因而这些由专用芯片实现的语音识别系统有如下几个特点：

2019-10-01 09:21:00

5254

医疗智能语音识别系统的研发与应用

结合语音识别技术构建医疗智能语音识别系统，达到减轻医护人员日常工作负担，减少重复性劳动，提高诊疗质量的目的。基于语音识别的关键技术和海量的医疗数据，开发电子病历与检查报告智能语音录入、移动护理智能语音录入、非接触式智能语音数据交互系统。

2019-10-21 16:46:27

3263

语音识别设置能删除吗_语音识别系统工作流程

本文首先介绍了语音识别设置的删除，其次阐述了语音识别系统工作流程，最后介绍了语音识别系统的实现。

2020-04-01 09:47:40

3750

基于JuliUS语音识别引擎实现机器人孤立词语音识别系统的设计

语音识别系统是一种模式识别系统，系统首先对语音信号进行分析，得到语音的特征参数，然后对这些参数进行处理，形成标准的模板。这个过程称为训练或学习。当有测试语音进入系统时，系统将对这些语音信号进行处理，然后进行参考模板的匹配，得出结果。此时便完成了语音识别的过程。

2020-04-06 17:13:00

1524

已全部加载完成

搜索历史

基于STM32实现孤立词语音识别系统

评论