绷缝机厂家
免费服务热线

Free service

hotline

010-00000000
绷缝机厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

硅谷杂志嵌入式系统中基于语音识别技术研究

发布时间:2020-02-14 04:41:20 阅读: 来源:绷缝机厂家

【硅谷网11月3日文】据《硅谷》杂志2012年第16期刊文称,提出基于特定人、孤立词的语音识别系统模型,采用W78E52型号的单片机完成语音信号的采样与检测,建立硬件系统模型,实现语音的输入处理。

1系统的设计思想

随着计算机软件技术和硬件技术的不断发展,语音识别技术可以在嵌入式硬件平台上应用,但要求该系统具有满足要求的存储单元和计算处理能力,使之能完成语音信号的采样与编码处理。

本文所研究的语音识别技术是在以单片机为核心的硬件平台上实现的,但单片机本身处理速度比较慢,存储容量较小,因此系统以孤立词和基于特定人来建立处理模型,该语音系统模型原理框图如图1所示。

图1语音识别系统框图

从图1可知,首先必须对特定人进行模板训练,使系统能正确的识别特定人的语音。将语音信号通过采样、滤波、消噪最后送到A/D转换器,将模拟语音信号转换成数字信号,输入到CPU进行处理。分帧处理数字化的语音信号,在端点检测中采用双门限法,该方法可以滤除噪音,保留正常的音频信号。特征提取语音信号,线性预测倒谱分析提取过的信号组合成语音特征矢量存入模板库。当系统进行语音识别的时候,以同样的过程录入语音信号,用相同的方法组织成语音特征矢量,利用参考模板中的语音矢量和录入的特征矢量进行DTW模板匹配,输出最佳的匹配结果。

本语音识别系统是用单片机作为处理器,该系统和PC机组成的语音识别系统相差较大。其中最为明显的是单片机的存储容量小处理速度慢,系统在设计时应以低成本、低功率和小体积来设计,框架结构如图2所示。

图2语音识别大体框架

嵌入式语音系统与一般的语音系统工作过程基本相同。首先采样语音信号,在程序运行时,模板的训练操作通过控制模块输入,输入完成后系统采集特定人的语音信号,经过A/D转换进入控制器,用事先编好的算法建立特定人的标准语音库存入存储器中。在语音识别过程中,当前需要进行的操作通过控制模块输入,系统将采集到的语音建立矢量模型,把输入的语音信号和ROM中的库标准语音进行比对,确定语音的输入是否正确,最后在LCD上显示输出,完成语音的识别。

2系统的硬件结构

本语音识别系统是以单片机为处理器,硬件系统的设计思想采用模块化设计思想,其硬件结构如图3所示。

图3硬件系统框图

以下对每个模块的作用和总体的设计方案进行介绍:

1)微控制器

MCU作为系统的控制指挥中心,语音的输入、信号的采样、命令的执行、数据的存储以及识别结果的输出等,都是由MCU来完成,处理器的处理速度和运算能力决定整个系统的运行处理能力。因此,选择处理器的型号至关重要,系统选择了Winbond公司的W78E52单片机,该单片机内部集成了A/D采样通道,采样速度和采样频率都能满足系统的要求,性价比较高。

2)声音采集模块

采集模块由两大电路组成,一个是拾音器,另一个是运算放大器。进行语音采样时,语音通过拾音器将自然语音转换成电信号,但刚转换的电信号信号很微弱,必须通过后端的运算放大电路将其放大,这也是引入功率放大器的原因。放大器能将拾音器输出仅为毫伏级的电压信号放大到伏级的电压信号。

3)外部存储器

为了减小语音输入失真,一般都用8kHz频率作为语音信号的采样频率,但由于单片机内置的存储容量较小,因此单片机内部的存储容量远远不够。为了达到采样频率对存储器的要求,系统采用FLASH闪烁存储体作为存储器扩展。

4)带通滤波器

正常人说话的频率最低频率为300Hz,最高频率是3.4kHz,系统必须对语音以外的频率成份消除,以提高语音的信噪比,这就是通常我们讲的消噪。对语音信号的消噪由带通滤波器完成,将300Hz-3.4kHz的信号保留。设计过程中用高通滤波器和低通滤波器级联组成滤波器,也就是设计一个上限截止频率为3.4kHz的低通滤波器,再设计一个下限截止频率为300Hz的高通滤波器,将设计的两个滤波器进行级联。

5)键盘控制模块

语音识别过程中具体控制操作由键盘来完成,比如语音信号的识别过程、模版的训练和语音的录入。

6)串口通信模块

系统在调试过程中需要和上位机进行通讯,采用串行通讯接口来完成与上位机点对点通讯,这种方式成本较低。

7)LCD显示模块

LCD电路用来显示当前系统的状况和语音识别结果,同时也可以作为人机接口,提示用户接下来该如何操作。

3系统的软件结构

单片机程序的编写可以用两种语言来编程,一种是汇编语言,另一种是C语言。汇编语言与计算机内部的硬件结构密切相关,是早期常用的单片机程序语言。用汇编语言编写的应用程序具有效率高、占用系统资源少和执行速度快等优点,但是由于它依赖于单片机硬件,因此可移植性较差,很难编写一些复杂度高、难度较大的应用程序,调试也比较麻烦,不同的单片机采用不同的指令系统,助记符无法通用。系统可以用C语言来编写单片机应用程序,这样移植性好,可读性强,易于实现。目前很多系列单片机都支持C语言编程,因此在单片机选型上采用的是支持C语言的W78E52芯片。在开发环境上,采用KeilC51,该环境在编译、连接和库文件管理以及仿真调试过程中都很方便。在KeilC5l中采用项目管理,一个项目主要包含源文件和头文件,方便实现模块化管理,不仅便于管理,而且很直观。

系统中的程序文件包括主程序、LCD显示程序、键盘管理程序、通讯管理程序、模板匹配程序和声音录入处理程序。其中主程序作为整个程序的入口,各子程序通过主程序的调用来完成程序的运行。系统在调用各模块时,必须用包含预处理命令对相应功能模块的程序文件和头文件进行编译预处理。

4小结

本文介绍了以Winbond公司W78E52单片机为核心的语音处理系统,研究了基于特定人孤立词的语音识别系统。在嵌入式系统基于语音识别应用模型中,结合单片机本身的特点,给出了系统的硬件结构和软件模型。

(责任编辑:硅谷网·)

上一篇:硅谷杂志:基于语义网的信息检索系统研究

下一篇:硅谷杂志:基于张量线性鉴别分析的人脸识别算法 对“硅谷杂志:嵌入式系统中基于语音识别技术研究”发布评论

中山工商税务咨询

中山工作签证移民

深圳工商税务代理价格

中山注册公司范围