前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇语音识别系统范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
一、引言
语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
二、语音信号分析与特征提取
1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。
2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:
一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。
摘 要: 为了提高语音识别的可靠性和高效率性,设计了以“MCU+DSP”的双CPU结构为核心的语音识别系统,其中以DSP[1]芯片作为硬件平台的主处理器,完成语音识别所需的计算。MCU用以完成对DSP运算的协助工作,控制机器人各部分动作,其性能达到了实时处理的要求。
关键词: 拟人机器人; 双CPU; 语音识别系统; 硬件设计
中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)01-01-02
Design of hardware of speech recognition system in humanized robot
Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng
(North China of Technology, Beijing 100144, China)
Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.
Key words: humanoid robot; double CPU; speech recognition system; hardware design
0 引言
随着超大规模集成电路和数字信号处理器(DSP)的快速发展,DSP的应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、实时、精确处理的要求,所以很适用于语音识别。
1 拟人机器人语音识别方法概述
语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质特征的参数,才可能利用这些参数进行高效的语音通信,才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性,虽然语音信号具有时变特性,但在一个短时间范围内其特性相对稳定,因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上,一般认为语音信号在10-30ms的短时间内是相对平稳的。
拟人机器人语音识别方法如图1所示,采集到的语音信号输入后,首先对语音信号进行预处理,预处理主要包括:语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节;然后是信号特征量的提取(本文对信号的特征量进行Mel频率倒谱系数[2](Mel-Frequency Cestrum Coefficients)处理);最后对建立好的参数模板进行对比,测试的依据是失真度最小准则,如本文用到的动态时间规整DTW[3](Dynamic Time Warping)。
2 系统硬件设计
通过针对拟人机器人的特点,对系统进行分析和方案设计,最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP(TMS320VC5416)为主处理器的硬件平台,硬件平台主要包括:语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出;主处理器DSP模块(TMS320VC5416)主要完成语音识别所需的计算,其性能能够达到实时处理的要求;存储器模块包括一片FLASH和两片SRAM,用FLASH作为DSP的可编程存储器,SRAM分别作为DSP的数据和程序存储器;单片机MCU模块完成对拟人机器人的运动控制;485串口通信模块实现单片机MCU和PC机之间的通信。
2.1 主处理器DSP模块介绍
TMS320VC5416(简称VC5416)是TI公司的C54X家族的成员之一,它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点,高性能低功耗,具有高达160MHz的主频,核心电压1.5V,运行于此频率时功耗仅为90mW;拥有一条程序总线和三条数据总线,片内集成有高度并行性的算术逻辑单元(ALU)、专有硬件逻辑、片内存储器和片内外设等。
片内可屏蔽ROM中固化有启动装载程序(BOOTLOADER)和中断向量表等。系统上电时,BOOTLOADER自动把用户代码从外部存储器搬移到程序空间。复位以后,中断向量表可被重新映射到程序空间的任何(128Word)的开始处。为了与慢速的外设通信,VC5416提供了等待状态发生器,通过软件设置等待周期的个数,不仅降低了系统硬件设计的复杂性,而且为系统带来了很大的灵活性。VC5416片内集成了软件可编程的锁相环时钟电路,它只需要一个参考时钟输入就可以得到31种不同频率的输出时钟,最大的乘率因子(在寄存器CLKMD中设置)为15,最小的为0.25。这样,一方面可利用较低频率的外部时钟源产生较高频率的CPU时钟,另一方面在不工作时可降低CPU时钟频率至外部频率的四分之一,从而降低了CPU的功耗。 2.2 语音输入输出模块介绍
关键词:语音控制;语音识别芯片;单片机;
文章编号:1674-3520(2015)-09-00-03
一、课题背景
学校常会组织我们到贵阳市盲聋哑学校送爱心,与残障孩子亲密互动,今年也不例外。那些残章的孩子来到这个世界,只能用他们仅存的方式去感知世界万物,在他们的世界里只有一种颜色,那就是黑色。我不禁想,在学校还有老师的照拂,可他们总有一日要长大,要开启自己的人生旅程。要是我能为他们做哪怕一点点事,就算只是为他们的家庭生活提供一些帮助也是好的。我想,如果能利用我在机器人社中学到的传感器、电子电路、单片机等专业知识,对家庭电路进行智能化改造,让家庭的电路“聪明”起来,使他们能够听得懂主人的指令而进行相应的操作,那就可以对有残障的人和对一些不良于行的病人或老人的家庭生活都能提供很大的便利。于是,有了我的这个设计――基于LD3320的语音识别系统在家庭电路中的模拟应用。
二、模型设计
(一)模块功能
(二)模型组成
(三)主要电子元件工作原理与功能说明
1、LD3320语音识别芯片
LD3320语音识别芯片采用的是ASR(Auto Speech Recognitio)技术,是YS-LD语音识别模块的核心。它是对大量的语音数据经语言学家语音模型分析,建立数学模型,并经过反复训练提取基元语音的细节特征,以及提取各基元间的特征差异,得到在统计概率最优化意义上的各个基元语音特征,最后才由资深工程师将算法以及语音模型转换成硬件芯片并应用在嵌入式系统中。
LD3320有两种使用模式,即“触发识别模式”和“循环识别模式”。可以通过编程,设置两种不同的使用模式。
触发识别模式:系统的主控MCU在接收到外界一个触发后,启动LD3320芯片的一个定时识别过程,在这个定时过程中说出要识别的语音关键词语。这个过程结束后,需要再次触发才能再次启动一个识别过程。
循环识别模式:系统的主控MCU反复启动识别过程。如果没有人说话就没有识别结果,则每次识别过程的定时到时后再启动一个识别过程;如果有识别结果,则根据识别作相应处理后再启动一个识别过程。
根据本案模型的设计特点,采用语音触发识别模式。LD3320芯片最多支持50个识别条目,每个识别条目是标准普通话的汉语拼音(小写),每2个字(汉语拼音)之间用1个空格间隔。例如表1,只需要把识别的关键词语以汉语拼音字符串的形式传送进芯片,该芯片已封装了基于标准普通话的语音模型数据和语音识别算法,无需进行任何语音训练即可投入开发应用。
2、STM32单片机控制单元
本案模拟系统主控单元采用意法半导体ARM-Cortex架构的STM32F1系列超低功耗单片机作为控制核心。
该单元完成几大功能:
向LD3320模块提供时钟振荡信号,以驱动片上DSP(数字信号处理器 )工作;
通过SPI(串行外设接口)串行通信方式向LD3320模块写入预定义的控制命令拼音串,并读取语音模块返回的识别结果编码;
根据识别结果驱动负载电路(LED单元(发光二极管)、继电器单元)的动作。
当LD3320模块完成一次识别过程后,通过中断请求方式通知主控单元处理,主控单元获知中断请求后会暂时中止当前的任务执行,转而跳转到中断服务例程(ISR Route),在该例程中通过SPI总线从LD3320模块读取识别编码,根据识别编码的不同执行对应控制功能。通过点亮、熄灭指令对应发光二极管或驱动继电器接通主回路得到运行结果。
3、LED显示单元
本案模拟系统用六个共阳极发光二极管(LED)来模拟家庭中厨房、工作间、卧室、走廊、卫生间、阳台的灯泡开关状况,工作时主控单片机则根据语音命令,采用输出低电平方式进行驱动点亮。
4、继电器输出单元
继电器输出单元可接收主控单片机的高低电平控制信号以接通或断开主回路。主回路根据实际需求可以用于大电压,交、直流供电的负载驱动。本案模拟系统用继电器单元实现家庭电扇的通断控制。
(四)系统软件开发环境
本案模拟系统的软件开发只针对STM32F103主控单元进行,软件代码完成以下功能:
LD3320底层驱动(对其内部寄存器的读写、时序的控制);
STM32F103硬件单元和用户变量的初始化;
用户语音命令拼音串的写入;
中断服务ISR(完成负载电路的驱动控制)。
软件开发基于ARM公司的Keil开发环境,完成从代码编辑到编译、调试、烧写一系列过程。
(五)设备成本
三、设备实测
(一)控制命令
LD3320语音识别芯片中最多可以写入50条语音控制指令,可以根据用户需要定制个性化的语音控制功能。本案设备的设计初衷是为了探索LD3320语音识别芯片在家庭电路中的模拟应用,故只写入了比较基本的18条指令。
(二)设备测试
在写入程序,完成硬件连线并加电复位后,系统即进入运行状态。向系统说出控制命令(尽可能用普通话, 不过实测时对贵阳本地方言还是有较高识别率),比如说“厨房打开”、“走廊关闭”、“电扇启动”、“运行流水灯”等命令后,系统会根据识别结果执行对应动作,点亮/熄灭LED或者通/断电扇运行。
为了更好的检测语音识别效果,实验中选择多个不同音色的人在家庭(比较安静)环境下分别进行测试,每个词语测试50遍。部分非特定人的语音命令测试的正确识别数据比例见表4:由上表可知,在家庭(比较安静)环境下,对于语音命令的平均识别率可达到90%以上。
四、设备优势与应用展望
(一)设备优势
1、本案设备成本低、语音辨识率高、响应快速,可以直接安装于家庭电路中实现语音智能控制。
2、由于LD3320 可以动态编辑的识别关键词语列表,因此其可以应用的范围大大超过了那些不可以改变识别列表的芯片。
3、可以根据用户的需求进行控制命令写入,实现可定制、个性化的智能控制。
(二)应用展望
1、应对家庭生活突发状况
在本语音识别系统中只是初步尝试了对用电器通、断电控制,而在现在社会中有很多的空巢老人,他们独自生活,如果在家中出现意外或突发疾病,随时都有可能危及生命。如果在本案系统中可以添加“紧急呼叫”的语音控制,当出现突发状况时可以使用该功能触发电话自动拨打物管、救护车、亲属等重要联系人。或者该控制与小区物管相连,每当有人有紧急呼叫时,物管的终端紧急呼叫灯亮起,并触发扬声器发出警报声,使物管人员迅速到场解决问题。
2、实现家用电器的语音控制
(1)电磁炉/微波炉/智能家电操作
在现在的家电中,各种各样的设置越来越繁复。用户在使用过程中,还要不断地对家电进行功能切换。在引入LD3320 芯片后,可以用语音直接控制这些家电。比如用语音来控制电磁炉把火力调整到“煎炸”或者是“慢炖”。
(2)数码像框
数码像框中存放了许多的照片和视频,同时又具有多种播放的方式。一般是通过按键或者遥控器的方式来对其进行操作,但是这样的操作并不方便。在引入了LD3320 提供的语音识别功能后,用户可以最自然地用语音去点播想要显示的照片,或者改变数码像框的显示方式。使得这样的数码产品更加具有人性化的操作界面。
3、机顶盒/彩电遥控器
随着数字电视的普及,家庭中可以收看到的电视节目也越来越丰富。大家也就苦于在众多的频道中迅速选择到自己想要看的频道。在把LD3320 语音识别芯片集成进机顶盒/彩电遥控器后,用户只需要对着遥控器说出想要看的电视频道的名字,就可以快速地选择。比如用户可以说出“奥运体育”,就可以转到体育频道来观看精彩的体育比赛了。
4、智能玩具/对话玩具
在电视购物中曾经出现过可以人机对话的玩具,比如金福猪,金福狗等。这些玩具采用的语音识别只能支持固定的10 条左右的语音命令,比如“你好”,“我想听歌”等等。采用LD3320 芯片,可以利用其动态编辑识别关键词语列表的性能,让玩具实现及其复杂的对话脚本。避免了玩具的严重同质化。
(三)公共服务设施的语音控制
1、自动售货机、地铁自动售票机等销售型服务设施
在自动售货机、地铁自动售票机等销售型服务设施中安装语音操作模块。人们可以对着售货机说出要买的商品,比如“可口可乐”或者“面巾纸”投币后商品就自动售出。在北京、上海等大都市中,外地旅客较多,对地铁线路不熟悉导致买票时不知道票价也不知道如何购买。有了语音操作界面后,只需要对着售票机说出要去的地方或者想要到达的站点,根据屏幕提示放入纸币,就可以方便地买到车票。
2、公共照明系统、辅助设施的语音控制
在公共场合帮助残疾人士、行动不便的老人或小孩非接触地去控制公共照明系统或辅助设施(地下通道轮椅台等)的运行。
3、楼宇电视的广告点播
目前分众传媒等公司的楼宇广告设施,遍布几乎所有的写字楼,也在广告投放上取得了良好的效果。但是目前用户在接受广告时,都是被动地去接受信息。对于其中感兴趣的广告,只能是等待下次再看到时进行仔细地了解,没有办法进行主动式地广告查询。
引入LD3320 语音识别芯片后,用户可以用语音去方便地查询想要了解的广告信息。比如操作楼宇广告“重新播放”“上一条”来重新观看一条广告。或者“汽车”来点播想要看的汽车广告。
这样的语音操作,不需要增加额外的键盘输入和触摸屏输入,又可以让用户与广告充分互动,取得更佳的效果。
五、结语
使用LD3320 芯片可以在一定程度上完成这样的语音控制系统,给人们的生活带来更便利的语音交互界面。作为一种新的人机交互界面,会逐步地走入人们的日常生活,在适合用语音控制的地方给人们提供更多的便利。
参考文献:
[1]陈喜春.基于LD3320语音识别专用芯片实现的语音控制,[J]. 电子技术设计与应用. 2011年11月
语音识别ASR(Automatic Speech Recognition)系统的实用化研究是近十年语音识别研究的一个主要方向。近年来,消费类电子产品对低成本、高稳健性的语音识别片上系统的需求快速增加,语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。
语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。
嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。
对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。
语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。
笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。
1 硬件平台
本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。
该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。
UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。
2 嵌入式语音识别系统比较
以下就目前基于整词模型的语音识别的主要技术作一比较。
(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。
DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。
DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。
(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突况。因此,HMM算法具有良好的识别性能和抗噪性能。
基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。
在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。
(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。
3 基于HMM的语音识别系统
下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。
3.1 前端处理
语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。
模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。
特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。
特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。
3.2 声学模型
在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:
πi=P{X0=Si},i=1..N
以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:
系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:
Pxn=Si{On}=P{On|Si}
因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。
在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。
其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。
由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。
DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。
笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。
3.3 识别性能
笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。
表1 汉语数码识别率
DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。
表2 59词命令词集识别率
浮 点定 点无静音模型98.59%98.28%有静音模型98.83%98.55%可以看到,在硬件能够支持的情况下,CHMM的识别率比DHMM有很大的提高,同时识别速度也完全可以满足使用要求。
关键词:银行;系统内;差别利率体系;利与弊
银行实行系统内部的差别利率是有其合理性和重要性的,通过疏通内部的血液循环,才能形成健康的运营机制,从而更好地适应环境,获得更大的总体效益。
一、银行实行系统内差别利率的合理性
银行实行系统内差别利率的必要性体现在以下三个方面:1.大型国有商业银行拥有的机构是很庞大的,其遍布全国各地,而地区经济发展是不平衡的,这使得分行或支行之间的存贷情况不平衡。2.各个分行、支行的经营目标和经营装是不一致的。有的行以经营负债业务为主,有的行以经营资产业务为主,这就需要有一个调节内部资金流动的机制,以满足各地存款或贷款额度的需求,从而是各行的目标顺利达成。3.大型银行内部各个分行、支行有"贫富差距"的现象,而马太效应会使经营资金良好的分、支行经营的越来越好,而经营不佳的分、支行会越来越差,这就会形成恶性循环,使大型银行内部出现严重的两极分化。4.由于信息常常不对称,总行往往会错误地估计银行总体的资金赢缺情况,从而盲目地在银行同业拆借市场上进行资金操作,造成资金使用不够合理,银行总体效益下降。
二、银行实行系统内差别利率的基本构成体系
银行实行系统内差别利率需要各方面的通力配合,形成能够一个完整的运行体系。
(一)构建网络基础平台
现代化的信息通讯技术可以使得整个银行系统连成一体,使信息得以及时传递、决策者得以有效的决策,大大提高了工作效率。具体而言,即将从总行至支行的一切资金盈余及短缺的情况在银行内部的网络中进行和共享,并且随着各行资金情况的变动随时变化,使各行可以及时地了解信息,进行资金的调配。同时,也使总行可以通过系统进行调控和监督。
(二)构建银行内部的拆借市场
在网络基础平台上,各个分、支行可以根据外部资金供求状况进行内部市场的资金借贷。当分、支行的外部信贷旺盛而内部存款相对不足时,就形成了内部拆借市场的资金短缺方;同理,分、支行的外部信贷不佳而内部存款较多时,就形成了拆借市场的资金盈余方。双方的资金赢缺情况(包括资金的需求或供给量,相应的贷出利率或可以接受的借入利率区间)在网络上,双方可以根据自身情况自行选择交易对象,并进行磋商,自行确定双方都满意的利率(借贷资金价格),完成交易后,实现交割。如果有些分支行还不太了解拆借市场的情况,或是自己的决策能力有限,可以向总行所设立的咨询建议机构(下面会给出介绍)寻求帮助。该机构会协助相应分、支行提供适合其交易的对象,并一定程度上充当中间人进行帮助磋商。
在市场机制的调节下,资金会自然形成不同的价格,一定程度上形成较为合理的利率。
(三)发挥总行在拆借市场中的参与者和监督者的作用
在市场机制调节为基础的情况下,还应发挥总行在内部拆借市场中的最大参与者与监督管理者的作用,使市场得以稳定和有序地发展。总行需根据内外部市场的资金供求状况以及人民银行的宏观调控政策,制定内部利率的变动范围,在灵活的基础上加以控制。如当国家宏观经济政策紧缩时,经营行资金需求不旺,系统内资金市场供大于求,将会导致系统内资金利率水平下降,总行可在市场上大量吸收资金,这样及抑制了经营行的贷款投放,有一较低的成本充实了总行的资金实力,从而控制信贷风险。反之,当国家采取扩张的经济政策时,总行可以通过放宽系统内资金拆借权限、增加系统内资金拆借主体、向市场注入资金等手段为资金需求行提供资金,引导资金向高收益领域流动。
(四)构建风险监测系统
通过制定适合自身情况的资金运营指标来对个分、支行以及银行总体的情况进行监测,并形成一套对于风险指标的客观的科学的合理的评价体系,使总行和各分、支行应通过指标评价分析及时发现问题并作出反应。
三、银行系统内差别利率体系的利与弊
实行银行系统内的差别利率体系有其合理性同时也存在一些弊端。
(一)合理性及其重要意义
1.增强了银行系统内资金的有效转移,使资金达到较为合理的利用,同时避免总行盲目向同业拆借市场借款的弊端。
2.使系统内利益分配更加合理,既可以激励和支持信贷旺盛行的放款业务,也可以使信贷不佳的分、支行优化经营结构,从而使内部贫富差距减小,银行整体效益提高。
3.此方式增加了总行调控资金的手段,增强了各行适应国家的宏观调控政策的主动性,从而有利于配合国家的宏观调控政策的实施。
4.顺应市场化的趋势,内外部机制协调一致,使银行这类特殊的企业更能适应环境而得以长足有效地发展。
(二)系统内差别利率的弊端
1.资金供给方借此可以得到比单纯上存更高的利益,存、借之间的利差减小,这样会使信贷资源不丰富地区的分、支行更偏重于吸收存款,而信贷资源丰富地区更倾向于放款,使微观尸体资产负债比例失调,造成业务发展片面。
2.差别利率的可观收益使得各分、支行更多地从自身利益出发而不及银行整体的利益。
四、结束语
综上所述,银行实行系统内差别利率是有其合理性何必要性的,只有建立系统内差别利率体系才可以疏通内部资金运营,使银行以一个健康的机体,更加适应环境,从而得以有效地发展。当然,在实践过程中还会遇到诸多问题,系统内差别利率体系还需要在实践中逐步地完善。
参考文献:
[1]戴国强.商业银行经营学[M],北京:高等教育出版社,1999.