首页 > 文章中心 > 语音识别技术

语音识别技术

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇语音识别技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

语音识别技术

语音识别技术范文第1篇

1.概况

语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。

目前上海地铁

一、

二、

三、

五、

六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,

增加了车站站名动态显示地图。

如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,

对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。

设计一种符合现代化要求的乘客信息显示系统是非常必要。

2.设计

地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。

针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。

语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。

(1)输入控制部分:

通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。

(2)语音识别部分:

利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。

(3)噪音滤波部分:

滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。

(4)执行显示部分:

将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。

(5)录音功能部分:

在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。

3.结论

语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。

本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。

参考文献:

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成电路实用大全上海科技普及出版社

3.①获得“2003年上海市优秀发明选拔赛三等奖”

4.①编入《中国科技发展精典文库》第四辑

语音识别技术范文第2篇

[关键词]语音识别系统;差异性;指标需求

一、引言

语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

二、语音信号分析与特征提取

1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。

2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:

一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。

语音识别技术范文第3篇

关键词:语音识别;HMM;俄语声学模型;俄语语言模型

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)29-0155-04

Research Status and Development Trend of Russian Speech Recognition Technology

MA Yan-zhou

(PLA University of Foreign Languages, Luoyang 471003, China)

Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

Key words: speech recognition; hmm;russian acoustic models; russian language models

俄语(Русскийязык)[1]是俄罗斯和联合国的官方语言,也是我国少数民族正式语言。在前苏联和俄罗斯使用,俄语在苏联时期具有很重要的地位,直到现在仍然有些独联体国家在广泛使用,虽然这些国家已经开始强调本地语言的重要性,但在这些国家之间依然使用俄语进行交流。全球有超过一亿四千万把俄语作为母语使用,有近四千五百万人以第二语言使用,使用俄语媒体的有3亿多人。我国俄罗斯族使用俄语进行交流,聚集地分布在新疆地区的阿勒泰、伊犁、塔城及内蒙古呼伦贝尔市的额尔古纳、满洲里等地,

语音识别(Speech Recognition)[2]是指在各种情况下,识别出语音的内容,让机器听懂人说的话,根据其信息而执行人的不同意图。它是一门交叉学科,涉及与计算机、语音语言学、通信、信号处理、数理统计、神经心理学人工智能、和神经生理学等学科。能够能满足不同需要的语音识别系统的实现已经成为可能,它的前提是模式识别、信号处理技术、计算机技术和声学技术等的发展。近年来,军事、交通等领域,尤其在计算机、人工智能等领域得到广泛应用。

俄语语音识别是一个有巨大潜力的研究方向,不仅能够为人们的生产生活、日常交往提供极大的便捷性和高效性,而且在政治、军事、经济等各个领域都有着重要的研究价值和应用前景。本文着重介绍语音识别发展历程、阐述俄语语音识别关键技术、分析俄语语音识别未来的发展趋势。

1 俄语语音识别的现状

俄语连续语音识别取得快速发展,利益于技术的进步。随着语音识别在技术层面的不断突破与创新,对英语的识别慢慢成熟,然后逐渐扩展到其他语种如汉语、俄语等。

1.1语音识别技术的发展

20世纪50年代,语音识别的研究开始借助机器来实现。1952年,一个特定人独立数字识别系统[3]由贝尔(Bell)实验室的Davis、Diddulph和Balashelk首次研制,该系统成功识别10个英语数字。1959年,英格兰的Fry和Denes利用谱分析技术和模板匹配技术,提高了音素的识别精度,建立了一个能够识别9个辅音和4个元音的识别系统。20世纪60年代,经过Faut和Stevens的努力,语音生成理论初步形成。动态规划方法[4]由苏联的Vintsyuk提出,并实现了对两段语音进行对齐。70年代取得一系列重大突破,基本实现孤立词识别。俄罗斯推进了模板匹配思想在语音识别中的应用;利用动态规划方法实现语音识别也由日本的科学家实验成功。20世纪80年代,语音识别研究的一个主要特点是由模板匹配方法向统计建模方法的转变,特别是隐马尔可夫模型[5-6]。尽管HMM众所周知,但是直到20世纪80年代中期HMM模型才广泛被世界各地的语音识别实验室熟悉和采纳。另一个新方向是利用神经网络解决语音识别问题,促进了该技术在语音识别领域的应用[7-9]。20世纪80年代后期,在DAPRA的支持下,对大词汇连续语音识别系统的研制也取得了显著的成果,研究机构主要有CMU、BBN、林肯实验室、MIT、AT&T贝尔实验室。

20世纪90年代以来,语音识别开始实用化研究,并取得了突破性的进展。其中算法的研究取得了非常明显的效果,并提升了系统的性能,如最大似然线性回归(Maximum Likelihood Linear Regression, MLLR),最大后验概率准则估计(MaximumA-Posteriori Estimation, MAP),以及用于模型参数绑定的决策树状态聚类等算法,这些算法的不断优化,也使得应用于实际的语音识别不断出现。最具有有代表性的系统有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform语音平台,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美国国家标准和技术研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不断推动下,各个研究机构不断尝试语音识别任务,目的是不断提高识别的性能。进入21世纪,在向广度和深度两方面,自动语音识别得到了更为广泛的研究。鲁棒性语音识别,进行了了细致的调研,特别是在置信度和句子确认方面非常有效,尤其对处理病句。在21世纪的前10年,信息技术领域最重要的十大科技发展技术之一就有语音识别技术的一席之地,人机接口关键的语音识别技术,已经成为一个具有竞争性的新兴高技术产业,它的实用化研究将成为未来的方向。

1.2俄语语音识别技术的发展

语音技术的研究主要集中在几个主要的语言,如英语,法语,西班牙语,汉语和西班牙语,一些其他语言尤其是东欧语言很少受到注意。但是近几年在俄罗斯,捷克,波兰,塞尔维亚,克罗地亚等俄语区对俄语语音技术的研究活动正在稳步上升。

俄罗斯科学院紧跟世界语音识别技术的发展,结合俄语自身的独有发音特点进行了卓有成效的研究并取得了一系列的成果。在开发声学,词汇和语言模型时采取特别重视俄语的细节,对于声学模型,采用知识和基于统计的方法来创建几个不同的音素集10。对于语言模型(LM),从不同网站自动收集新闻文本语料,用统计分析的方法将训练文本数据和语法相结合,计算不同情况下n-gram中单词的频率,优化n-gram模型,以建立更好的n-gram模型[11]。在基本语音识别单元的问题上采用距离最小信息不匹配的原则,建立语素级单元,显著减少误差概率[12]。

语料库是语音识别最基本的支撑,文本语料和口语语料都是一个语料库不可或缺的组成部分,任缺其一则语料库就不能反映该语言的完整信息,也没有办法在此基础上进行大词汇、非特定人连续俄语语音识别的研究[13]。俄罗斯对语料库的研究起步比较晚,在20世纪一直落后于世界语料库的发展,缺乏系统的理论研究和先进的实践成果。但近十年来,随着俄罗斯国家语料库建立和不断完善,俄语语音技术的研究正在慢慢兴起并取得了一些瞩目的成就。

国内对俄语语音的研究主要集中在教学方面。使用统计的方法,基于HMM对俄语语音进行建模和识别研究,目前还没有发现相关的文献记录。

2 语音识别技术

语音识别系统根据角度、范围、性能等差别,有以下的分类。

根据词汇量的大小分可为小词汇量(10至100)、中词汇量(100至500)和大词汇量(大于500)。根据发音方式可分为孤立词(isolated word)识别、连接词(connected word)识别、连续语音(continuous word)识别等。根据说话人特征可分为特定(speaker-dependent)说话人和非特定(speaker-independent)说话人。根据语音识别的方法不同进行了模板匹配、随机模型和概率语法分析等分类方法。

2.1 语音识别基本原理

通过计算机的辅助功能把输入的语音信号变换为对应的文本和命令,并且能够接受人类的语音、理解人类的意图,是语音识别技术研究的根本目的。语音识别系统核心是一套语音取样、识别、匹配的模式匹配系统[2],基本原理如图1所示。

语音识别系统由三个基本单元组成,它包含特征提取、模式匹配和参考模式库,虽然它是模式识别系统,但它的结构要比普通的模式识别系统要复杂,因为语音所包含的信息是复杂多样的语言信息,结构也是多变的。首先对输入的语音信号进行预处理,预处理包括适当放大信号功率并对增益进行有效控制,之后进行反混叠滤波以消除信号的干扰;然后将模拟信号转化为数字信号即数字化处理,便于存储和处理;然后进行特征提取,并使用一些参数来表示的语音信号的特性;最后对其进行识别。语音识别又分为两阶段:训练和识别。在训练阶段,利用特征参数表示语音信号的相应特征,得到标准数据即模板,将模板构建成一个数据库即模板库;在识别阶段,将语音特征与模板库中的每一个模板进行比较,找到了最相似的参考模板,这就是识别的结果。

2.2 HMM模型技术

语音识别早期采用的有矢量量化(Vector quantization, VQ)技术、动态时间规整(dynamic time warping, DTW)技术等,从处理难度上看,最简单的是小词汇量、特定人、孤立词的语音识别,最难解决的是大词汇量、非特定人、连续语音识别。当今语音识别系统采用的主流算法是HMM模型技术。

HMM模型的状态不能被直接观察到,但可以通过观测向量序列来观察到,这些向量都是通过某些特定的概率密度分布来表现为各种状态的,每个观测向量都是由一个状态序列产生的,这些状态序列具有相应的概率密度分布。HMM是一个双重随机过程:具有一定状态数量的隐马尔可夫链和显示随机函数集。HMM的基本问题及解决算法6-9

1)评估问题(前向算法)。

现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何计算观测序列的概率,进一步可对该HMM做出相关评估。利用forward算法分别以每个HMM产生给定观测序列O的概率进行计算,然后从其中选出最优秀的HMM模型。

经典应用例子就是语音识别。在HMM的语音识别描述中,每个单词对应一个HMM,每个观测序列全部由一个单词的语音来构成,单词的识别可以通过评估而选出最可能的HMM,此HMM由产生观测序列所代表的读音实现。

2)解码问题(Viterbi算法)

现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何寻找最优的隐含状态序列。此类问题比较关注马尔科夫模型中的隐含状态,在这些状态中虽然不能直接观测,但价值更大,可以利用Viterbi算法来解决。

实际例子是进行分词,分词问题可以用HMM来解决。这句话的分割方法可以看做是一个隐式的状态,而这句话可以被视为一个给定的条件,从而找出基于HMM的可能正确的分割方法。

3)训练问题(Baum-Welch算法即前向后向算法)

此时HMM的模型参数λ=(π,A,B)未知,对这些参数进行调整,使得观测序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解决。

2.3 大词汇量连续语言识别

在语音识别研究中难度和挑战性最大为课题应该是基于大词汇量的、非特定人的连续语音识别[13]。在词汇量大于1000词的时候,比较容易混淆的词数量增加,误识率约为基于小词汇量的、特定人的孤立词识别系统的50倍左右。而且还带来两个重要的、不易解决的问题:语流的切分和连续语音的发音变化。此时采用统一框架可以有效解决这个问题。大词汇量连续语音识别总体框架[14]如图2所示。

俄语语音信号分析后,形成特征向量,并通过字典识别模型,然后,根据语言模型的语法,将输入的语音与模板匹配,在句子层面进行组合。从俄语声学模型、俄语语言模型叙述大词汇量连续语音识别的过程。

2.3.1声学模型

设计俄语语音识别系统底层相应的HMM子词单元模型,需要充分考虑俄语声学和语音学的特征。俄语基本声学单元的选择是声学建模过程中一个基本而重要的问题。在俄语连续语音识别中,可供选择的基本单元包括词、音节、元辅音等。识别基本单元的选择一般基于语音学知识。

俄语字母是语音的书面形式,每个俄语字母都有自己的字母名称。元音字母的名称和读音相同,辅音字母的名称是在该辅音后加一个元音[15-16]。如字母с的名称为эс,字母б的名称为бэ等。字母名称通常用于读某些缩写词。俄语字母共有33个字母如表1所示。

根据俄语词的发音特征、音节的发音特征和字母的发音特征,选择音素作为子词单元,然后就可以进行HMM训练,首先用一种很粗糙的方法进行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自动收敛到一个最佳的模型,并实现了一个合理的子词分割。这样就可以初步完成俄语的声学建模,建设一个俄语语音参考模式库。

2.3.2 统计语言模型

自然语言处理问题必然要乃至统计语言模型[17],如语音识别、机器翻译、分词、词性标注等等。统计语言模型是计算概率的模型,即。使用语言模型,可以确定一个单词序列的概率,或给定一个单词的数目,它可以预测下一个最有可能的单词。

那么如何计算一个句子的概率呢?给定句子(词语序列),它的概率可以表示为:

由于上式中的参数过多,因此需要近似的计算方法。下面介绍适用于俄语的n-gram统计语言模型。

n-gram模型即n-1阶马尔科夫模型,首先假设:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:

当n值为1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率。N取值越大,模型越准确但计算越复杂计算量越大。在俄语语言模型的建立过程中,采用最多是二元模型和三元模型。

2.3.3 连续语音识别系统的性能评测

评定连续语音识别系统的优劣,观测系统的性能,一般都是针对不同的识别任务,不同的任务单词库和任务语句库,需要不同的评价标准。如果要想粗略地评估某个系统,可以从两个方面去考虑,一是系统识别任务的难易程度即复杂性;另一个是采用该系统的识别系统的识别方法对该难度的识别任务的识别效果即识别率。在连续语音识别系统中,通过对音素、音节或词的识别率进行识别性能评价,常用的系统参数是正确率(正确率),错误率和识别准确率。

其中的正确数、转换数、插入数和脱落数,采用主观的方法来目测,马可以通过统计的方法来得到。

2.4 HTK工具

语音识别过程涉及的算法复杂,其中最为著名的HTK由剑桥大学研发,主要用来建立基于HMM的大规模连续语音识别系统。该软件集为开放源代码,可以在UNIX/Linux和Windows环境下运行。HTK提供了一系列命令函数用于语音识别,包括一系列的运行库和工具,使用基于ASNIC模块化设计,可以实现语音录制、分析、标示、HMM的训练、测试和结果分析。整个HTK的工作过程包括数据准备、模型训练和识别过程。

3 语音识别的应用

随着计算机技术的进步、算法的不断优化、信息处理技术的智能化,俄语语音识别技术的发展会越来越光明。应用的范围也会越来越广,可能会出现一些新的应用。

1)俄语语音信息检索

网络技术和多媒体技术的迅速发展,数据量急剧增多,如何在海量数据中挑选出有用的信息,并进行相应的分类和检索,对合理地利用信息资源具有重要的意义。多媒体检索技术应运而生。

2)俄语发音自学技术

非母语语言学习成为目前教育领域的一个热点,而自学是语言学习的一个有效途径,它具有不受时间和空间限制、灵活方便的特点,一种称为计算机辅助语言学习的技术诞生了。有几个普通问题和关键技术是必须要考虑和解决的:标准发音语料库和非标准发音语料库、学习者发音的分级标准、语音对齐、衡量发音质量的评判标准和发音矫正。

3)基于俄语语音情感处理

人与人的交流,除了语言信息外,非语言信息也起着非常重要的作用,包含在语音信号中的情感因素[18],也反映了信息的一个方面。情感的分析和识别也是一个非常困难的研究方向。

4)嵌入式俄语语音识别技术

后PC时代智能终端的飞速发展,为人机之间的自然、快捷交互提供了可能。当前嵌入式语音识别的应用领域还比较有限,未来应用可能会更加广泛。

4 总结

语音识别技术的实用研究是一项极具挑战性的工作,虽然经历了近半个世纪的发展,取得了一些突破性的进展。语音识别技术在俄语方面的应用更是如此,不仅要解决语音识别技术本身的问题,还要解决高质量的俄语语音语料库和文本语料库的问题,同时还要解决各种算法与俄语适应和匹配等其他问题,如俄语自然语言的识别与理解、俄语语音信息的变化范围与幅度、俄语语音的清晰度、俄语语音发音与环境噪声及上下文的影响等等。虽然面临诸多困难,但是随着人类文明的不断发展与科技的不断进步,相信这些问题会在不久的将来逐一得到解决,展现在人们面前的是更加流畅、更加智能的人机交互界面。

参考文献

[1] 赵力.语音信号处理 [M].北京:机械工业出版社,2011:191-215.

[2] 韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2013:241-255.

[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

[16] ДН Бабин,ИЛ Мазуренко,АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы,2004,8(1):45-70.

语音识别技术范文第4篇

【关键词】最佳基;匹配追踪;HMM;语音识别

1.引言

语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。目前大多数连续语音的非特定人语音识别系统都是基于HMM模型的。[1]

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。

而随着时频技术的研究发展,使人们在进行信号处理时,可以将语音信号分解在一组完备的正交基上。从而,语音信号的能量在分解以后将分散分布在不同的基上。但是,语音信号是一种典型的非平稳信号,其性质随时间快速变化,在两个不同的时间瞬间,在同一个频率邻域内,信号可以有完全不同的能量分布。因此,有必要找到一种精确表示语音信号时频结构,便于特征提取的方法。[2]

立足于此,本文提出,通过平移窗口,用余弦基乘以窗口函数,构造出局部余弦基,分离不同时间区间,很适合于逼近语音信号。本文使用这种具有活动窗口特性的局部余弦基表示语音信号。为了减少计算量,并进一步提高局部余弦基原子时频分布的分辨率,采用匹配追踪(MP)算法分解信号,并结合时频分析技术得到最优局部余弦基原子的魏格纳-维利分布(WVD)[2],从而得到信号精确的时频结构[3],进行特征提取。此外,结合语音信号的美尔频率倒谱系数(MFCC)一起作为该信号的特征向量,通过隐马尔科夫(HMM)模型进行识别。实验证明。这种多参数语音识别算法提高了识别的准确度和速度。

2.局部余弦基建模

通过光滑地划分时间序列为任意长度的子区间(如图1),可使每一个时间段分别由重叠正交基表示,而整个时间序列的基函数又构成时频平面的正交铺叠,因此局部余弦变换对在不同时间段有不同的波形的语音信号有很强的针对性。

图1 重叠窗口划分时间轴

Figure1 lapped window divides time axis

图1中为重叠窗口函数[3]:

(1)

式中为单调递增的轮廓函数,定义为[3]:

(2)

局部余弦函数族构成了实数轴上平方可积函数空间的规范正交基:

(3)

式中为窗口支集伸缩参数;为第P段时间起点;n()表示正交基序列号。

语音信号可表示为:

(4)

是余弦基原子,。其中是窗口支集边界参数,为窗口支集伸缩参数,是轮廓函数的尺度参数,这保证了窗口支集只与相邻的具有适当对称性的窗口重合,达到局部余弦基精确覆盖整个时频平面的目的。

3.匹配追踪法选取最佳基

由Mallat和Zhang引入的匹配追踪算法运用贪婪技巧减少了计算的复杂性。它从局部余弦基构成的冗余字典中一个一个挑选向量,每一步都使信号的逼近更为优化。

MP算法将信号分解成一簇时频原子的线性表达,这些原子选自高冗余度的函数字典中,且最好地符合内在结构。假设函数集是Hilbert空间中一个完备字典,满足,最优的M阶近似为:

(5)

设由M个时频函数近似的信号与的误差最小,表达式如下:

(6)

其中代表所选函数的索引。

首先按照某个选择函数(与的内积最大)逐个挑选出时频函数,分解为:,设初始输入信号为初始残差信号,表示f(t)在方向上近似后的冗余部分。

假设已有表示经过前M-1次迭代后,中未表达部分:选定为最匹配的时频函数,按如下公式分解为:

(7)

由于每步中与正交,如果字典是完备的,则迭代收敛于f,满足:

(8)

这样,可估算出(4)式中局部余弦基原子的参数。

文献[4]中提出,选出最匹配信号的基,对每一个基求出其WVD分布,信号的WVD分布就表示其最优基的WVD的线性组合,这样就消除了交叉项的影响。由此得到的WVD分布:

(9)

是局部余弦基字典中被选中的最优基的WVD分布。将等式左边第二项交叉项组合去除,这样在时频面上就得到了干净的时频表示:

(10)

在语音信号稀疏分解过程中,每步分解都要从过完备原子库中选出与待分解语音信号或语音信号分解残余最为匹配的原子,原子是由参数公式(4)决定的。因此语音信号稀疏分解所得原子的参数可作为语音信号的特征。此外,根据公式(10),使用匹配追踪法选取的最佳基的WVD分布,含有该语音信号重要且独特的信息,也可作为该语音信号的特征。

4.基于HMM的语音识别算法

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长1/2。本文为了方便做MP,采用的帧长为512点(32ms),帧移为256点(16ms)。特征的选择需要综合考虑存储量的限制和识别性能的要求。通常的语音识别系统使用24维特征矢量,包括12维MFCC和12维一阶差分MFCC。本文提出的多参数语音识别算法,在此基础上增加了原子参数公式(4)和最佳基的WVD分布公式(10),这两维特征,构成26维特征矢量。对MFCC和语音信号能量的WVD分布分别使用了倒谱均值减CMS(Ceps-trum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性[5]。

在HMM模型中,首先定义了一系列有限的状态S1,…,SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

(11)

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

(12)

且满足:

(13)

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布P称为输出概率矩阵,只取决于On所处状态:

(14)

因为该系统的状态不为外界所见,因此称之为“隐含马尔科夫模型”,简称HMM。在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

(15)

其中,M为使用的混合高斯分布的阶数;Cm为各阶高斯分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型[6]。在本识别系统中,采用孤立词模型,每个词条7个状态,同时包括首尾各一个静音状态;每个状态使用3阶混合高斯分布拟合。

5.仿真实验

5.1 提取最佳基的WVD分布特征矢量

构建局部余弦基字典,使用MP算法选取语音信号“A”的最佳基。如图2所示。得到的时频图既保留了余弦基原子高时频聚集性的优点,又削弱了WVD作为二次型时频表示所固有的交叉项的影响,得到了干净的时频面。其结果更精确的反映出语音信号在频率、音强方面的特征,具有良好的时频聚集性。

图2 “A“信号的WVD分布

Figure2 WVD of“A”

5.2 孤立词识别

在语音识别实验中,采用信号长度为1024的200个实际语音信号样本,其中100个用于训练,100个用于测试。该实验用以识别出语音信号”A”。实验利用WaveCN2.0录音系统进行样本采集,采样率为8kHz。得到语音信号的有效部分后,提取样本信号的MFCC参数作为语音信号的特征参数之一。Mel滤波器的阶数为24,fft变换的长度为256,采样频率为8kHz。MFCC的相关波形见图3。

图3 “A“信号的MFCC波形

Figure3 MFCC Waveform of“A”

然后利用MP算法将样本信号分解为300个原子,将所得原子的参数和最佳基的WVD分布,作为该语音信号的特征参数之二。见图2。通过HMM进行识别。

在实验中,设语音”A”类值为1,其他的语音类值为-1。HMM模型的状态数为7,高斯混合数为3。由第4节HMM训练的定义可知,重估过程中的输出概率是随着重估次数的递增而增加的,图4列出了“A”模型训练期间重估次数与总和输出概率的log值之间的关系。由图可以看出,“A”模型重估20次算法收敛,并且,输出概率与重估次数成正比趋势。

图4 重估次数与总和输出概率

Figure4 Iterations of EM and output like lihood

对语音进行上述HMM训练之后,将其模型参数存贮,获得了识别的HMM模型库。在识别阶段,对100个测试用数据进行语音识别,以检验本文系统的识别效果。如表1所示识别精度为89%,平均识别时间约为1.313秒,实验结果表明,系统识别率和运算速度都比较理想。

表1 识别结果

语音类型 识别次数 识别结果 识别精度

A 其它

A 100 92 8 92%

增加了局部余弦基原子的参数和最佳基的WVD分布作为特征参数,较单纯的使用MFCC作为特征参数进行HMM模型训练,识别率有一定提高,见表2。

表2 结果比较

特征参数 识别率%

MFCC、和特征参数 92

MFCC 89.5

6.结语

本文在传统基于HMM模型的语音识别基础上,通过匹配追踪算法,提取出最佳基的原子参数和WVD分布。二者与MFCC一起,作为本文提出的多参数语音识别算法的特征向量。然后选择了大量孤立词样本进行仿真实验,针对非特定人孤立词进行语音识别。结果表明,基于HMM和匹配追踪的多参数语音识别算法,可提高语音识别的速度和准确度,有一定的实用性。但是,由于算法的复杂性增加,运算量相应增大,简化算法运算量仍是需要深入研究的课题。

参考文献

[1]何方伟,青木由直.DP动态匹配算法实现语音的实时识别[J].数据采集与处理,vol.4,no.1,Mar,1989.

[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.

[4]R Gribonval.Fast matching pursuit with a multiscale dictionary of Gaussian Chirps[J].IEEE Trans.Signal Processing,2001,49(5):994-1001.

语音识别技术范文第5篇

关键词:爆破;个别飞石;预防措施

中图分类号:TU 文献标识码:A文章编号:16723198(2012)10017502

爆破个别飞石是爆破时从岩体脱离并从表面射出飞越很远的部分岩块。个别飞石是因为炸药爆炸能破碎土石后,剩余的气体能量继续作用于碎石,使其获得很大的初速和动能,遇到岩体薄弱面,强大的气体能量即从该处集中冲出,使碎石以极高的初速向外飞出而形成的。常造成人员伤亡、建筑物及设备的损坏。

1 个别飞石产生的原因

1.1 勘察环节

闵国清、穆大耀、庙延钢、杨溢等学者在文献中认为地形测量误差、地质构造调查不详是飞石产生的重要原因之一。

爆破作业环境条件一般比较差,给地形和药室测量带来困难,不易测量准确。测量误差过大,设计的最小抵抗线可能会过大或过小。不能正确反映最小抵抗线方向、大小,就给爆破产生个别飞石提供了条件。

爆破是炸药对被爆客体的作用过程,被爆客体的地质条件直接影响爆破效果和爆破安全。地质条件主要包括地形、岩性、地层产状、构造、岩石矿物成分、水文地质条件等。断层、褶皱、解理、裂隙、破碎带、软弱夹层等对爆破效果和安全影响很大,特别是当药包位于断层、破碎带或软弱夹层附近时最容易产生飞石。

1.2 设计环节原因

爆破参数选择和设计是爆破质量好坏的关键,孔位设计、网路设计、微差时间、爆破安全设计参数不准等也极为重要;最小抵抗线方向、单位炸药消耗量、装药结构形式、药室间距和起爆时间间隔、孔位密集系数确定的不合理,就很可能导致爆破飞石的产生。

1.3 施工环节原因

孔位、孔距、孔深、堵塞长度、网路连接、起爆顺序、装药量、装药结构形式等都必须按设计进行施工,钻孔偏位、网路连接不当、装药量控制的不精确都可能引起远距离的飞石。

药室内炸药传爆能力如果过低,爆破在岩体中未形成鼓包前,炸药产生的高温、高压气体会直接作用于堵塞物,堵塞物长度未按设计严格施工而过短的话,就会造成个别飞石大量出现。

2 硐室爆破防止个别飞石措施

2.1 准确测量

准确的勘察测量是爆破取得成功的基础。设计和施工才有可靠的依据。测量技术人员在观念上必须认真重视,态度上必须一丝不苟,方法上必须讲求科学,采用先进合理的测量方案,工作中可以采用多次测量、重复抽检测量等方法保证测量的准确与可靠。设计人员对测量数据结果应该进行必要的复核检验,避免数据不准确而导致设计上的失误。此外建立事故责任倒查追究制度也是不可或缺,它可以督促爆破作业参与人员绷紧安全这根弦。

2.2 弄清构造

勘测资料是爆破初步设计的依据,认真做好地质条件的勘察作业,在爆破区域内,不仅要仔细踏勘地表情况还要对特殊区域进行详尽的地质调查,开挖导洞、药室时,对岩土的构造要进行调查,尤其要搞清区域内的坟洞、溶洞、断层、褶皱、节理、裂隙、破碎带、软弱夹层和不稳定岩体的分布、形状等。

袁政文在文献中提出了认真搞好地质勘查,针对地质缺陷采取相应措施。爆破作业地处环境复杂地域,爆破质量要求高的工程,还要弄清爆破区岩土的岩性、性质、成分、地层产状、构造、岩石矿物成分、物理力学指标、水文地质条件等情况。导洞开挖以后应根据现场勘察到的地质和岩性资料,适当修改爆破设计参数。如调整最小抵抗线方向、大小,药包间距大小对断层、裂隙、溶洞可将条形药包改为分集药包或集中药包,将薄弱部位装药段改为填塞段等办法来避开薄弱部位。

2.3 正确设计

爆破设计是爆破作业取得成功的关键因素。爆破参数的选取是设计的核心。

使用不耦合炸药,低爆速炸药,挤压爆破,毫秒起爆等措施可以起到控制飞石的作用。多排爆破时要选择合理的延期时间,防止因前排带炮(后冲),造成后排最小抵抗线大小和方向失控,应等到前排药包起爆形成爆破漏斗后,后排药包再起爆,以保证最小抵抗线的方向、大小以及药包的自由面与设计相符。

万希岭、李红杰、许永胜等人在文献中认为爆破参数中,最小抵抗线、爆破作用指数和单耗是产生飞石的主要的影响因素,正确选取这三个参数不仅能预防飞石等爆破危害,也会取得理想的爆破效果。

合理确定最小抵抗线是减少飞石飞散距离的关键。最小抵抗线是爆破设计的重要参数,要通过爆破试验科学地确定符合现场地质和施工条件的最小抵抗线,才能获得最优的爆破设计方案,以准确地进行布孔和装药。集中药包内部爆破的个别飞石距离公式:

R=20K・n2・W

式中:R-个别飞石的安全距离,m;n-最大一个装药的爆破作用指数;W-最大一个装药的最小抵抗线,m;K-安全系数,一般取1.0-1.5。

炸药消耗量的选取要符合爆破对象的实际要求。查表法、计算法、类比法等都是可以用于选取炸药单位消耗量的方法。对爆破质量要求比较高的爆破,须依据爆破漏斗试验选取炸药单位消耗量,实际使用时依据被爆岩体地形地质、爆破质量和环保要求等情况适度微调。

确定爆破作用指数值要依据爆破目的、抛距、环境条件、经济效益等因素。爆破作用指数值过大,易产生飞石且也不经济;爆破作用指数值过小,易发生冲炮且爆破的大块率也较高。

2.4 严格施工

施工环节是实现工程爆破的决定性环节。再符合实际的设计,都需要通过施工去实现,因此通过提高施工质量控制飞石是非常有效也十分可能的途径。

操作失误在爆破中应该杜绝,加强管理,精心施工,要严格按照《爆破安全规程》等有关规范进行。

药室、炮孔位置的测量必须验收合格。

装药前应认真校核各药包的最小抵抗线,如有变化必须修正装药量。要严格保证装药质量,装药量要经过专门清点和计量,不能装多和装少而要严格依据设计方案。

装药后的堵塞,控制要严格,杜绝偷工减料。堵塞长度要依据爆破设计的要求,精心施工,绝不能图快而降低堵塞参数。堵塞要密实,堵塞物中要避免夹杂碎石。堵塞质量要经过专门检查和验收。施工中,对爆破体采取覆盖或设置防护,是有效控制飞石的手段。覆盖爆破区的材料要便于固定、不易抛散和拆散且能防止细小碎块的穿透。

施工时要在最小抵抗线方向创造好自由面,确保最小抵抗线方向和大小符合设计要求。

如果炸药爆速高,爆炸产生的瞬间能量就高,相应的炸药利用率就越高。在炸药单位消耗量较低的情况下,就需要提高炸药利用率以避免从导洞等薄弱处首先突破,生成飞石。万希岭、李红杰、许永胜等人在文献中认为保证药室内炸药稳定传爆的措施,除选用质量好、爆速高的炸药外,在施工时还有保证炸药堆放密度适中;选用防水炸药或做好防水处理;适当增加起爆药包数量;用导爆索联接药室内同段起爆的药包,并在导爆索上间隔一定距离捆扎一个质量好、爆速高的药包等措施可以选用。

3 展望

学者们对于爆破个别飞石危害的论述,可以概括为勘察、设计和施工三个维度。依托当前的爆破理论成果,对爆破飞石危害的治理取得了很大成果。但不时出现的飞石伤亡事故,说明对爆破飞石产生机理的研究仍需随着爆破理论的发展而走向深入。尤其要指出的是爆破飞石事故的产生几乎全部都与人的因素有关,而不仅仅是技术原因。提高相关人员的职业安全责任意识和安全防护技能,健全制度和安全管理措施,甚属必要。这方面的研究亟待加强。

参考文献

[1]王德胜,龚敏.露天矿山台阶中深孔爆破开采技术[M].北京:冶金工业出版社,2007.

[2]闵国清,穆大耀,庙延钢,杨溢.硐室爆破个别飞石产生原因及预防措施[J].云南冶金,2003,32(3):13.

[3]万希岭,李红杰,许永胜.控制硐室爆破飞石安全问题措施探讨[J].爆破,2003,20(4):101103.