首页 > 文章中心 > 卷积神经网络的步骤

卷积神经网络的步骤

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络的步骤范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

卷积神经网络的步骤

卷积神经网络的步骤范文第1篇

关键词:

手势识别;位运算;卷积神经网络;复杂环境;肤色似然

中图分类号: TP391.413 文献标志码:A

0引言

现行的手势识别方法的主要步骤是提取精确的手势区域,然后作形状或者轮廓识别。提取手势区域的方法有依赖于测距设备的方法,比如Kinect[1-2]、双目设备[3],也有依赖于单目视觉的方法[4]。前者的主要原理是人机交互中手的位置距离传感器应该在一定的区间内,之后进行距离阈值分割。而基于视觉的方法主要是确定合理的肤色阈值,进行肤色分割和去噪,确定手势区域或者轮廓。

这些方法虽然依赖的特征不同,但是在整体处理步骤上比较相似,都需要首先对手势区域进行精确的分割。方法面临的挑战主要集中在复杂环境下的手势分割。如果希望算法在距离、光照可变的环境下表现出良好的鲁棒性,一般会将很多非手势的区域也识别为手势,这将增加手势分割的难度,在复杂背景下,这一问题会更加明显。在背景环境复杂时如果想降低手势分割的难度,一般需要对输入的图像特征进行更严格的提取,这同时也降低了模型的鲁棒性,在光照、距离等条件变化时,会出现丢失手势的问题。

两类问题相互制约,针对这一情况,研究者们把精力主要放在如何更加精准地提取特征上面。用作手势分割的特征主要集中在肤色[4]和距离[1,3],有的学者采取了将轮廓信息结合先验形状来进行更加准确的分割方式来处理这一问题[5],此类方法被广泛地用于边缘提取领域,在针对小规模噪声区域以及手势类别较少的情况时能获取不错的效果。主要问题是对于多个先验形状的表达没有特别理想的方案,在形状增多之后,形状项的作用明显下降,这与形状之间本身的冲突有关。更重要的一点是图像分割方法一般耗时都在数秒甚至数十秒,时间复杂度上无法满足手势识别的需要。因为手势分割的运用场景多为动态场景,所以运动目标检测的方法也经常用来辅助手势分割。

现行手势分割方法中最常用的是按照提取肤色特征、二值化、形态学滤波、运动目标特征或者距离特征协助检测这个过程处理[3-4]。有时还需要做人脸检测,排除人脸区域的干扰。融合了多种特征的方法在光照变化和背景拥有类似肤色的物体时仍然会出现不能有效分割的情形。

在手势识别方面,Dardas等[6]提出了一种基于特征包的手势识别方法,在识别率和计算效率上都取得了较好的结果。对于良好的手势轮廓,Belongie等[7]提出的形状上下文能够得到高准确率和对非刚性畸变鲁棒的结果。矩特征,指尖等手势的几何特征[1]也经常被用作为手势识别的特征。卷积神经网络能够自动获取特征,在处理静态图片时表现出了非常高的准确率,同时对噪声以及各种形变鲁棒。

本文提出一种新的方法来解决手势识别中鲁棒性和算法复杂性之间的矛盾。该方法第1步使用二进制运算实现的支持向量机(Support Vector Machine, SVM)分类器并用位运算代替滑动窗口,快速提取出多个可能的备选区域。第2步使用卷积神经网络来完成手势的再判定与识别工作。文中算法的实现方式非常关键,直接关系模型的运算效率。第1步中使用的分类器为线性SVM模型,需要在支持64位整型机器的环境下使用二进制运算的方式实现,在执行效率上相对于基于滑动窗口的算法有着100倍左右的提升[8]。第2步使用的分类器为卷积神经网络,在实现上使用了统一计算设备架构(Compute Unified Device Architecture, CUDA)进行卷积运算的加速,能获得10倍左右的加速比[9]。

1手势区域提取

本文手势区域提取的方法不要求精确提取手势轮廓或者锁定备选框。该方法核心思想是用最短的时间排除掉绝大部分的搜索区域,剩下无法判断的区域结合其他方法进行处理。

方法本身并不依赖于特定特征,所有能够用来排除大量备选区域的特征均可以使用,比如通过测距设备获取的距离似然特征,使用视觉设备获取的肤色似然特征。因为肤色似然特征对于硬件的要求更低,本文选择肤色似然特征进行实验。

1.1获取肤色特征

本文使用椭圆模型提取肤色似然区域[10-11]。首先将肤色变换到YCbCr空间,椭圆肤色模型认为肤色在Cr和Cb分量组成的空间里的分布集中在一个椭圆区域内。该椭圆中心点坐标为(155.6,103),长短轴比例为1∶1.6,旋转角度为43°。式(1)描述了Cr和Cb组成的空间中的像素点距离椭圆中心的距离,也可以理解成是肤色的概率。该值恒大于0,最大值为255,标准差系数为σ2。可以通过调整标准差系数σ2来控制肤色判断的严格程度,不同σ2下的分割效果如图1所示。不同的标准差系数对于肤色区域的判断影响十分明显。当σ2较小时提取区域判断为肤色的区域很小,此时真实的手势区域可能被误检成非手势区域;当σ2增大时,肤色似然图中判断为肤色的区域会一直增加,此时肤色似然图中被误检为肤色的区域也会增加。

光照变化和肤色的多样性会影响肤色似然特征的计算。针对光照变化以及肤色变化的情况。有以下方法可以改善:

方法1使用对光照鲁棒的特征,比如距离似然特征。

方法2使用较大的标准差系数σ2,后面提取区域的过程中使用较多的备选框以提高召回率。

方法3使用迭代的方法调整椭圆模型的中心坐标和标准差系数,方法3一般用于光照连续变化场景,比如视频流的处理。

1.2肤色似然特征与手势区域检测

获取肤色似然图之后,下一步需要计算似然图中的手势区域。手势区域和非手势区域在8×8肤色似然图下有着明显的差别,如图2所示。这一步的思路是使用滑动窗口的方法,对肤色似然图进行遍历。因为最终需要处理是在遍历的过程中将窗口中的肤色似然图像作为手势区域分类器的输入,得到一个“窗口值”,用来确定是否为备选窗口。

考虑到手势识别应用场景多为人机交互,手势的长宽比固定,不会被人为拉伸,所以选用“正方形”滑动窗口;并且手势区域在整幅图像中所占比例会有所变化但变化幅度不大,所以不用设定太多不同尺度的滑动窗口。在此处设定4个不同尺度的手势区域48×48、64×64、80×80、96×96用以检测不同大小的手势。

为了保证滑动窗口的大小始终为8×8,将肤色似然图调整为不同的尺度,以尺度为360×240的肤色似然图为例,当手势区域大小由48×48调整为8×8时,肤色似然图的长宽也对应变化原图的1/6,变为60×40。大小为的64×64、80×80、96×96的手势区域所对应的调整后的肤色似然图尺度分别为45×30、36×24、30×20,如图2(d)所示。

在分类器的选择上选用的是线性SVM分类器[12]。实验正样例选取的均为人工标记的手势区域的肤色似然图,在选取正样例的过程中可以先使用少量样本训练一个线性SVM分类器,然后使用该分类器进行样本初筛,之后再人工调整。负样例是在正样例以外的区域中随机选取。正负样本均需要进行归一化处理,处理成为8×8的区域。“窗口值”表示SVM系数矩阵和8×8的内积。“窗口值”的计算过程如式(2)所示:

s=〈w,x〉;w∈R8×8,x∈{0,1,…,255}8×8(2)

其中:w为权值矩阵;x为肤色似然图的像素值,如图2(c)所示;s为滑动窗口的“窗口值”。

1.3BISL二进制肤色似然特征

为了加速滑动窗口的计算,本文借鉴了文献[8]中一般物体识别时用到的方法,使用64位整型表示8×8的二进制矩阵,并且使用一些列的位运算操作来实现加速[13-14]。二进制肤色似然特征(Binary Skin LikeHood, BISL)特征,是将肤色似然特征使用多个64位整型表示之后形成的特征。

1.3.1近似参数矩阵w

线性模型矩阵w∈R8×8可以使用文献[13]中的算法1对其进行近似可得w≈∑Nwj=1βjaj。其中:Nw代表基向量的个数;aj∈{-1,1}8×8代表基向量; βj∈R代表相应基向量的系数。

算法1使用二进制方法近似w。

程序前

输入:w,Nw。

输出:{βj}Nwj=1,{aj}Nwj=1。

初始化残差:ε=w

for j=1 to Nw do

aj=sign(ε)

βj=〈aj,ε〉/aj2(将残差ε映射到aj上)

ε=ε-βjaj(更新残差)

end for

程序后

1.3.2处理输入矩阵x

本文截取x的高Nx位近似x(如图3(a)),x可以由BISL特征表示成如下形式:

x=∑Nxk=128-kbk(5)

其中:x∈{0,1,…,255}8×8,bk∈{0,1}8×8。

算法2对区域获取BISL特征。

参数含义:bx,y∈{0,1}8×8,rx,y∈{0,1}8,bx,y∈{0,1}。

程序前

输入:肤色似然图的二进制值bW×H。

输出:BISL特征组成的矩阵bW×H。

初始值:bW×H=0,rW×H=0

for each position(x,y) in scanline order do

rx,y=(rx-1,y

bx,y=(bx,y-1

end for

程序后

通常来说,获取8×8的BISL特征需要遍历64个位置。Cheng等[8]巧妙地利用了64位整型的特点,在算法2中使用了“按位或”和“移位”操作避免了循环。首先BISL特征bx,y和它的最后一行rx,y分别使用一个INT64变量和一个byte变量存储。然后相邻的BISL特征有重复的部分,可以通过左移8位操作保留重复的部分并给不同的部分腾出空间,将腾出的这8位的空间与新的byte变量进行“按位与”,就获取了新的BISL特征。相邻的byte变量的获取过程与之类似。

综合式(4)和(5)可以得到由BISL特征和分类器参数计算出窗口值:

s≈∑Nwj=1βj∑Nxk=1Cj,k(6)

其中Cj,k=28-k(2〈a+j,bk,l〉-bk,l)。

将窗口值topk的窗口作为候选窗口,进行进一步的识别。k的取值由实验环境确定,k越大,手势检测模型召回率越高,进一步识别的时间复杂度也会增加。

2使用卷积神经网络进行手势识别

本章所提输入是手势检测部分所得到的窗口值排名前k的候选窗口,这些窗口区域都是在上一步被判定为极有可能为手势的区域,所以本章中需要使用更为复杂的特征和更强的分类模型来处理这个问题。卷积神经网络和一般的神经网络相比,具有权值共享、局部感知等特点[15-16],充分地利用了输入值的空间关系信息,并且容易使用硬件加速[9]。综合考虑模型的分类能力、鲁棒性以及识别效率等因素,本文使用卷积神经网络进行手势识别。

2.1样本、特征以及网络结构

卷积神经网络的训练样本是根据手势检测步骤中得到的窗口值topk 8×8窗口计算出来的。在确定窗口值topk 8×8窗口时,记录下这k个窗口在对应的肤色似然图中的坐标。根据这个坐标计算出原图像所对应的窗口坐标。这个过程可以看作是根据图2(c)中的8×8窗口位置来获取图2(a)中对应尺度的窗口图像位置,进而获得窗口图像。在获取窗口图像后,本文将备选窗口图像大小调整为29×29,然后计算它的肤色似然图,得到29×29的肤色似然图作为卷积神经网络的输入。卷积神经网络的特征选择可以有很多,比如窗口的灰度图、梯度特征、局部二进制特征。选用29×29的肤色似然图的原因是肤色似然图在肤色检测的过程中已经计算过一遍,不需要再重复计算。训练样本一共分为10类,6个备选手势类,4个错误类。这里设计4个错误类的原因是因为在手势区域提取的过程中,被错分成手势区域的候选框是有着明显的特点的。主要的几类情况是识别到手势边缘,识别到手势中心,识别到非手势区域,可以参考图2(b)的情形。在网络设计的时候需要重点关注这些错误的情形,实验发现,将所有的错误情形视为1类的模型识别率要低于将错误情形分成4类的模型。将错误情形分为4类的卷积神经网络一共有10个输出节点,其中6个代表6种不同的手势,另外4个代表4类典型的错误。需要注意的是,在计算模型准确率的时候并不将4类错误加以区分。假定4类错误分别为错误1、错误2、错误3、错误4,将错误1识别成了错误2,仍然认为模型判断正确。

为了使样本具有平移和小幅度旋转的鲁棒性,对卷积神经网络的训练样本进行了一些平移和旋转上的扩展。考虑到手势与手写字符的区别,本文并没有进行弹性形变扩展。整个卷积网络的结构如图4所示。

本文参照文献[15]中提到的方法来设计卷积神经网络,网络包含两个卷积层:第1层用来提取一些类似于边缘、角点、交线的底层图像特征;第2个卷积层以这些特征为基础生成更加复杂的特征。两个下采样层均按照2×2的因子进行最大池化,卷积核的大小定为5×5,第1个卷积层有5个卷积核,第2个卷积层有10个卷积核。光栅化之后采用两层全相连多层感知机结构,隐层单元数量设定为100个,最后针对多分类问题,使用softmax设置10个输出节点。

2.2卷积神经网络的计算过程

本文使用的卷积神经网络主要参照文献[17]中提到的算法实现。下面主要针对卷积层和下采样层的正向计算和反向传播计算进行讨论。

2.2.1正向计算

2.2.2反向传播

3实验结果分析

实验平台为Intel Core i74702MQ 2.2GHz, 4GB RAM, NVIDIA GeForce GTX 760M。CPU支持POPCNT命令,显卡支持CUDA平台,操作系统为Windows 8 Pro 64位。

3.1手势检测部分

手势检测部分所采用的数据集是Sebastien Marcel Static Hand Posture Database数据集,数据集包含10个人的6种手势(a,b,c,point,five,v)(A,B,C,Point(P),Five(F),V),总共接近5000个样本(如图5)。

实验对简单环境和复杂环境分别取100张测试图片进行测试(如图6)。在实验中发现,在简单环境下,直接获取“窗口值”最大的窗口作为备选区域即可。在光照变化和背景复杂的情况下,“窗口值”大小前4的窗口已经可以覆盖所有的实际手势区域,即达到100%的召回率(如表1)。

实验对比了基于滑动窗口方法实现手势检测、多模板匹配外加人脸排除以及本文的手势检测方法的运算速度。在3种不同尺寸的样本中分别取1000张测试图片进行测试,结果如表2所示。

3.2手势识别部分

手势识别部分的样本来源于手势检测部分的结果。数据一共分为10类,除了6个手势类之外,还设定4个错误类。4类错误分别命名为E1、E2、E3、E4。其中:E1代表识别到手势中心;E2代表识别到手势边缘;E3代表识别到非手势干扰区;E4代表除E3之外的弱干扰区,如图7所示。

因为10类的训练样本数量有一定的差异。其中最多的手势Point有1395个样本,最少的V有435个样本。错误类样本中总量为1216个,其中E1 178个,E2 81个,E3 943,E4 14个,这个具体数量与手势检测所设定的备选窗口数量有关以及选择的输入图片有关,可以调整,本文实验中备选窗口数量设为4,输入图片中背景复杂的一共有473张。在样本不平衡的情况下所训练出卷积神经网络模型测试准确率为93%左右。对样本进行抽样和扩展,扩展方法如下。

1)对于6个手势类,在每个类的训练集中随机抽取350张样本,对抽取的图片在随机方向上进行1到2个像素的平移得到另外350个样本,每一类总共会得到700个样本。

2)对于错误类E1,首先对训练集进行4次随机方向上1到2个像素的平移,每一次都会得到一个新的训练样本,最后进行随机抽样,每类选择700个样本。

3)对于错误类E2,首先对训练集进行10次随机方向上1到2个像素的平移,每一次都会得到一个新的训练样本,最后进行随机抽样,每类选择700个样本。

4)对于错误类E3,直接进行随机抽样,每类选择700个样本。

5)对于错误类E4,将样本复制50次,获取700个样本。

扩展后的训练集有6000张训练样本,测试集有1000个样本。手势识别的结果如表3所示,在手势识别部分修正后的准确率为96.1%,空格部分代表0,4个错误类准确率计算方式在2.1节有说明。

图8对比了本文算法和其他算法的性能,当训练样本大于100时,本文算法和特征包算法的准确率相近。算法的运行效率明显高于特征包(Bag of Features, BoF)算法,如表4所示,平均识别时间表示的是手势识别算法对单一“窗口”图像的计算时间,整体计算时间包含了手势检测和手势识别两个部分以及一些预处理环节,基于特征包的两类算法对应的手势检测方法采用的是对模板匹配和人脸排除,本文的算法是采用位运算支持向量机和CUDA卷积神经网络。CUDA卷积神经网络处理29×29大小的图片用时约为0.001s。手势识别过程中,因为分割算法求得的是4个备选窗口,所以识别过程中需要识别4个窗口,对一幅输入图像而言手势检测和识别总用时约为0.013s。

实验结果表明,本文提出的方法能够在光照变化、背景复杂的情况下依然保持高准确率和良好的运算效率。

4结语

本文提出了一种新型的手势识别方法,与传统的手势识别方法相比,本文方法利用位运算代替滑动窗口,在数微秒的时间内将备选窗口数量由千万级别缩减到个位数。获取备选区域之后使用基于CUDA的卷积神经网络对备选区域进行细分和识别。在实际的计算过程中可以通过硬件优化得到100至1000倍的加速比。本文方法仅仅通过肤色似然特征就在Marcel数据集上得到了96%左右的准确率。本文提出的方法主要解决了鲁棒性和计算复杂度的矛盾,并且方法所使用的特征可以使用其他的特征替换,这使得模型具有良好的可扩展性。

本文方法的局限性主要体现在对特征提取的召回率有要求,如果完全没办法提取到特征,本文的方法会失效。另外,卷积神经网络的训练耗时长,网络设计依赖经验,在更加复杂的分类上,卷积神经网络网络的设计也会更加困难。

参考文献:

[1]

谈家谱,徐文胜.基于Kinect的指尖检测与手势识别方法[J].计算机应用,2015,35(6):1795-1800.(TAN J P, XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications, 2015, 35(6): 1795-1800.)

[2]

NEWCOMBE R A, IZADI S, HILLIGES O, et al. KinectFusion: realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington, DC: IEEE Computer Society, 2011: 127-136.

[3]

谭同德,郭志敏.基于双目视觉的人手定位与手势识别系统研究[J].计算机工程与设计,2012,33(1):259-264.(TAN T D, GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design, 2012 33(1): 259-264.)

[4]

WACHS J P, KLSCH M, STERN H, et al. Visionbased handgesture applications [J] Communications of the ACM, 2011, 54(2): 60-70.

[5]

SAMUEL D, RATHI Y, A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1385-1399.

[6]

DARDAS N H, GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3592-3607.

[7]

BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522.

[8]

CHENG M M, ZHANG Z M, LIN W Y. BING: binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 3286-3293.

[9]

STRIGL, KOFLER K, PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel, Distributed and Networkbased Processing. Piscataway, NJ: IEEE, 2010: 317-324.

[10]

BOJIC N, PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham, WA: SPIE, 2000: 704-711.

[11]

KOVAC J, PEER P, SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway, NJ: IEEE, 2003, 2: 144-148.

[12]

FAN R E, CHANG K W, HSIEH C J, et al. Liblinear: a library for large linear classification [J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.

[13]

HARE S, SAFFARI A, TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1894-1901.

[14]

ZHENG S, STURGESS P, TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2013: 1-8.

[15]

SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington, DC: IEEE Computer Society, 2003: 958-963.

[16]

LECUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco: Morgan Kaufmann, 1990: 396-404.

卷积神经网络的步骤范文第2篇

关键词:车牌识别系统; 智能交通; 技术

中图分类号: TP391.4文献标识码:A文章编号:1009-3044(2008)18-20ppp-0c

Research on Licence Plate Recognition System

YI Lian-jie

(Loudi Vocational and Technical College Loudi Huanan417000)

Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.

Keywords: the licence plate recognition system; intelligent traffic system; technology

车牌识别系统是智能交通系统的关键部分,可广泛应用于交通管理、监控和电子收费等场合。车牌识别系统就是以车牌作为车辆的唯一标识,采用计算机视觉和模式识别技术对汽车车牌的自动识别。

1 车牌识别系统的组成

典型的车牌识别系统由车辆检测、图像采集、车牌识别等部分组成(图1)。车辆检测就是使用车辆传感器或红外线检测等来判断车辆是否通过某一位置。当车辆驶过探测部位时,CCD摄像机拍摄车辆图像,由图像采集卡采集图像并输入计算机。车牌识别部分由计算机和识别软件组成,从由CCD摄像机采集的图像中自动寻找车牌,然后对找到的车牌进行字符切分和识别,最后获得车牌号码,并将识别结果送至监控中心等场合。

图1车牌识别系统的组成

在整个识别系统中,以车牌识别最为关键。识别过程有两个步骤,首先从图像中找出确切的车牌位置,即车牌定位,然后对找出的车牌进行字符切分和识别。车牌识别过程包含两大关键技术:1.车牌区域定位技术;2.车牌字符切分和识别技术。

2 车牌定位技术

图像输入计算机后,系统要自动找出车牌的准确位置。车牌区域定位是车牌字符切分和识别的基础,是提高系统识别率的关键。车牌定位过程包括三个步骤:图像预处理、车牌搜索和车牌纠偏。

2.1 图像预处理

图像预处理的作用:平滑去噪和车牌特征增强。

平滑去噪就是消除图像上由于光照、车牌污损等产生的噪声干扰。平滑方法主要有平均滤波、中值滤波和指数函数滤波等方法。中值滤波和指数滤波平滑效果好且能较好保持牌照和字符边缘,但在平滑效果和处理速度方面不如平均滤波。

通常的车牌定位算法是依据车牌特征从图像中找出车牌,因此必须使车牌区域显示出与非车牌区域不同的独有的特征,车牌特征增强使图像中车牌区域明显突出。通常有下述增强方法:边缘检测法、二值化法、量化法、数学形态学法。

具有不同灰度的相邻区域之间存在边缘,在车牌区域存在车牌边框边缘和车牌字符边缘。边缘检测法就是要检测出这些边缘。有关边缘检测的算法很多,考虑实时性要求,采用简单的微分算子,如一阶微分算等。这些算子采用小区域模板与图像卷积实现边缘检测。文献[1]提出一种牌照字符边缘特征增强的方法,该方法使用线性滤波器函数将每一行中多个连续的水平方向梯度值相加,使得字符的垂直边缘增强。微分算子对噪声较为敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指数平滑法与Laplacian算子相结合的边缘检测方法,既能消除噪声又能很好的突出车牌字符的边缘。

二值化增强法先确定一个阈值,然后将图像中各个像素的灰度值都与这个阈值比较,根据比较结果将整个图像的像素点分为两类,车牌区域归为一类,便于车牌搜索。为了满足实时性要求,采用简单、快速的二值化法,如平均阈值法,反积分自适应阈值法等。

文献[3]使用神经网络来对彩色图像量化,使得车牌区域的字符为一种特定的颜色,然后进行颜色过滤或线扫描,借此提取车牌。该方法首先必须选取车牌样本图像,并且要把RGB颜色模式转换为HSI模式,以HSI各分量值作为输入对神经网络进行训练,再以训练好的神经网络对图像的各像素点量化分类,该方法抗干扰能力强,量化前可不要求平滑,

数学形态学表示以形态为基础对图像进行分析的数学工具,它的基本思想使用具有一定形态的结构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的。数学形态学有四种基本的运算:膨胀,腐蚀,开启和闭合。出于以下两个意图而使用形态学方法:1.将开启和闭合结合起来,消除二值化后的车牌区域中存在的细小空洞;2.采用水平线段的结构元素膨胀,使二值化后的车牌区域成为一连通区域。

需要说明的是,上述方法往往不是单独使用,如二值化法是对边缘检测后的图像进行,而形态学方法是在二值化图上实现。不能简单的评价图像预处理方法的优劣,因为这与所对应的车牌搜索方法紧密相关。

2.2 车牌搜索

车牌搜索就是根据车牌区域特征在图像中寻找车牌的过程。根据搜索的方式可把车牌搜索方法分为以下几种:投影统计法、线扫描法、模板匹配法和反Hough变换法等。车牌搜索法要与相应的车牌增强法配合使用(见表2)。

表2车牌增强法用于不同搜索法的情况

投影统计法对边缘化或二值化图像进行水平和垂直累加投影,根据投影直方图呈现的连续峰、谷、峰的分布的特征来提取车牌,或对由形态学膨胀运算后的图像水平和垂直投影,在投影图上寻找波峰和波谷而确定车牌位置。文献[24]提出的采用高斯指数函数对投影图平滑,能有效消除投影图的毛刺,使车牌位置为明显的波峰,提高车牌定位的精度。

线扫描搜索法则是对边缘化或二值化后的图像逐行水平扫描,穿过车牌区域的扫描线因为字符边缘的存在,灰度呈现起伏的峰、谷、峰的变化,或频繁交替出现亮基元、暗基元的特征,以提取车牌。文献[3]用神经网络对彩色图像量化之后,再逐行水平扫描,分别获取颜色向量和长度向量,能与标准车牌区域的颜色向量和长度向量匹配的为车牌区域。

模板匹配搜索法是以特定的模板在图像区域滑动,以与模板匹配的局部区域为车牌。使用的模板有线模板、倒”L”角模板、矩形框模板。线模板以水平线段或垂直线段为模板,来检测车牌的边框角点;倒“L”模板以倒“L”结构为模板来寻找车牌边框的左上角;矩形框模板以一个与车牌长宽比例相当的矩形框作为模板,在整个图像区域滑动,以符合某一判别函数值的区域作为车牌区域。

反Hough变换搜索法是基于车牌形状特征的方法,先对图像进行Hough变换,然后在Hough参数空间寻找车牌的四个端点。

上述搜索法可以结合使用,如文献[25]提出的自适应边界搜索法,先用倒”L”模板寻找车牌边框的左上角,然后用水平线扫描和垂直线扫描找出下边框和右边框。投影统计搜索法和线扫描搜索法处理速度快,能对大小不同的车牌识别,但定位精度不高和出现虚假车牌的情况,需要提高定位精度和去除虚假车牌的后续工作。模板匹配搜索法能比较准确的找到车牌位置,但难以满足实时性要求,可以采用神经网络或遗传算法来加快搜索进程。反Hough变换搜索法除了能准确找到车牌位置,还能确定车牌的倾斜角度,对噪声、轮廓线中断不敏感,但在有直线干扰下可能实效,文献[28]提出的快速Hough变换的策略能满足实时性要求。

2.3 车牌纠偏

由于车辆运行轨迹不定、摄像机位置偏斜等原因,使得图像中车牌扭曲,为了后续正确的车牌字符切分和识别,就须对车牌纠偏,使车牌达到规范的位置和大小。采用的纠偏方法通常先是用Hough变换确定水平边框倾斜角度和垂直边框倾斜角度,然后纠偏。文献[22]提出使用Rodan 变换可用来确定倾斜角度。

3 车牌字符识别技术

车牌定位之后就要对车牌字符识别。这一过程包含下列几个步骤(见图2):车牌二值化,字符切分,字符特征提取和字符识别。这里只讨论后三个步骤。

图2 车牌字符识别步骤

3.1 字符切分

字符切分把车牌上的字符分开,得到一个个的字符图像。常用的字符切分方法有投影法、模板匹配法、区域生长法、聚类分析法等。

投影法把车牌图像垂直累加投影,形成峰谷交替的投影直方图,找到投影图的各个谷就能把字符分开。模板匹配法以字符大小的矩形作为模板,根据字符的宽度初步确定每个字符的起始位置,然后以此模板在初定位置附近滑动,找到最佳匹配位置而切分字符。区域生长法对每个需要分割的字符找一个像素作为生长起点的种子,将种子像素周围邻域中与之相同或相近性质的像素合并到种子像素所在的区域,然后将这些新像素当作新的种子继续进行上述过程,直到再没有满足条件的像素可被包含进来。基于聚类分析的方法对车牌图像从上到下逐行扫描,如属于字符类的两像素间距离小于阈值,可认为两像素为同一字符,由此而得字符像素的聚类。

3.2 字符特征提取和车牌字符识别

目前使用的车牌字符特征提取的方法可归纳为下述三种:1.基于字符统计特征。计算字符图像的多阶原点矩,多阶中心矩以及中心惯性矩,以中心矩与中心惯性矩的比值作为字符特征向量,这样提取的特征量具有平移,旋转和尺度不变性,但运算量大;也有把字符在多个方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二阶中心矩的比值作为特征向量。2.基于结构特征。轮廓特征,粗网格特征,层次轮廓特征以及字符特征点.这类特征提取计算量较少,但对噪声和位置变化比较敏感,需要去噪和对字符归一化。3.基于变换。对原始特征(像素点矩阵)进行傅里叶变换、K-L变换或小波变换等,提取的特征向量反映字符的结构特征和统计特征,相似字符的特征矢量距离较大,效果较好。实际应用中往往是多种特征的提取,多种特征提取方法的使用。

对车牌字符特征提取之后,就把相应的特征值输入分类器识别,目前对于车牌字符的分类识别方法归纳为下列几种。(1)模板匹配。该方法首先对待识字符进行二值化并将其缩放为字符数据库中模板大小,然后与所有的字符模板比较匹配,计算相似度,以最大相似度者为识别结果。(2)PCA子空间分类器。子空间分类器由训练样本相关矩阵的特征向量构成,单个模式的子空间建立彼此独立,相互之间没有联系,以待识别字符的特征向量与所对应的子空间距离最小作为结果。(3)基于人工神经网络。人工神经网络有抗噪声、容错、自适应、自学习能力强的特点。多隐含层的BP神经网络,BAM(Bidirectional association memories)神经网络方法,自谐振ART神经网络识别等是此方法的典范。(4)基于逻辑规则推理的识别方法。文献[18]提出基于归纳推理的字符识别,该方法在训练时自动生成识别规则。(5)基于随机场图像模拟的识别方法。该方法识别率高,并且可对灰度图像直接提取字符特征,抗干扰性强。另外使用感知器的识别,通常感知器只用于相似字符对的识别,作为其他识别方法的补充。

4 总结与展望

从已有车牌识别系统的性能分析来看,正确识别率和识别速度两者难以同时兼顾。其中原因包括目前的车牌识别技术还不够成熟,又受到摄像设备、计算机性能的影响。

现代交通飞速发展,LPR系统的应用范围不断扩宽,对车牌识别系统的性能要求将更高。对现有的算法优化或寻找识别精度高、处理速度快、应用于多种场合的算法将是研究的主要任务。

参考文献:

[1] 廖金周,宣国荣.车辆牌照的自动分割[J].微型电脑应用,1999(7):32-34.

[2] 刘智勇.车牌识别中的图像提取及分割[J].中文信息文报,2000(3):29-34.

[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.

[4] 郭捷,施鹏飞.基于颜色和纹理分析的车牌定位方法[J].中国图像图形学报,2002,7(5):473-476.

[5] 章毓晋.图像工程(上)――图像处理与分析[M].清华大学出版社.

卷积神经网络的步骤范文第3篇

【关键词】照相软件 人脸识别技术 计算机

人脸识别作为一项现代化科技技术,具有极大的发展空间。1964年,人脸识别(AFR)这一领域逐渐出现在人们的视野里,至于1991年至1997年,若干具有代表性的人脸识别算法诞生于世,到如今,以支持向量机为代表的统计学习理论被应用到了人脸识别中来。前人的侧重点在于对其算法的延伸探究,但就笔者而言,存在一定程度上专业知识的限制,因而根据自身的知识储备与探究能力,将人脸识别技术这一宽泛概念的探讨缩小至相对更贴近生活,且较为容易理解与研究的一个主题――对于照相机软件中人脸识别技术的探究,并由此展开对计算机人脸识别的部分性探究。

1 对于人脸识别技术的初步了解

科幻性质的故事往往以其并不符合实际的奇幻情节,模糊得描绘了现实世界未来的发展蓝图。这里不得不提及一部具有启发意义的电影――《生化危机》,电影中追踪主角行踪的卫星定位人脸识别技术,是否未来也将存在于我们的现实社会当中?由此,便联想到生活中照相软件的人脸识别是否也是通过相似的原理而执行的。

关于人脸识别,其本质上隶属于生物特征识别的一支。其余包含指纹识别,虹膜识别,DNA识别等技术。当今最为广泛运用的是指纹识别,但随之而来产生的是一定的安全性问题。例如去年热门的高考替考话题,指纹贴的出现使指纹识别的安全性受到质疑。而人脸识别仍处于一个不完全成熟的发展阶段,就目前现状来说,其所具有的不可复制性、自然性、不可察觉性,使其安全性与实用性都处于相对较高的水平。但同样,其技术难度也呈正比例增长。

通过对与计算机信息科技的学习,能够得出这样一个总结性结论:“人脸识别是通过计算机视觉的一些算法所实现的。”

前人对从不断更新的研究中得出,人脸识别的基本算法有四种:

(1)基于人脸特征点的识别算法(Feature-based recognition algorithms)。

(2)基于整幅人脸图像的识别算法(Appearance-based recognition algorithms)。

(3)基于模板的识别算法(Template-based recognition algorithms)。

(4)利用神经网络进行识别的算法(Recognition algorithms using neural network)。

当然,如今也早已存在许多其他的的算法能够支持人脸识别技术的实现。而对于该项技术的应用的范围也在逐渐扩大,门禁考勤系统、住宅安全管理、电子身份等等,都将在很大程度上的得益于其的不断发展。

让我们回到主题:照相机的人脸跟踪究竟是如何实现的呢?围绕这一问题,由浅及深,笔者将本文中的探究内容主要分为以下三个部分:

(1)图像在计算机内部的存储方式。

(2)计算机如何区分出物体与其所在背景。

(3)计算机如何定位人脸并从而实现识别功能。(注:由于照相软件只是作为一个对于人脸识别问题的切入点,单单深究照相软件会带来一定的局限性,因此二、三两点将跳过作为载体的照相软件,直接对于照相机功能背后的原理作进一步探究。)

1.1 图像在计算机内部的储存方式

计算机通过往往通过bitmap的形式来储存图像,也就是像素矩阵。

从结构上讲,计算机中储存的图像一把可以分为两大类,即矢量图和位图。矢量图通过数学公式计算获得,优点在于不会失真,但其最大的缺点是难以表现色彩层次丰富的逼真图像效果。而位图的基本思想,则是把一幅图像按照行列进行分割,所获得的点成为像素。相机所拍摄获得的照片便是以位图的形式储存的。每一幅图像均是由无数像素组成,而每一个像素对应显存中1、8、16或24位二进制数来表示颜色信息。位数决定了图像所含的最大颜色数,位数越多,图像的色彩就越丰富。

1.2 计算机如何区分出物体与其所在背景

大致的过程可以由图1所知,用相对容易理解的话来解释,计算机对于区分物体与其所在背景,首先是通过对要是别的物体提取表面特征,然后再对真实的照片提取表面特征,最终在进行匹配,配合相应的算法,这样,计算机便可以区分出物体与其所在背景。

由此所延伸的科目是计算机视觉。

正如定义所提到:计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。

通过这门科目,我们能够做到使用计算机来处理图像,并区分出目的对象。形象地说,在这门科目的辅助之下,计算机能够成为人类的第二双眼睛,对目标进行识别、跟踪和测量。

“One picture is worth ten thousand words.”图像的处理,将为人类提供巨大的便捷。

大致罗列出其处理所进行的步骤,分别是:图像获取、特征提取、检测分割、高级处理。

1.3 计算机如何定位人脸并从而实现识别功能

关于人脸的定位与识别,在很大一定程度上与区别物体与背景的技术存在着相似之处。但是人脸的定位与识别,又是更高于目标对象的识别的。这正是算法的不停更新与发展所带来的科技发展的结果。

目前比较流行的Cascade Classifier(Opencv中做人脸检测的时候的一个级联分类器)效果还是比较好的,正脸检测到的成功率能达到90%以上。

此外,在人脸局部区域特征提取时,一种叫做CNN(Convolutional Neural Network)卷积神经网络技术的运用――使用提取特征的filter对像素点进行几层处理,也为识别带来一定的便利。CNN运用到了深度学习,因此这里将拓展以下有关deep learning的概念:

deep learning的概念源于人工神经网络的研究。其三大框架为:CNN(Convolutional Neural Network,卷积神经网络),DBN(Deep Belief Network,深度置信网络),AE(AutoEncoder,自动编码机)。而目前在CV(Computer Vision的缩写,指计算机视觉)领域应用最广的是CNN。到近来也有很多人尝试用deep learning的方法来实现人脸识别,其与先前所提到的计算机区分物体和背景的原理也是相似的。

2 结论

回到最初的问题:照相机的人脸跟踪是如何实现的?综上所述,可以获得的结论是:照相机的人脸跟踪是通过计算机视觉的一些算法实现的。但这些算法在技术方面人仍然面临着一些难点,例如,在特征识别时,外界客观因素,有如,光线、着装遮挡、目标对象的姿态、脸型、样本缺乏等等尚未解决的问题。这些都使人脸识别技术尚有巨大的可发展空间。就像前段时间由推出的How Old do I Look线上脸部侦测服务,曾一度掀起热潮,可见,人们对于人脸识别技术的期望也是很高的。

那么,未来的人脸识别技术到底能够发展到何种程度呢?香港中文大学教授汤晓鸥、王晓刚及其研究团队曾在2014年6月宣布,他们研发的DeepID人脸识别技术的准确率超过99%,比肉眼识别更加精准。相信未来,计算机人脸识别技术将与我们共同成长,逐渐成熟与完善。毕业于UC Berkeley的博士贾扬清,创造了Caffe――全称Convolutional Architecture for Fast Feature Embedding,一个清晰而高效的深度学习框架,具有上手快、速度快、模块化、开放性、社区好等优点。如此不断迅捷发展的计算机技术,在这个数字化的时代,正是对未来发展很好的导向。

参考文献

[1]韦凤年.怎样写科技论文[J].河南水利,2006(09).

[2]董琳,赵怀勋.人脸识别技术的研究现状与展望[J].China Academic Journal Electronic Publishing House,2011,10.

作者简介

孙文倩(1998-),上海市人。现在上海市洋泾中学高中在读。

卷积神经网络的步骤范文第4篇

【关键词】声纹识别;小波滤波器组;基音周期;Mel倒谱系数;高斯混合模型

1.引言

说话人声纹识别可以看作是语音识别的一种。它和语音识别一样,都是通过对所收到的语音信号进行处理,提取相应的特征或建立相应的模型,然后据此作出判断。而区别在于它并不注意语言信号中的语义内容,而是希望从语音信号中提取出人的特征。从这点上说,说话人声纹识别是企求挖掘出包含在语音信号中的个性因数,而语音识别是企求从不同人的词语信号中寻找相同因素。在处理方法上,说话人声纹识别力图强调不同人之间的差别,而语音识别则力图对不同人说话的差别加以归一化。世界范围内,声纹识别技术正广泛应用于诸多领域。截止到去年年初,声纹识别产品的市场占有率为15.8%,仅次于指纹识别和掌形识别。

现有文献中用于说话人识别的特征许多是建立在短时频谱基础上。它们主要有Mel频率倒谱系数(MFCC),LPC倒谱系数,差值倒谱等。在声纹识别技术中,目前研究最多的方法有:模板匹配法、概率模型法和人工神经网络法。Soong等人将矢量量化技术用于与文本无关的说话人是被系统。Rosenberg等人利用子词单元构成的隐马尔科夫模型(HMM),建立了一个说话人确认系统。Delesby等人利用径向基函数神经网络方法进行说话人识别[1]。我国的北京大学以迟惠生为领导的说话人识别研究团体、清华大学以杨行峻为领导的研究团体以及中国科学院声学所和东南大学也在这个方面取得了非常优秀的科研成果.从国内外文献看来,有的着重距离测度,但是大多数向几种方法如HMM、GMM和ANN混合的方向发展。

2.声纹识别的基本原理及相关算法

2.1 基本原理

声纹识别的基本原理如图1所示,主要包括两个阶段,即训练和识别阶段。

训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参数。识别阶段,由待识人说的语音经特征提取后与系统训练时产生的模板或模型参数进行比较。在主说话人的辨认中,取与测试音匹配距离最小的说话人模型所对应的说话人作为识别结果;在说话人确认中,则通过判断测试音与所声称的说话人的模型的匹配距离是否小于一定闭值做出判断。

2.2 语音信号的预处理

在语音信号特征提取之前,首先要进行的一个环节就是对输入语音信号的预处理,主要包括预滤波、预加重、加窗分帧以及语音端点检测等过程。本文就以涉及到的预滤波进行描述,预滤波在本文中是通过小波滤波器组来实现。预滤波器必须是一个带通滤波器,其上、下截止频率分别是和。对于绝大多数语音处理中,,,采样率为。

2.3 声纹特征提取

2.3.1 概述

提取说话人特征就是把原来语音中的冗余信息去掉,找到我们关注的语音特征信息,是一个减小数据量的过程。从说话人语音信号中提取的特征参数应满足以下准则:对外部条件具有鲁棒性(如:说话人的健康状况和情绪,方言和别人模仿等);能够长期地保持稳定;易于从语音信号中进行提取;与其他特征不相关。

2.3.2 典型声纹特征参数提取算法

声纹特征参数主要有以下几种:基音周期、短时过零率、线性预测(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、以及经过噪声谱减或者信道谱减的去噪倒谱系数等,每一种特征参数都有其相应的提取算法。在声纹特征提取这一点,本文将采用基音周期和Mel频率倒谱混合的参数作为特征参数。

2.3.2.1 线性预测(LPC)方法

语音线性预测的基本思想是:利用过去的样值对新样值进行预测,然后将样值的实际值与其预测值相减得到一个误差信号,显然误差信号的动态范围远小于原始语音信号的动态范围,对误差信号进行量化编码而达到最小,可以确定唯一的一组线性预测系数。目前主流算法有Durbin递推算法、Levinson递推算法、舒尔(schur)算法和个性算法[2][3]。由于LPC分析是基于全极点模型的假设,所以它对于声道响应含有零点的清音和浊音和鼻音描述不确切。

2.3.2.2 线性预测倒谱系数(LPCC)

倒谱特征是用于说话人个性特征和说话识别人识别的最有效的特征之一。语音信号是声道频率特性和激励源信号源两者共同卷积的结果,后者对于某帧而言常带有一定的随机性,而说话人的个性特征很大程度上取决于说话人的发音声道,因此要将此二者进行有效的分离,可以通过对信号做适当的同态滤波,将相卷积的两个部分分离。滤波的关键是先将卷积处理化为乘积,然后做对数处理,使之化为可分离的相加成分。线性预测倒谱系数可由LPC特征进行推导,基于LPC系数分析得倒谱存在一种非常简单有效的递推求解方法。LPCC参数比较彻底地去掉了语音产生过程中的激励信息,主要反映声道特性,只需要十几个倒谱系数能比较好的描述语音的共振特性,计算量小,其缺点是对辅音的描述能力较差,抗噪声性能也较弱。

2.3.2.3 梅尔倒谱系数(MFCC)

MFCC着眼于人耳的听觉感知机理。因为听到的声音的高低与声音的频率的并不成线性正比关系,Mel频率的尺度更符合人耳的听觉特性。用Mel滤波器组对语音信号进行滤波和加权,使语音信号更加接近于人耳听觉感知系统特性,MFCC特征成为目前说话人识别和语音识别中最为广泛的特征参数。根据倒谱计算过程,MFCC计算过程可以简单地描为如下四个步骤:

(1)对语音信号进行短时傅里叶变换,得到各个帧的频谱。

(2)在Mel频率的轴上配置L个通道的三角滤波器组,L的个数由信号的救治频定。每一个三角滤波器中心频率c(l)在MEL频率轴上等间隔分配。设o(l)、h(l)分别是第L个三角滤波器的下限、中心和上限频率,则相邻三角形滤波器的下限、中心和上限频率有如下关系成立:

2.3.2.4 基因周期系数

基音是指发浊音时声带振动引起的周期性,而基音周期是指声带振动频率的倒数,基音可以分为时域、频域以及综合利用信号时域频率特性等三种提取模式,时域包括利用语音信号的采样点计算信号的波峰、波谷和过零率等,典型的方法是Gold和Rabiner提出的并行处理方式;频域的方法主要是计算信号的自相关函数、功率谱和最大似然函数等,其精度要高于时域方法,典型的方法是有中央消波自相关法、平均幅度差分函数法和倒谱法等。本文章选用倒谱法进行基因周期的提取。

1)倒谱法原理

语音信号是激励源与声道相应相卷积的结果,而“倒谱特征”则是利用了对语音信号进行适当的同态滤波后,可将激励信号与声道信号加以分离的原理。倒谱中维数较低的分量对应于语音信号的声道分量,倒谱中维数较高的分量对应于语音信号的音源激励信号。因此,利用语音信号倒谱可将它们分离,彼此基本上互不干扰,并可以避免声道分量受到随机变化的音源激励分量的干扰。

可见,倒谱域中基音信息与声道信息可认为相对分离的。采取简单的倒谱法可以分离并恢复e(n)和v(n),根据激励e(n)及倒谱的特征可以求出基音周期。然而,反应基音信息的倒谱峰在含过渡音和噪语音中将会变得不清晰甚至完全消失。原因主要是因为过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。这里可以采用一个简单的方法,就是在倒谱分析中,直接将傅里叶变换之前的(IFT)频域信号(由原始作FT逆变换再取对数后得到)的高频分量置零。可以实现类似于低通滤波器的处理,滤去噪音和激励源中的高频分量,减少了噪声干扰。图2是一种改进的倒谱基音检测的算法框图。

2.4 声纹识别技术

2.4.1 概述

声纹识别的基本原理是为了每个说话人建立一个能够描述这一说话人特征的模型,以其作为这一说话人的个性特征。在目前的话音特征与说话人个性特征还未很好的从语音特征中得到分离情况下,为每个说话者建立的说话人模型实际上是说话人的语音特征得模型。为对说话人个性特征描述的一致起见,构造一个通用的模型,常将每个说话人的模型结构取得相同,不同的只是模型中的参数,通过用训练语音对模型进训练得到。

2.4.2 典型的声纹识别算法

目前说话人识别模型主要有DTW(动态时间规划),VQ(矢量量化),GMM(高斯混合模型),HMM(隐马尔科夫模型),NN(神经元网络),SVM(支持向量机)等。本文用到GMM(高斯混合模型),所以后面会对其算法进行了详细的描述。

2.4.2.1 动态时间规划(DTW)

说话人信息既有稳定因素(发声器官的结构和发声习惯),也有时变因素(语速、语调、重音和韵律)。将模式识别与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用方法是基于最近邻原则的动态时间规划DTW,但DTW只对孤立词识别性能较好,并且高度依赖于定时,目前应用不广。

2.4.2.2 矢量量化方法(VQ)

矢量量化是一种极其重要的信号压缩方法,它广泛应用于语音编码、语音识别与合成、说话人识别、图像压缩等领域,基于非参数模型的VQ的方法是目前自动话说人识别的主要方法之一。完成VQ说话人识别系统有两个步骤:(1)利用说话人的训练语音,建立参考模型码本。(2)对待识别说话者的语音的每一帧和码本之间进行匹配。由于VQ码本保存了说话人个性特征,这样我们就可以利用VQ法进行说话人识别。在VQ法中模型匹配不依赖于参数的时间顺序,因此匹配过程中无需采用DTW技术;而且这种方法比应用DTW方法的参考模型储量小,即码本码字小。

用矢量量化方法建立识别模型,既可以大大减少数据存储量,又可以避开困难语音分段问题和时间规整问题。但是每个说话人的码本只是描述了这一说话人的语音特征在特征空间中的聚类中心的统计分布情况。在训练阶段为了充分反映说话人的个性特征要求训练语音足够长;在识别时为了使测试语音的特征矢量在特征空间中的分布能够与相应的说话人码本相吻合,所以同样要求有足够长的测试语音,在测试语音很短的情况下,这种方法的识别率将会急剧下降。

2.4.2.3 隐马尔科夫模型

HMM模型是马尔科夫链的推广,隐马尔科夫模型是一种基于转移概率和传输概率的随机模型。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统序列的输出。在HMM中,观察到的事件与状态通过一组概率分布相联系,是一个双重随机过程,其中一个是Markov链,他它描述了状态之间的转移;另一个随机过程描述状态和观察值之间的统计响应关系。HMM模型的状态是隐含的,可以观察到的的是状态产生的观察值,因此称为隐马尔科夫模型(HMM)。HMM模型同样广泛用于与文本相关的说话人识别中,并且比传统的方法有着更好的性能。HMM不需要时间规整,可节约判决时计算时间和存储量,在目前被广泛应用。缺点是训练时计算量大。

2.4.2.4 基于支持向量机(SVM)的方法

SVM是Vapnik提出的一种基于结构风险最小化二元分类器,通过非线性变换将原始集合映射到高维空间,转化为某个高维中的线性问题,寻找最优分类面,具有很好的泛化和分类能力,在手写/文字识别、文本分类和人脸识别等模式领域中取到成功的应用[4]。SVM实际上是一种辨别模式,一般情况下它只能辨别两类数据,因此需要正反两类数据进行训练。因此SVM要在说话人识别中应用,必须要解决多类分类问题。解决说话人识别的多分类问题的主要有三种形式[4]:

1)为每个人建立一个SVM,训练数据由目标说话人和背景说话人的语音分别构成“+”、“??﹣”数。

2)为每一对说话人建立一个SVM,由N个人则建立N*(N-1)/2个SVM。

3)决策树分类:决策树上每个节点将多个说话人分为两个子集,或者是一个说话人(叶节点)。

卷积神经网络的步骤范文第5篇

关键词: 图像特征; 支持向量机; 模拟退火算法; 交通标志识别

中图分类号: TN911?34; TP391.41 文献标识码: A 文章编号: 1004?373X(2017)08?0097?03

Traffic sign recognition based on image feature and improved support

vector machine algorithm

HAO Yongjie1, ZHOU Bowen2

(1. Hohhot Vocational College, Hohhot 010051, China; 2. College of Management and Economics, Tianjin University, Tianjin 300072, China)

Abstract: A traffic sign recognition method based on image feature and improved support vector machine (SVM) algorithm is studied in this paper. The color feature and shape feature are used to extract the image feature of the traffic sign. The Gabor filtering method is adopted to perform the enhancement processing of the traffic sign image. Since the accuracy of the recognition algorithm based on SVM is affected by the basic parameters to a great extent, and the parameters are selected according to the experience usually, the simulated annealing algorithm is used to select the parameters of the support vector machine optimally. The research results show that the detection accuracy of the traffic sign detection method is higher than that of the other three methods, and the detection accuracy of color and shape features extraction method is higher than that of the single color feature extraction method or shape feature extraction method.

Keywords: image feature; SVM; simulated annealing algorithm; traffic sign recognition

交通安全题以及道路通信能力不足问题越来越严重,人们开始重视如何提升道路交通的安全性及有效性,车辆安全辅助驾驶能够将道路信息、车辆信息以及驾驶员信息联系起来,驾驶员在其辅助下能够对行车环境进行感知,进而达到识别和监测道路信息的目的[1?2]。作为高级辅助系统的重要部分,交通标志识别系统能够有效地提升驾车的舒适性以及安全性。利用该系统,能够采集自然场景图像,经过图像识别和处理以后就可以检测交通标志,进而及时警告、指示以及提醒驾驶员[3?4]。

1 基于图像特征的交通标志检测特征提取

1.1 基于颜色的交通标志特征

不同的交通标志在颜色上存在着较大的差距,因此在分割交通标志图像的过程中通常以颜色为基础来分离抽取交通标志[5?6]。色调V、饱和度S以及色度H三个分量组成了HSV 颜色空间,作为三原色RGB空间的一种非线性变换,HSV颜色空间模型和圆柱坐标系的一个圆锥形子集是相互对应的,实现RGB颜色空间和HSV空间之间的转换[7]如下:

(1)

(2)

(3)

1.2 基于形状的交通标志特征

利用颜色抽取的方法能够在实景图中提取交通标志区域。然而由于在背景上自然场景和交通标志均比较复杂,如果仅仅依靠颜色无法获得较为精确的判定结果。但是这种方法能够将那些颜色比较类似的背景排除掉,主要是因为这些复杂背景和交通标志的特殊形状存在着一定的差距[8]。矩形、三角形以及圆形为交通标志的三种主要类型,当交通标志不同时其属性也存在着一定的差距,例如执行到边缘的距离、伸长度、矩形度以及圆形度等。圆形度、矩形度以及伸长度计算方法如下[9]:

(4)

(5)

(6)

1.3 Gabor滤波

Gabor 滤波首先对核函数模板进行确定,然后对图像进行卷积操作。Gabor 滤波函数乘以复指数振荡函数就是所对应的冲激响应。本文在提取特征向量时采用Gabor滤波法,所对应的核函数[10]如下:

(7)

2 改进支持向量机模型

相比于神经网络,支持向量机不需要太多的训练样本,同时对于凸优化问题支持向量机能够有效的解决,当参数和样本一致时,训练模型所得到的预测值就不会产生变化,因此在实际应用和理论中都比神经网络模型具有更高的性能。

但是在应用的过程中支持向量机需要依靠经验对学习参数进行选取。比如惩罚因子C和ε等,支持向量机的精度在很大程度上受到这些参数的影响,通常根据经验来进行参数的选取,这对于支持向量机模型的使用和推广是不利的。因此本文使用模拟退火算法对支持向量机的参数进行优化选择。

支持向量机的思想是利用结构风险最小化思想以及构造损失函数的思想,以统计学理论为基础,通过极小化目标函数就可以对回归函数进行确定,如下[11]:

(8)

将上述问题转化为对偶问题:

(9)

解出上述问题即为支持向量机的回归函数:

(10)

作为一种随机寻优算法,模拟退火算法是以蒙特卡罗迭代求解策略为基础的,其基本原理和物理上的金属退火比较类似。使用模拟退火算法对支持向量机的参数进行优化选择,主要过程如下:

步骤1:初始化参数。设定支持向量机中的ε,C和σ参数的初始范围。

步骤2:使用模拟退火算法对支持向量机的参数进行优化选择。

步骤3:更新最优解。如果,则使,,;否则使。

步骤4:抽样稳定性判别。如果,则使,并返回步骤2;否则使。

步骤5:终止退火判别。如果,则使,否则使。如果,则终止退火算法,否则继续向下进行。

步骤6:退火方案。如果,则按照方式进行退火;否则按照方式进行退火。

在利用SA对SVM参数进行确定的过程中能够记忆性地进行参数的选取,可以存储当前进化所得到的最优参数,保证可以根据记忆调整参数的选择过程;同时利用SA算法能够调整所选取的参数,避免出现局部最小的情况,对于逼近系统的精度以及参数选择学习速度的提升有非常好的效果[12]。

3 交通标志识别实例分析

通过交通标志识别实例对本文研究的识别方法进行验证分析。通^实地考察,拍摄了500幅包括826个交通标志的图像,用于实例分析,部分标志图像如图1所示。

本文以文献[13]中研究的图像特征检测方法为例进行对比分析。使用本文研究的图像特征检测方法得到的图像处理结果和使用文献[13]中研究的图像特征检测方法得到的图像处理结果如图2所示。

对比本文和文献[13]中的特征检测方法可以看出,本文研究的方法处理后图像中杂点更少,更利于图像的分类识别。另外,由于文献[13]中的特征检测方法使用计算图像均值处理,因此特征检测效率相对更低。

下面对交通标志识别准确率进行分析。使用多种图像特征检测方法和图像分类模型进行组合:本文研究的使用颜色和形状特征提取,改进支持向量机进行图像分类,称方法A;使用颜色和形状特征提取,常规支持向量机进行图像分类,称方法B;使用颜色特征提取,改进支持向量机进行图像分类,称方法C;使用形状特征提取,改进支持向量机进行图像分类[14],称方法D。

使用上述四种方法针对拍摄的826个交通标志的图像进行识别,对比结果如表1所示。

表1 四种算法的识别结果对比

可以看出使用本文研究的交通标志检测方法的检测精度高于其他三种方法。使用颜色和形状特征提取的检测精度要高于单独使用颜色或形状特征提取方法。

4 结 论

交通标志识别系统能够有效地提升驾车的舒适性以及安全性。交通标志识别系统能够采集自然场景图像,经过图像识别和处理以后就可以检测交通标志,进而及时警告、指示以及提醒驾驶员。本文研究一种基于颜色和形状特征以及改进支持向量机算法的交通标志识别方法,并通过实例对所研究的交通标志识别方法的可行性进行了验证。

参考文献

[1] 王刚毅.交通标志检测与分类算法研究[D].哈尔滨:哈尔滨工业大学,2013.

[2] 宋婀娜,房俊杰,李娜,等.一种基于局部特征的交通标志检测算法的研究[J].现代电子技术,2015,38(13):114?116.

[3] 杨正帅.基于视觉的道路识别技术在移动机器人导航中的应用研究[D].南京:南京理工大学,2007.

[4] 王忠.基于视觉的道路识别技术在智能小车导航中的应用研究[D].南京:东南大学,2006.

[5] 陈朴.模拟退火支持向量机算法研究及在电力负荷预测中的应用[D].哈尔滨:哈尔滨工业大学,2006.

[6] 陈亦欣,叶锋,肖锋,等.基于HSV空间和形状特征的交通标志检测识别研究[J].江汉大学学报(自然科学版),2016(2):119?125.

[7] 王洋.一种基于模板匹配的交通标志识别方法[D].长春:吉林大学,2013.

[8] 卢艳君.交通标志自动检测与识别算法研究[D].武汉:武汉科技大学,2015.

[9] 鲍朝前.针对圆形和三角形交通标志的检测与识别[D].北京:北京工业大学,2015.

[10] 周欣.圆形和三角形交通标志分割与识别算法研究[D].上海:华东理工大学,2013.

[11] 李瑾,刘金朋,王建军.采用支持向量机和模拟退火算法的中长期负荷预测方法[J].中国电机工程学报,2011(16):63?66.

[12] 张震,徐子怡,袁淑芳.基于支持向量机和模拟退火算法对供暖热负荷的预测方法[J].自动化技术与应用,2016(2):10?14.

相关期刊更多

数据采集与处理

北大期刊 审核时间1-3个月

中国科学技术协会

北华大学学报·自然科学版

统计源期刊 审核时间1-3个月

吉林省教育厅

遥测遥控

统计源期刊 审核时间1-3个月

中国航天科技集团有限公司