首页 > 文章中心 > 神经网络卷积层的作用

神经网络卷积层的作用

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇神经网络卷积层的作用范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

神经网络卷积层的作用

神经网络卷积层的作用范文第1篇

关键词:卷积神经网络 人体行为识别 Dropout

中图分类号:TP391.41 文献标识码:A 文章编号:1672-3791(2017)04(c)-0028-02

该文采用随机Dropout卷积神经网络,笔者将此法的优点大致概况为将繁琐杂乱的前期图像处理简易化,原来的图像不可以直接输入,现在的原始图像即可实现直输功能,因其特性得到广泛研究与应用。另外,卷积神经网络在图像的处理中能够将指定的姿势、阳光的照射反应、遮避、平面移动、缩小与放大等其他形式的扭曲达到鲁棒性,从而达到良好的容错能力,进而可以发现其在自适应能力方面也非常强大。因为卷积神经网络在之前建立网络模型时,样本库为训练阶段提供的样本,数量有限,品质上也很难满足要求,致使网络权值参数不能够完成实时有效的调度与整理。

1 卷积神经网络

据调查卷积神经网络由K.Fukushima在80年代提出,那时候它被称为神经认知机,这一认知成为当时的第一个网络,后来网络算法发生了规模性变革,由LeCun为代表提出了第一个手写数字识别模型,并成功投入到商业用途中。LeNet被业界冠以卷积神经网络的代表模型,这类系统在很多方面都起到了不容小趋的作用,它多数应用于各类不同的识别图像及处理中,在这些层面上取得了重要成果。

笔者经查阅资料发现卷积神经网络其实是由两个种类组合而来,它们分别是特征提取、分类器,这种组成我们可以看到特征提取类可由一定数量的卷积层以及子采样层相互重叠组合而成,全部都连接起来的1层或者2层神经网络,就是由分类器来进行安排的。卷积神经网络中的局部区域得到的感觉、权值的参数及子采样等可以说是重要网络结构特征。

1.1 基本CNN网络结构

图1中就是最为经典的LeNet-5网络模型结构图。通过图1中我们可以获悉,该模型有输入输出层,除这两层外还有6层,其征提取可在前4层中体现,后两层体现的是分类器。

在特征提取部分,6个卷积核通过卷积,是图像经尺寸为32×32的输入而得见表1,运算过程如式(1):

(1)

式中:卷积后的图像与一个偏置组合起来,使函数得到激活,因此特征图变诞生了,通过输出得到了6个尺寸的特征图,这6个尺寸均为28×28,近而得到了第一层的卷积,以下笔者把它简要称为c1;那么c1层中的6个同尺寸图再经由下面的子采样2×2尺寸,再演变成特征图,数量还是6个,尺寸却变成了14×14,具体运算如公式(2):

通过表2我们可以使xi生成的和与采样系数0.25相乘,那么采样层的生成也就是由加上了一个偏置,从而使函数被激活形成了采样层的第1个层次,以下我们简要称为s1;这种过程我们可反复运用,从而呈现出卷积层中的第2层,可以简要称之为c2,第2层简称s2;到目前为止,我们对特征的提取告一段落。

神经网络的识别,我们可以看到它是由激活函数而形成的一个状态,这一状态是由每个单元的输出而得;那么分类器在这里起到的作用是将卷积层全部连接起来,这种通过连接而使1层与上面1层所有特征图进行了串连,简要称之为c5;因而2层得到了退变与简化效应,从而使该神经网络成为经典,简要称之为F6,向量及权值是由F6 输送,然后由点积加上偏置得到结果的有效判定。

1.2 改进的随机DropoutCNN网络

1.2.1 基本Dropout方法

神经网络泛化能力能够得到提升,是基于Dropout方法的深入学习。固定关系中存在着节点的隐含,为使权值不再依附于这种关系,上述方法可随机提取部分神经元,这一特性是通过利用Dropout在网络训练阶段中随机性而得,对于取值能够有效的存储及保护存留,这一特性在输出设定方面一定要注重为0,这些被选择的神经元随然这次被抽中应用,但并不影响下次训练的过程,并具还可以恢复之前保留的取值,那么每两个神经元同时产生作用的规避,可以通过重复下次随机选择部分神经元的过程来解决;我们通过这种方法,使网络结构在每次训练阶段中都能呈现不同变化,使一些受限制的特征,不再受到干扰,使其真正能展现自身的优点,在基于Dropout方法中,我们可以将一些神经元的一半设为0来进行输出,随机神经元的百分比可控制在50%,有效的避免了特征的过度相似与稳合。

1.2.2 随机Dropout方法

Dropout方法就是随机输出为0的设定,它将一定比例神经元作为决定的因素,其定义网络在构建模型时得到广泛采用。神经元基于随机Dropout的方法是该文的重要网络输出途径,通过设定输出为0,使其在网络中得到变。图2是随机Dropout的加入神经元连接示意图,其在图中可知两类神经元:一类是分类器的神经元,这一阶段的神经元可分榱讲悖涣硪焕嗌窬元是由输出而形成的层次。模型在首次训练的阶段会使神经元随机形成冻结状态,这一状态所占的百分比为40%、60%,我们还可以看到30%及50%的神经元可能在网络随机被冻结,那么这次冻结可以发生在模型第二次训练,那么第三次神经元的冻结可从图示中得出70%及40%,还可以通过变化用人工设置,其范围值宜为35%~65%,那么网络神经元连接次序的多样化,也因此更为突出与精进,网络模型的泛化能力也得到了跨越势的提高。

2 实验及结果分析

2.1 实验方法

卷积神经网络通过实验,通过输入层呈现一灰色图像,该图像尺寸被设定成28×28的PNG格式,这里我们以图像框架图得到双线性差值,用来处理图像及原视频中的影像,将框架图的卷积核设定为5×5的尺寸,子采样系数控制值为0.25,采用SGD迭代200次,样本数量50个进行设定,一次误差反向传播实现批量处理,进行权值调整。实验采用交叉验证留一法,前四层为特征提取层,C1-S1-C2-S2按顺序排列,6-6-12-12个数是相应特征,通过下阶段加入随机Dropout,这阶段为双层也就是两层,进行连接,连接层为全体,从而可知结果由分类得出,又从输出层输出。

2.2 实验结果分析

识别错误率可通过卷积神经网络模型,及训练过程与检测过程中可查看到的。在训练阶段中,我们可以将Dropout的网络中融入200次训练,在将没有使用该方法的网络进行相互比较分析,我可以得知,后者训练时的识别错误率稍高于前者,前者与后的相比较所得的差异不是很大,进而我们可知使用Dropout方法,对卷积神经网络在泛化能力上得到有效的提升,从而有效的防止拟合。

3 结语

笔者基于Dropout卷积神经网络,人体行为识别在视频中进行, 通过Weizmann数据集检测实验结果,随机Dropout在分类器中加入。通过实验可以得知:随机Dropout的加入,使卷积神经构建了完美网络模型,并且使其在人体行为识别中的效率赢得了大幅度的提升,近而使泛化能力可以通过此类方法得到提高,可以防止拟合。

参考文献

[1] 其它计算机理论与技术[J].电子科技文摘,2002(6).

神经网络卷积层的作用范文第2篇

关键词:卷积神经网络;自动编码器;非监督训练;多尺度分块;目标识别

中图分类号:TP391.41文献标志码:A英文标题

0引言

对图像中目标的精确和鲁棒识别是模式识别及人工智能领域的核心内容,在道路监控、战场侦察、精确打击等领域中有着重要的作用和广泛的前景。近年来,随着深度神经网络成为机器学习新的热点,基于卷积神经网络(Convolutional Neural Network,CNN)的图像识别算法因其较强的鲁棒性和突出的识别率被学术界和工业界所重视。

Alex等[1]提出基于大型深层CNN的自然图像识别算法,在ImageNet数据集上取得了很高的识别率;Dan等[2]提出了基于多核的CNN,并采用GPU并行运算的方法在三维NORB数据集上取得了很好的识别效果。以上算法虽然都取得了较高的目标识别率,但是由于算法采用有监督的训练方式,需要大量标签数据对网络权重进行调整,当数据量较小时会导致模型前几层网络无法得到充分训练,故只能针对含标签数据较多的大型数据集。针对此问题,目前主流的解决方法是采用特征提取算法对CNN的滤波器集进行非监督的预训练。文献[3]采用稀疏编码提取训练图像的基函数作为CNN的初始滤波器;文献[4]将独立成分分析(Independent Component Analysis,ICA)应用于CNN的预训练阶段,利用ICA训练滤波器集合,使识别率得到了一定提高。然而无论是稀疏编码还是ICA,其特征提取的效果都比较一般,应用于预训练阶段对算法识别率的提升也比较有限。所以如何更好地选择滤波器的预训练算法仍是十分困难的问题。

除了预训练外,影响CNN识别率和鲁棒性的关键参数还有滤波器的尺寸和下采样层的采样间隔。滤波器尺寸反映了CNN对输入图像局部特征的提取情况,文献[5]证明滤波器尺寸对最终识别结果有很大影响,并给出了单层条件下相对最优的滤波器尺寸。下采样层主要负责对特征进行模糊,从而获得平移、尺度等不变性。采样间隔反映了模糊的程度,间隔越大模糊越严重,模糊后的特征保持的全局空间信息就越少。文献[6]证明当采样间隔较小时,即使经过2次卷积和2次最大下采样(maxpooling),网络输出的激活值仍能重构出与原始输入看似相同的图案。然而下采样间隔过小会导致不变性丧失,过大则会损失大量细节信息,两者均会导致识别率的下降。

针对以上问题,本文提出基于多尺度分块卷积神经网络(MultiScale Convolutional Neural Network, MSCNN)的图像目标识别算法。首先利用稀疏自动编码器(Sparse AutoEncoder,SAE)对卷积神经网络的滤波器进行非监督预训练,通过最小化重构误差获得待识别图像的隐层表示,进而学习得到含有训练数据统计特性的滤波器集合,预训练效果相比ICA更好。其次提出多尺度分块的方法构建卷积神经网络,为了增加鲁棒性并减小下采样对特征表示的影响,对输入图像进行多尺度分块形成多个通路,并设计相应尺寸的滤波器进行卷积运算,将不同通路下采样后的输出进行融合从而形成新的特征,输入softmax分类器完成图像目标的识别。最后通过大量实验对比MSCNN算法与经典算法在通用图像识别任务中的识别率和鲁棒性差异,从而验证算法的有效性。

4仿真实验及分析

本文使用STL10公开数据集以及从全色波段的QuiekBird遥感卫星和GoogleEarth软件中截取的遥感飞机图像数据集进行测试实验,将所有图片变为64×64像素的RGB图。选择STL10数据集的原因是因为其含有不包含标签的训练集,可用于本文的非监督预训练算法,且图像中包含更多类内变化。STL10共10类目标,本文选用其中的4类目标进行实验。选择遥感飞机图像数据则是为了验证本文算法在遥感图像解译方面的可用性。该数据集包含5类遥感飞机,共400幅。实验时随机选取遥感飞机图像库中50%的图像作为训练样本,其余作为测试样本。本文的实验环境为CPU2.8GHz、内存3GB的计算机,实现算法的软件为Matlab(2011a)。

4.1算法识别率对比测试

MSCNN的各通路尺寸参数设置如图4所示,每个通道使用300个滤波器,滤波器初始值按照不同通道感受野大小利用稀疏自动编码器预训练得到。编码器设定为3层,稀疏参数ρ设定为0.05,训练周期为400。卷积神经网络的下采样方式采用最大下采样(max pooling)。

按照上述参数设置,通路1输出特征维度为2700,通路2输出特征维度为4800,通路3输出特征维度为4800,MSCNN输出特征维度总共为12300。所有算法的训练周期均为50。传统CNN参数设定与通路1参数设定相同,同样使用300个滤波器,滤波器初始值通过随机初始化得到。输出特征维度为2700。实验结果如表1所示。

从表1可看出,加入LCN的CNN较未加入的CNN对两种数据集的识别率有一定的提高,说明了加入LCN对目标识别率是有一定的贡献的;在两种数据集上MSCNN相比原始CNN都拥有更高的识别率。MSCNN通路1虽然参数设置与CNN相同,但在相同训练周期下识别率较加入LCN的CNN又有一定提高,说明了非监督预训练对识别率提高的有效性。对于STL10数据集,可看出通路2的识别率在3个通路中最高,通路3则最低,这是因为通路3输入的图像尺寸最小,而STL10类内变化很大且目标不全在图像中心,故识别率有所下降。通路之间进行两两累加后识别率都有所提高,在3个通路共同作用时识别率最高,达到83.5%。对于遥感飞机图像集而言,可看出3个通路中通路2的识别率最高,这是因为遥感飞机图像集均为飞机图像,不同类别之间的全局特征差异并不明显,而局部特征更能表示不同的飞机类别。通路3由于输入尺寸较小,识别率稍有下降。同样的,不同通路之间的叠加都让识别率有所提升,最终MSCNN三通路特征融合后的识别率达到了96.5%,完全满足对于可见光遥感图像目标识别的需求。

从表1还可看出,本文算法在3个通路CNN的情况下的识别率较1个通路或2个通路的CNN的识别率高,由此可以推断3个通路CNN所提取的特征具有较强的泛化能力和鲁棒性。此外3个通道能够兼顾不同的尺度,使模型能提取到尺度不同的特征。

4.2算法鲁棒性实验

为验证MSCNN的鲁棒性,在数据集中选取不同类别的图像对其进行平移、尺度、旋转变换,然后计算MSCNN输出的第一层全连接特征与图像变换后输出特征之间的欧氏距离,根据距离的大小可以衡量输出特征对于目标变化的鲁棒性,欧氏距离越小就说明特征对于目标变化越不敏感,鲁棒性就越好。对于STL10选取四类目标进行实验,对比算法为CNN;对于遥感飞机图像集随机选取10幅进行实验,并取距离的平均值,对比算法为ICA和CNN。测试结果如图6~7所示。

图6中虚线表示传统CNN算法得到的结果,实线则表示MSCNN得到的结果,从图6可看出:无论是面对平移、尺度还是旋转变换,MSCNN算法最终输出的特征向量变化率均小于CNN算法,证明其鲁棒性要好于CNN。

从图7也可看出:本文算法对于遥感飞机图像集的平移、尺度、旋转均表现出良好的鲁棒性,相比而言ICA提取的特征鲁棒性较差,目标图像微小的变化就导致了特征较大的改变。本文算法鲁棒性较好首先是因为MSCNN采用非监督的预训练方式,训练得到的滤波器含有更多图像不变性特征;其次是因为MSCNN采用多尺度输入,小块图像输入在一定程度上相当于另一种局部特征,这些特征相比全尺寸输入拥有更好的不变性;最后是MSCNN采用了局部对比度标准化,对于亮度变化较大和存在噪声的目标图像鲁棒性明显增强。

另外,本文算法采用了多通路多尺度分块的方法,必然会使网络参数增加,从而会使训练时间比较耗时;但在测试阶段,输入样本的计算仅包含一些简单的卷积和下采样,算法复杂度并没有因为通道的增加而增加,因此在测试阶段的实时性较传统的CNN并没有太大变化。

5结语

本文提出了MSCNN算法在卷积神经网络的基础上通过非监督预训练滤波器的方法解决传统卷积神经网络前几层无法得到有效训练的问题。针对传统神经网络对于复杂背景图像识别率不高的问题,利用多尺度输入图像增加局部不变信息,利用不同尺寸滤波器卷积搭配不同下采样间隔的方法在获得特征不变性的同时不至于丧失目标的细节信息,有效提升了识别率和鲁棒性。与经典算法的对比实验结果表明:该方法能够有效识别可见光自然图像和遥感图像,并对平移、尺度和旋转变换具有较强的鲁棒性。

参考文献:

[1]

ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.

[2]

DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.

[3]

KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.

[4]

KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.

[5]

COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.

[6]

ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.

[7]

BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.

[8]

HAYKIN S.神经网络与机器学习[M].3版.申富饶, 徐烨, 郑俊, 译. 北京: 机械工业出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.

[10]

LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[11]

DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.

[12]

GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.

[13]

JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.

[14]

BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.

Background

This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).

ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.

神经网络卷积层的作用范文第3篇

关键词:人脸识别技术;病毒管控;人工智能;神经网络

互联网在今天的社会中发挥着举足轻重的作用。如今社会,随着许多人工智能技术、网络技术、云计算等互联网技术不断发展,像人脸识别等技术的应用越来越广泛,在控制病毒传播途径等场合发挥了巨大作用,不断地提高着社会的安全性和便利性,不仅提高了防控中病毒检测效率,也为病毒的控制提供了可靠的技术方法,能够及时发现和控制公共场所的安全隐患因素,避免对社会经济、居民生活造成破坏,。但目前的人脸识别等技术还存在许多缺陷,需要完善和革新,充满着巨大的潜力和进步空间。

1人脸识别技术研究意义

人脸识别技术是一种生物特征识别技术,最早产生于上世纪60年代,基于生理学、图像处理、人机交互及认知学等方面的一种识别技术。相比于其他人类特征像指纹识别、声纹识别、虹膜识别等技术,人脸识别虽然存在人脸识别单一性低,且区分度难度高、易受环境影响等不足。但是人脸识别技术拥有速度快、大范围群体识别及非接触、远距离可识别等优势,都是其他生物识别识别技术所不具备的,而在传播性强、感染风险大的病毒传播过程中,这些显然是必须要考虑的重要影响因素。通过将人脸识别等人工智能技术引入信息管理系统,综合集成视频监控、图像处理、深度学习和大数据等技术,结合非接触测温、定位等技术,助力病情防控,在一定程度上推动病毒病情防控信息化、智能化发展进程。可作为加强公共场所的人员的体温实时监测、地址信息定位的监控管理,规范公共场所针对病毒传播的预防行为。

2人脸识别技术

2.1人脸检测技术

人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象(如无背景的图象),往往假设人脸位置静止或者容易获取。人脸检测分为前深度学习时期,AdaBoost框架时期以及深度学习时期。前深度学习时期,人们将传统的计算机视觉算法运用于人脸检测,使用了模板匹配技术,依赖于人工提取特征,然后用这些人工特征训练一个检测器;后来技术发展,在2001年Viola和Jones设计了一种人脸检测算法,它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器,检测速度较之前的方法有2个数量级的提高,并且保持了很好的精度,称这种方法为VJ框架。VJ框架是人脸检测历史上第一个最具有里程碑意义的一个成果,奠定了基于AdaBoost目标检测框架的基础,使用级联AdaBoost分类器进行目标检测的思想是:用多个AdaBoost分类器合作实现对候选框的分类,这些分类器组成一个流水线,对滑动窗口中的候选框图像进行判定,确定检测目标是人脸还是非人脸。Adaboost框架技术的精髓在于用简单的强分类器在初期快速排除掉大量的非人脸窗口,同时保证高的召回率,使得最终能通过所有级强分类器的样本数数量较少。在深度学习时期,开始将卷积神经网络应用于人脸检测领域。研究方向有两种:一是将适用于多任务的目标检测网络应用于人脸检测中;另一种是研究特定的的人脸检测网络。人脸检测技术具有特殊唯一性和稳定性,在现今社会对于构建居民身份识别系统,病毒传播防控系统,以及计算机视觉交互模型的构建具有广泛的应用。人脸检测技术不仅作为人脸识别的首要步骤,也在许多其他领域发挥巨大影响,如人脸关键点提取、人脸追踪、基于内容的检索、数字视频处理、视频检测、安防监控、人证比对、社交等领域都有重要的应用价值。数码相机、手机等移动端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能,各种虚拟美颜相机也需要人脸检测技术定位人脸。评价一个人脸检测算法好坏的指标是检测率和误报率,我们定义检测率为:算法要求在检测率和误报率之间尽量平衡,理想的情况是达到高检测率,低误报率。

2.2人脸识别技术

目前主要流行的人脸识别技术包括几何特征识别,模型识别,特征脸识别和基于深度学习/神经网络的的人脸识别技术等。人脸特征识别主要通过对人脸面部结构特征如眼睛、鼻子等五官几何特点及其相对位置分布等,生成图像,并计算各个面部特征之间的欧式距离、分布、大小等关系该方法比较简单,反应速度快,并且具有鲁棒性强等优点,但是在实际环境下使用容易受检测的环境的变化、人脸部表情变化等影响,精度通常不高,细节处理上不够完善。模型识别技术主要包括隐马尔可夫模型、主动表象模型、主动形状模型等,识别率较高,并且对表情等变化影响较小。特征脸识别来源于主成分描述人脸照片技术(PCA技术),从数学上来讲,特征脸就是人脸的图像集协方差矩阵的特征向量。该技术能有效的显示人脸信息,效率较高。基于深度学习的人脸识别是获取人脸图像特征,并将包含人脸信息的特征进行线性组合等,提取人脸图像的特征,学习人脸样本数据的内在规律和表示层次。可以采用如三层前馈BP神经网络。BP神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一。BP网络本质上是一种能够学量的输入与输出之间的映射关系的输入到输出的映射,从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。BP神经网路输入层有n个神经元节点,输出层具有m个神经元,隐含层具有k个神经元,采用BP学习算法训练神经网络。BP算法主要包括两个阶段:向前传播阶段和向后传播阶段。在向前传播阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是在网络完成训练后正常运行时执行。将Xp作为输入向量,Yp为期望输出向量则BP神经网络向前传播阶段的运算,得到实际输出表达式为向后传播阶段主要包括两大步骤:①计算实际输出Op与对应理想输出Yp之差;②按极小化误差方法调整带权矩阵。之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的,因为该阶段都需要收到精度要求进行误差处理,所以也可以称之为误差传播阶段。(1)确定训练集。由训练策略选择样本图像作为训练集。(2)规定各权值Vij,Wjk和阈值Φj,θk参数,并初始化学习率α及精度控制参数ε。(3)从训练集中取输入向量X到神经网络,并确定其目标输出向量D。(4)利用上式计算出一个中间层输出H,再用本式计算出网络的实际输出Y。(5)将输出矢量中yk与目标矢量中dk进行比较,计算输出误差项,对中间层的隐单元计算出L个误差项。(6)最后计算出各权值和阈值的调整量。所以,卷积神经网络算法是通过训练人脸特征库的方式进行学习生成,对不同环境下不同表现情况的人脸图像识别有更高的精确性。

2.3人脸识别软件实现方式

(1)采集人脸数据集,然后对数据集进行标注,对数据进行预处理变成训练格式。(2)部署训练模型,根据训练算法所需依赖部署电脑环境。(3)训练过程,下载预训练模型,将人脸数据集分批次作为输入开始训练,最终输出为训练好的模型。(4)部署训练好的模型,捕获画面即可对画面中的人脸进行实时检测。

3人脸识别在病毒传播防控中的应用

通过人脸识别技术,可以实现无接触、高效率的对流动人员进行信息的收集、身份识别、定位地址信息等操作,大大减少了传染的可能性,切断了病毒传播途径,大大提高了工作效率。通过提前收录人脸信息,采用深度学习对人脸特征模型的训练学习,即可获取人脸识别特征模型,再次验证时即可实现人脸识别和个人信息快速匹配。AI人工智能帮助人们更好的解放双手,为人们的生活和工作提供了重要的帮助。本文还提出了在人脸识别的系统基础上,可以加入定位系统、测温系统等,依托物联网技术和云计算大数据,更加优化管控系统的效率。病毒传播防控中人脸识别系统流程可以概括为图2。

4结语

本文研究了一种人脸识别技术在病毒传播管控系统中的应用,并分析设计了人脸识别实时监测及病毒管控系统的流程,大大提高了信息管理的效率,减弱了传播风险。作为一门新兴技术,目前的人脸识别技术还存在着诸多不足之处,像存在环境光的影响、人脸表情变化、妆容变化、佩戴口罩等都会影响到系统识别精度;另外安全问题也引人深思:现今人脸支付方式迅猛发展,录入的人脸模型信息数据库存在有一定的安全风险,一旦被不法分子盗取信息后果不堪设想,所以模型数据库安全、网络安全,也是系统开发中必须重视的问题。人脸识别为代表的人工智能技术的研究,在病毒传播管控作出重大贡献,依托我国领先的计算机网络技术和5G等技术,加强人工智能技术与5G通信技术的结合,优势互补,以此来加快大数据、人工智能和物联网技术发展进程,对我国社会进步,促进城市建设和管理朝着高效、秩序、和谐稳定的方向不断发展,增强我国的经济实力有着重大价值和研究意义。

参考文献

[1]王彦秋,冯英伟.基于大数据的人脸识别方法[J].现代电子技术,2021,44(7):87-90.

[2]李刚,高政.人脸自动识别方法综述[J].计算机应用研究,2003,20(8):4-9,40.

[3]马玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].计算机科学与探索,2021,7(15):1195-1206.

[4]余璀璨,李慧斌.基于深度学习的人脸识别方法综述[J].工程数学学报,2021,38.

[5]王红星,胡永阳,邓超.基于LBP和ELM的人脸识别算法研究与实现[J].河南理工大学学报(自然科学版),2005.

[6]钟陈,王思翔,王文峰.面向疫情防控的人脸识别系统与标准研究[J].信息技术与标准化,2020,6,11-13,1671-539X.

[6]彭骏,吉纲,张艳红,占涛.精准人脸识别及测温技术在疫情防控中的应用[J].软件导刊,2020,10,1672-7800.

神经网络卷积层的作用范文第4篇

关键词:车牌识别系统; 智能交通; 技术

中图分类号: TP391.4文献标识码:A文章编号:1009-3044(2008)18-20ppp-0c

Research on Licence Plate Recognition System

YI Lian-jie

(Loudi Vocational and Technical College Loudi Huanan417000)

Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.

Keywords: the licence plate recognition system; intelligent traffic system; technology

车牌识别系统是智能交通系统的关键部分,可广泛应用于交通管理、监控和电子收费等场合。车牌识别系统就是以车牌作为车辆的唯一标识,采用计算机视觉和模式识别技术对汽车车牌的自动识别。

1 车牌识别系统的组成

典型的车牌识别系统由车辆检测、图像采集、车牌识别等部分组成(图1)。车辆检测就是使用车辆传感器或红外线检测等来判断车辆是否通过某一位置。当车辆驶过探测部位时,CCD摄像机拍摄车辆图像,由图像采集卡采集图像并输入计算机。车牌识别部分由计算机和识别软件组成,从由CCD摄像机采集的图像中自动寻找车牌,然后对找到的车牌进行字符切分和识别,最后获得车牌号码,并将识别结果送至监控中心等场合。

图1车牌识别系统的组成

在整个识别系统中,以车牌识别最为关键。识别过程有两个步骤,首先从图像中找出确切的车牌位置,即车牌定位,然后对找出的车牌进行字符切分和识别。车牌识别过程包含两大关键技术:1.车牌区域定位技术;2.车牌字符切分和识别技术。

2 车牌定位技术

图像输入计算机后,系统要自动找出车牌的准确位置。车牌区域定位是车牌字符切分和识别的基础,是提高系统识别率的关键。车牌定位过程包括三个步骤:图像预处理、车牌搜索和车牌纠偏。

2.1 图像预处理

图像预处理的作用:平滑去噪和车牌特征增强。

平滑去噪就是消除图像上由于光照、车牌污损等产生的噪声干扰。平滑方法主要有平均滤波、中值滤波和指数函数滤波等方法。中值滤波和指数滤波平滑效果好且能较好保持牌照和字符边缘,但在平滑效果和处理速度方面不如平均滤波。

通常的车牌定位算法是依据车牌特征从图像中找出车牌,因此必须使车牌区域显示出与非车牌区域不同的独有的特征,车牌特征增强使图像中车牌区域明显突出。通常有下述增强方法:边缘检测法、二值化法、量化法、数学形态学法。

具有不同灰度的相邻区域之间存在边缘,在车牌区域存在车牌边框边缘和车牌字符边缘。边缘检测法就是要检测出这些边缘。有关边缘检测的算法很多,考虑实时性要求,采用简单的微分算子,如一阶微分算等。这些算子采用小区域模板与图像卷积实现边缘检测。文献[1]提出一种牌照字符边缘特征增强的方法,该方法使用线性滤波器函数将每一行中多个连续的水平方向梯度值相加,使得字符的垂直边缘增强。微分算子对噪声较为敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指数平滑法与Laplacian算子相结合的边缘检测方法,既能消除噪声又能很好的突出车牌字符的边缘。

二值化增强法先确定一个阈值,然后将图像中各个像素的灰度值都与这个阈值比较,根据比较结果将整个图像的像素点分为两类,车牌区域归为一类,便于车牌搜索。为了满足实时性要求,采用简单、快速的二值化法,如平均阈值法,反积分自适应阈值法等。

文献[3]使用神经网络来对彩色图像量化,使得车牌区域的字符为一种特定的颜色,然后进行颜色过滤或线扫描,借此提取车牌。该方法首先必须选取车牌样本图像,并且要把RGB颜色模式转换为HSI模式,以HSI各分量值作为输入对神经网络进行训练,再以训练好的神经网络对图像的各像素点量化分类,该方法抗干扰能力强,量化前可不要求平滑,

数学形态学表示以形态为基础对图像进行分析的数学工具,它的基本思想使用具有一定形态的结构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的。数学形态学有四种基本的运算:膨胀,腐蚀,开启和闭合。出于以下两个意图而使用形态学方法:1.将开启和闭合结合起来,消除二值化后的车牌区域中存在的细小空洞;2.采用水平线段的结构元素膨胀,使二值化后的车牌区域成为一连通区域。

需要说明的是,上述方法往往不是单独使用,如二值化法是对边缘检测后的图像进行,而形态学方法是在二值化图上实现。不能简单的评价图像预处理方法的优劣,因为这与所对应的车牌搜索方法紧密相关。

2.2 车牌搜索

车牌搜索就是根据车牌区域特征在图像中寻找车牌的过程。根据搜索的方式可把车牌搜索方法分为以下几种:投影统计法、线扫描法、模板匹配法和反Hough变换法等。车牌搜索法要与相应的车牌增强法配合使用(见表2)。

表2车牌增强法用于不同搜索法的情况

投影统计法对边缘化或二值化图像进行水平和垂直累加投影,根据投影直方图呈现的连续峰、谷、峰的分布的特征来提取车牌,或对由形态学膨胀运算后的图像水平和垂直投影,在投影图上寻找波峰和波谷而确定车牌位置。文献[24]提出的采用高斯指数函数对投影图平滑,能有效消除投影图的毛刺,使车牌位置为明显的波峰,提高车牌定位的精度。

线扫描搜索法则是对边缘化或二值化后的图像逐行水平扫描,穿过车牌区域的扫描线因为字符边缘的存在,灰度呈现起伏的峰、谷、峰的变化,或频繁交替出现亮基元、暗基元的特征,以提取车牌。文献[3]用神经网络对彩色图像量化之后,再逐行水平扫描,分别获取颜色向量和长度向量,能与标准车牌区域的颜色向量和长度向量匹配的为车牌区域。

模板匹配搜索法是以特定的模板在图像区域滑动,以与模板匹配的局部区域为车牌。使用的模板有线模板、倒”L”角模板、矩形框模板。线模板以水平线段或垂直线段为模板,来检测车牌的边框角点;倒“L”模板以倒“L”结构为模板来寻找车牌边框的左上角;矩形框模板以一个与车牌长宽比例相当的矩形框作为模板,在整个图像区域滑动,以符合某一判别函数值的区域作为车牌区域。

反Hough变换搜索法是基于车牌形状特征的方法,先对图像进行Hough变换,然后在Hough参数空间寻找车牌的四个端点。

上述搜索法可以结合使用,如文献[25]提出的自适应边界搜索法,先用倒”L”模板寻找车牌边框的左上角,然后用水平线扫描和垂直线扫描找出下边框和右边框。投影统计搜索法和线扫描搜索法处理速度快,能对大小不同的车牌识别,但定位精度不高和出现虚假车牌的情况,需要提高定位精度和去除虚假车牌的后续工作。模板匹配搜索法能比较准确的找到车牌位置,但难以满足实时性要求,可以采用神经网络或遗传算法来加快搜索进程。反Hough变换搜索法除了能准确找到车牌位置,还能确定车牌的倾斜角度,对噪声、轮廓线中断不敏感,但在有直线干扰下可能实效,文献[28]提出的快速Hough变换的策略能满足实时性要求。

2.3 车牌纠偏

由于车辆运行轨迹不定、摄像机位置偏斜等原因,使得图像中车牌扭曲,为了后续正确的车牌字符切分和识别,就须对车牌纠偏,使车牌达到规范的位置和大小。采用的纠偏方法通常先是用Hough变换确定水平边框倾斜角度和垂直边框倾斜角度,然后纠偏。文献[22]提出使用Rodan 变换可用来确定倾斜角度。

3 车牌字符识别技术

车牌定位之后就要对车牌字符识别。这一过程包含下列几个步骤(见图2):车牌二值化,字符切分,字符特征提取和字符识别。这里只讨论后三个步骤。

图2 车牌字符识别步骤

3.1 字符切分

字符切分把车牌上的字符分开,得到一个个的字符图像。常用的字符切分方法有投影法、模板匹配法、区域生长法、聚类分析法等。

投影法把车牌图像垂直累加投影,形成峰谷交替的投影直方图,找到投影图的各个谷就能把字符分开。模板匹配法以字符大小的矩形作为模板,根据字符的宽度初步确定每个字符的起始位置,然后以此模板在初定位置附近滑动,找到最佳匹配位置而切分字符。区域生长法对每个需要分割的字符找一个像素作为生长起点的种子,将种子像素周围邻域中与之相同或相近性质的像素合并到种子像素所在的区域,然后将这些新像素当作新的种子继续进行上述过程,直到再没有满足条件的像素可被包含进来。基于聚类分析的方法对车牌图像从上到下逐行扫描,如属于字符类的两像素间距离小于阈值,可认为两像素为同一字符,由此而得字符像素的聚类。

3.2 字符特征提取和车牌字符识别

目前使用的车牌字符特征提取的方法可归纳为下述三种:1.基于字符统计特征。计算字符图像的多阶原点矩,多阶中心矩以及中心惯性矩,以中心矩与中心惯性矩的比值作为字符特征向量,这样提取的特征量具有平移,旋转和尺度不变性,但运算量大;也有把字符在多个方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二阶中心矩的比值作为特征向量。2.基于结构特征。轮廓特征,粗网格特征,层次轮廓特征以及字符特征点.这类特征提取计算量较少,但对噪声和位置变化比较敏感,需要去噪和对字符归一化。3.基于变换。对原始特征(像素点矩阵)进行傅里叶变换、K-L变换或小波变换等,提取的特征向量反映字符的结构特征和统计特征,相似字符的特征矢量距离较大,效果较好。实际应用中往往是多种特征的提取,多种特征提取方法的使用。

对车牌字符特征提取之后,就把相应的特征值输入分类器识别,目前对于车牌字符的分类识别方法归纳为下列几种。(1)模板匹配。该方法首先对待识字符进行二值化并将其缩放为字符数据库中模板大小,然后与所有的字符模板比较匹配,计算相似度,以最大相似度者为识别结果。(2)PCA子空间分类器。子空间分类器由训练样本相关矩阵的特征向量构成,单个模式的子空间建立彼此独立,相互之间没有联系,以待识别字符的特征向量与所对应的子空间距离最小作为结果。(3)基于人工神经网络。人工神经网络有抗噪声、容错、自适应、自学习能力强的特点。多隐含层的BP神经网络,BAM(Bidirectional association memories)神经网络方法,自谐振ART神经网络识别等是此方法的典范。(4)基于逻辑规则推理的识别方法。文献[18]提出基于归纳推理的字符识别,该方法在训练时自动生成识别规则。(5)基于随机场图像模拟的识别方法。该方法识别率高,并且可对灰度图像直接提取字符特征,抗干扰性强。另外使用感知器的识别,通常感知器只用于相似字符对的识别,作为其他识别方法的补充。

4 总结与展望

从已有车牌识别系统的性能分析来看,正确识别率和识别速度两者难以同时兼顾。其中原因包括目前的车牌识别技术还不够成熟,又受到摄像设备、计算机性能的影响。

现代交通飞速发展,LPR系统的应用范围不断扩宽,对车牌识别系统的性能要求将更高。对现有的算法优化或寻找识别精度高、处理速度快、应用于多种场合的算法将是研究的主要任务。

参考文献:

[1] 廖金周,宣国荣.车辆牌照的自动分割[J].微型电脑应用,1999(7):32-34.

[2] 刘智勇.车牌识别中的图像提取及分割[J].中文信息文报,2000(3):29-34.

[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.

[4] 郭捷,施鹏飞.基于颜色和纹理分析的车牌定位方法[J].中国图像图形学报,2002,7(5):473-476.

[5] 章毓晋.图像工程(上)――图像处理与分析[M].清华大学出版社.

神经网络卷积层的作用范文第5篇

关键词: 动态纹理分类; 慢特征分析; 深度学习; 堆栈降噪自动编码网络模型

中图分类号: TN919?34 文献标识码: A 文章编号: 1004?373X(2015)06?0020?05

Dynamic texture classification method based on stacked denoising autoencoding model

WANG Cai?xia, WEI Xue?yun, WANG Biao

(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)

Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.

Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model

0 引 言

动态纹理是指具有空间重复性、并随时间变化的视觉模式,这种模式形成了一系列在时间域上具有某种不变性的图像序列[1]。不同的动态纹理可能具有相似的外观,但是却具有不同的运动形式,所以表观和运动是动态纹理特征的两大方面。在目前的动态视频分析系统中,最关键的步骤是如何提取有效的动态纹理特征描述符。在过去几十年里,对纹理的研究大部分都集中在静态纹理特征的研究,动态纹理的研究相对静态纹理而言起步要晚的多。动态纹理的研究最早始于20世纪90年代初,由Nelson和Polana采用建立线性系统模型的方法对其进行研究[2],并且将视觉运动划分为三类[3]:行为、运动事件以及动态纹理。随后,Szummer 和 Picard提出采用时空自回归模型(Spatio?Temporal Auto Regressive,STAR)[4]对动态纹理序列进行建模。基于光流的识别法是目前比较流行的动态纹理识别法,因为其计算效率高,并且以一种很直观的方式来描述图像的局部动态纹理特征,Fazekas和Chetverikov总结出,正则性(Regulated)全局流与普通流(Normal Flow)相比,普通流可以同时包含动态特性和形状特性[5]。基于LBP的动态纹理方法是最近几年才提出的一种有效算法,典型的是Zhao等人提出的两种时空域上的描述子:时空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地结合“运动”和“外观”特征。2007―2008年是动态纹理研究最多的两年,各大期刊杂志连续刊登有关动态纹理的研究文章。

本文试图解决动态自然场景的分类问题(例如:烟火、河流、风暴、海洋、雪花等)。在计算机视觉领域,过去采用较多的是手动提取特征来表示物体运动信息(例如:HOF、基于STIP的HOG算法等),实验表明该类方法对人体行为识别非常有效。但是由于自然环境比较复杂,动态纹理表现不稳定,易受光照、遮挡等影响,而手动选取特征非常费力,需要大量的时间进行调节,所以该类方法并不适用于动态场景分类。Theriault等人提出利用慢特征分析的方法来提取动态视频序列的特征[8]。该方法虽然能有效表示动态纹理特征,但是其提取的特征维数较高。深度学习是机器学习研究中一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,近几年深度学习网络模型在大尺度图像分类问题中成功应用使得其得到越来越多人的重视。卷积神经网络、深度置信网络和堆栈自编码网络是三种典型的深度学习网络模型,而堆栈自编码网络模型不仅对高维数据有很好的表示,而且采用非监督的学习模式对输入数据进行特征提取,这对于传统的手动提取特征。利用堆栈自编码网络模型对慢特征进行进一步学习,不仅能降低数据维度,而且还能提取出数据更有效的特征表示。

1 基于堆栈自编码网络模型的慢特征分析法

1.1 慢特征分析法

文献[9?10]中提到,慢特征分析算法的目标是从不断变化的输入信号中学习不变量,即除了无意义的常值信号外,最具不变性质的信息,其实质也就是从快速变化的信号中提取缓慢变化的信号特征,这种特征是从混合信号中提取出来的源信号的高级表示,表征信号源的某些固有属性[11]。

实验证明,慢特征分析法在人体行为识别中有很好的描述作用,这为动态纹理分类提供了一个很好的选择。慢特征分析算法的核心思想是相关矩阵的特征值分解,其本质是在经过非线性扩展特征空间对目标函数进行优化,寻找最优解的线性组合。

给定一个时域输入信号序列:

[vt=v1t,v2t,…,vDtT]

目标就是学习一组映射函数:

[Sv=S1v,S2v,…,SMv]

使得输出信号[yt=y1t,y2t,…,yMtT]的各个分量[yj=Sjvt]的变化尽可能缓慢,而且仍然保留相关的重要信息。选用时域信号一阶导数的均方值来衡量输出信号个分量的变化率:

[minSj<y?2j>t] (1)

且满足以下条件:

(1) [<yj>t=0];

(2) [<y2j>t=1];

(3) [?j<j':<yj,yj'>t=0]。

其中:[<y>t]是[y]的时域平均值;[y?j]是[yj]的时域一阶导数。这三个约束条件保证慢特征分析的输出信号的各分量的变化率尽可能小,其中条件1和条件2确保输出没有无意义的常信号值,条件3确保输出各分量之间是非相关的,且不同慢特征承载着不同信息。值得注意的是,函数[Sv]是输入信号的瞬时函数,所以输出结果不能看成是通过低通滤波器的结果,慢特征处理速度要比低通滤波器快很多。如图1所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t1.tif>

图1 时域输入信号慢特征的提取

输出信号各分量按照变化率从小到大排列,且互不相关,其最优解问题可以看成以下公式的解特征值问题:

[Sj:<v?v?T>tSj=λjSj] (2)

求解得到的特征值按从小到大的顺序排列,即[λ1≤λ2≤???≤λM],输出信号的慢特征和最小特征值息息相关。输入信号[vt]可以是多种模式的图像特征(例如色彩,梯度,SIFT特征,HOG特征)。

这里采用的是v1特征[12?13],该特征对图像有很好的表示,确保预先学习到的慢特征能达到最优。

1.2 堆栈自动编码模型

自动编码器模型是深度学习网络模型之一,其尽可能复现输入信号,捕捉代表输入信号的主要成分。

如图2所示,对于给定输入信号[x],根据式(2)得到输出[y],此过程为编码过程:

[y=fθx=sWx+b] (3)

式中:[sx=11+θ-x];[W]是[d′×d]维权重矩阵;[b]是偏移向量。

为了验证输出[y]是否准确表达原输入信号,利用式(2)对其进行重构,得到重构信号[z]。此过程为解码/重构过程:

[gθ′y=sW′y+b′] (4)

从输入到输出的权值记为[θ=W,b],从输出到输入的权值记为[θ′=W′,b′]。逐层进行参数[θ]和[θ′]的优化,式(5)为其目标函数:

[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)

调整参数,使得重构误差达到最小,因此可以得到[x]的第一层表示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t2.tif>

图2 普通DA和降噪DA

降噪自动编码器(Denoising Auto Encoder,Dae)是在自动编码器的基础上给训练数据加入噪声,编码器需要学习去除噪声而获得没有被噪声污染的输入信号,因此获得输入信号更加鲁棒的表达。堆栈自动编码模型(Sda)是将多个Dae堆叠起来形成的一种深度网络模型。利用优化后的参数[θ]得到当前层的输出[y](即下一层的输入),将得到的[y]作为新一层的输入数据,逐层进行降噪自动编码的过程,直到到达多层神经网络中间隐层的最后一层为止,算出该层输出,即为输出特征,如图3所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t3.tif>

图3 多层神经网络结构图

1.3 基于Sda的慢特征分析法

基于Sda的慢特征分析方法利用慢特征分析法预先学习动态视频序列的慢特征,将该特征作为模型输入,进行多层降噪自动编码网络模型参数的学习,最后使用SVM分类器对该模型的输出特征进行分类,具体步骤如图4所示。

2 实 验

2.1 实验数据集与评估准则

实验所用数据由10类动态场景构成(包括海滩,电梯,森林烟火,高速公路,闪电,海洋,铁路,河流,云,街道),且每一个类别由30个250×370 pixels大小的彩序列构成。这些视频序列全部来自于加拿大约克大学计算机视觉实验室于2012年的YUPENN动态场景数据集[14],该数据库主要强调的是对象和表层在短时间内场景的实时信息。如图5所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t4.tif>

图4 基于Sda的慢特征分析步骤图

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t5.tif>

图5 YUPENN动态数据库

将所有彩序列进行尺度缩放,分别放大和缩小1.2倍,1.4倍,1.6倍,并且在每一个尺度上进行旋转,旋转角度分别为[2°,4°,6°,-2°,-4°,-6°]。所以样本总数为(10×30)×(6×6)=10 800个。实验性能使用混淆矩阵(Confusion Matrix)进行衡量。混淆矩阵是多分类问题中常用的衡量准则,它使得分类结果一目了然并能指出错误预测的影响。分类矩阵通过确定预测值是否与实际值匹配,将模型中的所有事例分为不同的类别。然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。实验中一共有14个类别的数据集,所以最后会产生一个大小为14×14的混淆矩阵。

2.2 实验结果与分析

实验选用线性SVM分类器,采用Leave?One?Out 分析法进行分类。所有视频序列全部转换成灰度视频进行慢特征分析,输出大小为4 032维的慢特征向量作为Sda网络模型的输入数据。

2.2.1 Sda网络模型大小

堆栈降噪自动编码器网络层数以及每一层的大小对输出特征的鲁棒性和SVM分类结果有重要的影响。当网络层数不一样时,模型学习到的特征也就不一样,网络层数过低,学习力度可能不够,特征达不到最佳表示效果,网络层数太高,可能会出现过拟合现象,隐层的大小和最后的分类结果也息息相关,所以选取不同网络层数和隐层大小分别进行实验,如图6所示,选取网络层数分别为1,2,3,隐层大小分别为500,1 000,2 000。由图6可知,当隐层大小为500时的分类得分显然比1 000和2 000时高很多;在隐层大小为500时,随着网络层数不断增加,实验结果不断提升,当网络层数由2层上升到3层时,实验结果已经非常接近(网络层数为2时score=95.9%,网络层数为3时score=96.3%)。可以得知,随着网络层数不断增加,分类的效果逐渐提高,当网络层数为3时,分类结果已非常接近。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t6.tif>

图6 不同网络层数和隐层大小的分类结果

2.2.2 噪声

Sdae对每一层的输入加入噪声,编码器自动学习如何去除噪声而获得更加鲁棒的动态纹理特征,因此每一层所加入的噪声的大小对提取的特征有很大的影响。因此,选取不同大小的噪声分别进行实验,如图7所示,选取噪声大小分别为10%,15%,20%,25%,30%,35%,40%,45%,50%,固定网络层大小为[500,500,500];由图可知,加入噪声对分类得分的影响呈类似抛物线形状,对每一层输入数据加入25%的噪声时score=0.964为最大值。

2.2.3 混淆矩阵以及实验与现有方法的比较

图8为实验最优参数所计算出的混淆矩阵,由图可知,海滩、电梯、高速公路以及海洋的分类效果达到100%,喷泉(Fountain)的分类效果虽然最差,但也已经达到83%左右,其容易被误分成森林火灾(17%错误分类)。由该混淆矩阵可以得知,实验所用方法能够达到将近96.4%平均得分。表1是本文所用方法与现有几个比较常用的动态纹理特征提取方法的比较,分别有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是几个方法中效果最好的,可以达到76.7%的分类效果,而本文所用方法SFA+Sda比SFA方法提高了将近20%的分类得分,并且在每一个动态场景中分类效果总是优于其他几种方法。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t7.tif>

图7 加入不同噪声的分类结果

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t8.tif>

图8 混淆矩阵

表1 本实验与现有方法比较

3 结 语

本文提出一种基于多层降噪自动编码网络模型的动态纹理分类方法:预先学习动态视频序列的慢特征,以此作为多层降噪自编码网络模型的输入数据进行非监督的深度学习,网络最顶层的输出即为所提取的动态纹理特征,采用SVM分类器对该特征进行分类。本文对实验中的各种影响参数如网络模型的深度、每一层的大小以及加入噪声的大小做了充分的研究,实验证明,该方法所提取的特征对动态纹理有很好的表示作用,分类效果不错,在动态场景分类问题中有很大的应用价值。

参考文献

[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.

[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.

[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.

[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.

[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.

[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.

[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.

[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.

[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.

[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.

[11] 马奎俊,韩彦军,陶卿,等.基于核的慢特征分析算法[J].模式识别与人工智能,2011(2):79?84.

[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.

[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.

[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.

[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.