前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络的算法范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:卷积神经网络;自动编码器;非监督训练;多尺度分块;目标识别
中图分类号:TP391.41文献标志码:A英文标题
0引言
对图像中目标的精确和鲁棒识别是模式识别及人工智能领域的核心内容,在道路监控、战场侦察、精确打击等领域中有着重要的作用和广泛的前景。近年来,随着深度神经网络成为机器学习新的热点,基于卷积神经网络(Convolutional Neural Network,CNN)的图像识别算法因其较强的鲁棒性和突出的识别率被学术界和工业界所重视。
Alex等[1]提出基于大型深层CNN的自然图像识别算法,在ImageNet数据集上取得了很高的识别率;Dan等[2]提出了基于多核的CNN,并采用GPU并行运算的方法在三维NORB数据集上取得了很好的识别效果。以上算法虽然都取得了较高的目标识别率,但是由于算法采用有监督的训练方式,需要大量标签数据对网络权重进行调整,当数据量较小时会导致模型前几层网络无法得到充分训练,故只能针对含标签数据较多的大型数据集。针对此问题,目前主流的解决方法是采用特征提取算法对CNN的滤波器集进行非监督的预训练。文献[3]采用稀疏编码提取训练图像的基函数作为CNN的初始滤波器;文献[4]将独立成分分析(Independent Component Analysis,ICA)应用于CNN的预训练阶段,利用ICA训练滤波器集合,使识别率得到了一定提高。然而无论是稀疏编码还是ICA,其特征提取的效果都比较一般,应用于预训练阶段对算法识别率的提升也比较有限。所以如何更好地选择滤波器的预训练算法仍是十分困难的问题。
除了预训练外,影响CNN识别率和鲁棒性的关键参数还有滤波器的尺寸和下采样层的采样间隔。滤波器尺寸反映了CNN对输入图像局部特征的提取情况,文献[5]证明滤波器尺寸对最终识别结果有很大影响,并给出了单层条件下相对最优的滤波器尺寸。下采样层主要负责对特征进行模糊,从而获得平移、尺度等不变性。采样间隔反映了模糊的程度,间隔越大模糊越严重,模糊后的特征保持的全局空间信息就越少。文献[6]证明当采样间隔较小时,即使经过2次卷积和2次最大下采样(maxpooling),网络输出的激活值仍能重构出与原始输入看似相同的图案。然而下采样间隔过小会导致不变性丧失,过大则会损失大量细节信息,两者均会导致识别率的下降。
针对以上问题,本文提出基于多尺度分块卷积神经网络(MultiScale Convolutional Neural Network, MSCNN)的图像目标识别算法。首先利用稀疏自动编码器(Sparse AutoEncoder,SAE)对卷积神经网络的滤波器进行非监督预训练,通过最小化重构误差获得待识别图像的隐层表示,进而学习得到含有训练数据统计特性的滤波器集合,预训练效果相比ICA更好。其次提出多尺度分块的方法构建卷积神经网络,为了增加鲁棒性并减小下采样对特征表示的影响,对输入图像进行多尺度分块形成多个通路,并设计相应尺寸的滤波器进行卷积运算,将不同通路下采样后的输出进行融合从而形成新的特征,输入softmax分类器完成图像目标的识别。最后通过大量实验对比MSCNN算法与经典算法在通用图像识别任务中的识别率和鲁棒性差异,从而验证算法的有效性。
4仿真实验及分析
本文使用STL10公开数据集以及从全色波段的QuiekBird遥感卫星和GoogleEarth软件中截取的遥感飞机图像数据集进行测试实验,将所有图片变为64×64像素的RGB图。选择STL10数据集的原因是因为其含有不包含标签的训练集,可用于本文的非监督预训练算法,且图像中包含更多类内变化。STL10共10类目标,本文选用其中的4类目标进行实验。选择遥感飞机图像数据则是为了验证本文算法在遥感图像解译方面的可用性。该数据集包含5类遥感飞机,共400幅。实验时随机选取遥感飞机图像库中50%的图像作为训练样本,其余作为测试样本。本文的实验环境为CPU2.8GHz、内存3GB的计算机,实现算法的软件为Matlab(2011a)。
4.1算法识别率对比测试
MSCNN的各通路尺寸参数设置如图4所示,每个通道使用300个滤波器,滤波器初始值按照不同通道感受野大小利用稀疏自动编码器预训练得到。编码器设定为3层,稀疏参数ρ设定为0.05,训练周期为400。卷积神经网络的下采样方式采用最大下采样(max pooling)。
按照上述参数设置,通路1输出特征维度为2700,通路2输出特征维度为4800,通路3输出特征维度为4800,MSCNN输出特征维度总共为12300。所有算法的训练周期均为50。传统CNN参数设定与通路1参数设定相同,同样使用300个滤波器,滤波器初始值通过随机初始化得到。输出特征维度为2700。实验结果如表1所示。
从表1可看出,加入LCN的CNN较未加入的CNN对两种数据集的识别率有一定的提高,说明了加入LCN对目标识别率是有一定的贡献的;在两种数据集上MSCNN相比原始CNN都拥有更高的识别率。MSCNN通路1虽然参数设置与CNN相同,但在相同训练周期下识别率较加入LCN的CNN又有一定提高,说明了非监督预训练对识别率提高的有效性。对于STL10数据集,可看出通路2的识别率在3个通路中最高,通路3则最低,这是因为通路3输入的图像尺寸最小,而STL10类内变化很大且目标不全在图像中心,故识别率有所下降。通路之间进行两两累加后识别率都有所提高,在3个通路共同作用时识别率最高,达到83.5%。对于遥感飞机图像集而言,可看出3个通路中通路2的识别率最高,这是因为遥感飞机图像集均为飞机图像,不同类别之间的全局特征差异并不明显,而局部特征更能表示不同的飞机类别。通路3由于输入尺寸较小,识别率稍有下降。同样的,不同通路之间的叠加都让识别率有所提升,最终MSCNN三通路特征融合后的识别率达到了96.5%,完全满足对于可见光遥感图像目标识别的需求。
从表1还可看出,本文算法在3个通路CNN的情况下的识别率较1个通路或2个通路的CNN的识别率高,由此可以推断3个通路CNN所提取的特征具有较强的泛化能力和鲁棒性。此外3个通道能够兼顾不同的尺度,使模型能提取到尺度不同的特征。
4.2算法鲁棒性实验
为验证MSCNN的鲁棒性,在数据集中选取不同类别的图像对其进行平移、尺度、旋转变换,然后计算MSCNN输出的第一层全连接特征与图像变换后输出特征之间的欧氏距离,根据距离的大小可以衡量输出特征对于目标变化的鲁棒性,欧氏距离越小就说明特征对于目标变化越不敏感,鲁棒性就越好。对于STL10选取四类目标进行实验,对比算法为CNN;对于遥感飞机图像集随机选取10幅进行实验,并取距离的平均值,对比算法为ICA和CNN。测试结果如图6~7所示。
图6中虚线表示传统CNN算法得到的结果,实线则表示MSCNN得到的结果,从图6可看出:无论是面对平移、尺度还是旋转变换,MSCNN算法最终输出的特征向量变化率均小于CNN算法,证明其鲁棒性要好于CNN。
从图7也可看出:本文算法对于遥感飞机图像集的平移、尺度、旋转均表现出良好的鲁棒性,相比而言ICA提取的特征鲁棒性较差,目标图像微小的变化就导致了特征较大的改变。本文算法鲁棒性较好首先是因为MSCNN采用非监督的预训练方式,训练得到的滤波器含有更多图像不变性特征;其次是因为MSCNN采用多尺度输入,小块图像输入在一定程度上相当于另一种局部特征,这些特征相比全尺寸输入拥有更好的不变性;最后是MSCNN采用了局部对比度标准化,对于亮度变化较大和存在噪声的目标图像鲁棒性明显增强。
另外,本文算法采用了多通路多尺度分块的方法,必然会使网络参数增加,从而会使训练时间比较耗时;但在测试阶段,输入样本的计算仅包含一些简单的卷积和下采样,算法复杂度并没有因为通道的增加而增加,因此在测试阶段的实时性较传统的CNN并没有太大变化。
5结语
本文提出了MSCNN算法在卷积神经网络的基础上通过非监督预训练滤波器的方法解决传统卷积神经网络前几层无法得到有效训练的问题。针对传统神经网络对于复杂背景图像识别率不高的问题,利用多尺度输入图像增加局部不变信息,利用不同尺寸滤波器卷积搭配不同下采样间隔的方法在获得特征不变性的同时不至于丧失目标的细节信息,有效提升了识别率和鲁棒性。与经典算法的对比实验结果表明:该方法能够有效识别可见光自然图像和遥感图像,并对平移、尺度和旋转变换具有较强的鲁棒性。
参考文献:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神经网络与机器学习[M].3版.申富饶, 徐烨, 郑俊, 译. 北京: 机械工业出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
(江苏科技大学电子信息学院,江苏镇江212003)
摘要:在实际交通环境中,由于运动模糊、背景干扰、天气条件以及拍摄视角等因素,所采集的交通标志的图像质量往往不高,这就对交通标志自动识别的准确性、鲁棒性和实时性提出了很高的要求。针对这一情况,提出一种基于深层卷积神经网络的交通标志识别方法。该方法采用深层卷积神经网络的有监督学习模型,直接将采集的交通标志图像经二值化后作为输入,通过卷积和池采样的多层处理,来模拟人脑感知视觉信号的层次结构,自动地提取交通标志图像的特征,最后再利用一个全连接的网络实现交通标志的识别。实验结果表明,该方法利用卷积神经网络的深度学习能力,自动地提取交通标志的特征,避免了传统的人工特征提取,有效地提高了交通标志识别的效率,具有良好的泛化能力和适应范围。
关键词 :交通标志;识别;卷积神经网络;深度学习
中图分类号:TN911.73?34;TP391.41 文献标识码:A 文章编号:1004?373X(2015)13?0101?06
收稿日期:2015?01?09
基金项目:国家自然科学基金面上项目(61371114)
0 引言
随着智能汽车的发展,道路交通标志的自动识别[1?3]作为智能汽车的基本技术之一,受到人们的高度关注。道路交通标志识别主要包括两个基本环节:首先是交通标志的检测,包括交通标志的定位、提取及必要的预处理;其次是交通标志的识别,包括交通标志的特征提取和分类。
如今,交通标志的识别方法大多数都采用人工智能技术,主要有下述两类形式[4]。一种是采用“人工特征+机器学习”的识别方法,如基于浅层神经网络、支持向量机的特征识别等。在这种方法中,主要依靠先验知识,人工设计特征,机器学习模型仅负责特征的分类或识别,因此特征设计的好坏直接影响到整个系统性能的性能,而要发现一个好的特征,则依赖于研究人员对待解决的问题的深入理解。另一种形式是近几年发展起来的深度学习模型[5],如基于限制波尔兹曼机和基于自编码器的深度学习模型以及卷积神经网络等。在这种方法中,无需构造任何的人工特征,而是直接将图像的像素作为输入,通过构建含有多个隐层的机器学习模型,模拟人脑认知的多层结构,逐层地进行信息特征抽取,最终形成更具推广性和表达力的特征,从而提升识别的准确性。
卷积神经网络作为深度学习模型之一,是一种多层的监督学习神经网络,它利用一系列的卷积层、池化层以及一个全连接输出层构建一个多层的网络,来模仿人脑感知视觉信号的逐层处理机制,以实现视觉特征信号的自动提取与识别。本文将深层卷积神经网络应用于道路交通标志的识别,通过构建一个由二维卷积和池化处理交替组成的6层网络来逐层地提取交通标志图像的特征,所形成的特征矢量由一个全连接输出层来实现特征的分类和识别。实验中将加入高斯噪声、经过位移、缩放和旋转处理的交通标志图像以及实际道路采集交通标志图像分别构成训练集和测试集,实验结果表明,本文所采用的方法具有良好的识别率和鲁棒性。
1 卷积神经网络的基本结构及原理
1.1 深度学习
神经科学研究表明,哺乳动物大脑皮层对信号的处理没有一个显示的过程[5],而是通过信号在大脑皮层复杂的层次结构中的递进传播,逐层地对信号进行提取和表述,最终达到感知世界的目的。这些研究成果促进了深度学习这一新兴研究领域的迅速发展。
深度学习[4,6?7]的目的就是试图模仿人脑感知视觉信号的机制,通过构建含有多个隐层的多层网络来逐层地对信号特征进行新的提取和空间变换,以自动学习到更加有效的特征表述,最终实现视觉功能。目前深度学习已成功地应用到语音识别、图像识别和语言处理等领域。在不同学习框架下构建的深度学习结构是不同的,如卷积神经网络就是一种深度的监督学习下的机器学习模型。
1.2 卷积神经网络的基本结构及原理
卷积神经网络受视觉系统的结构启发而产生,第一个卷积神经网络计算模型是在Fukushima 的神经认知机中提出的[8],基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,LeCun 等人在该思想的基础上,用误差梯度设计并训练卷积神经网络[9?10],在一些模式识别任务上得到优越的性能。
卷积神经网络本质上是一种有监督的深度学习算法,无需事先知道输入与输出之间精确的数学表达式,只要用已知的模式对卷积神经网络加以训练,就可以学习到输入与输出之间的一种多层的非线性关系,这是非深度学习算法不能做到的。卷积神经网络的基本结构是由一系列的卷积和池化层以及一个全连接的输出层组成,可以采用梯度下降法极小化误差函数对网络中的权值和阈值参数逐层反向调节,以得到网络权值和阈值的最优解,并可以通过增加迭代次数来提高网络训练的精度。
1.2.1 前向传播
在卷积神经网络的前向传播中,输入的原始图像经过逐层的卷积和池化处理后,提取出若干特征子图并转换成一维特征矢量,最后由全连接的输出层进行分类识别。
在卷积层中,每个卷积层都可以表示为对前一层输入图像的二维卷积和非线性激励函数,其表达式可用式(1)表示:
式中:Yj 表示输出层中第j 个输出;Y l + 1i 是前一层(l + 1层)
的输出特征(全连接的特征向量);n 是输出特征向量的长度;Wij 表示输出层的权值,连接输入i 和输出j ;bj表示输出层第j 个输出的阈值;f (?) 是输出层的非线性
1.2.2 反向传播
在反向传播过程中,卷积神经网络的训练方法采用类似于BP神经网络的梯度最速下降法,即按极小化误差的方法反向传播调整权值和阈值。网络反向传播回来的误差是每个神经元的基的灵敏度[12],也就是误差对基的变化率,即导数。下面将分别求出输出层、池采样层和卷积层的神经元的灵敏度。
(1)输出层的灵敏度
对于误差函数式(6)来说,输出层神经元的灵敏度可表示为:
在前向传播过程中,得到网络的实际输出,进而求出实际输出与目标输出之间的误差;在反向传播过程中,利用误差反向传播,采用式(17)~式(20)来调整网络的权值和阈值,极小化误差;这样,前向传播和反向传播两个过程反复交替,直到达到收敛的要求为止。
2 深层卷积神经网络的交通标志识别方法
2.1 应用原理
交通标志是一种人为设计的具有特殊颜色(如红、黄、白、蓝、黑等)和特殊形状或图形的公共标志。我国的交通标志主要有警告、禁令、指示和指路等类型,一般采用颜色来区分不同的类型,用形状或图形来标示具体的信息。从交通标志设计的角度来看,属于不同类型(不同颜色)的交通标志在形状或图形上有较大的差异;属于相同类型(相同颜色)的标志中同类的指示信息标志在形状或图形上比较接近,如警告标志中的平面交叉路口标志等。因此,从机器视觉的角度来分析,同类型中同类指示信息的标志之间会比不同类型的标志之间更易引起识别错误。换句话说,相比于颜色,形状或图形是正确识别交通标志的关键因素。
因此,在应用卷积神经网络识别交通标志时,从提高算法效率和降低错误率综合考虑,将交通标志转换为灰度图像并作二值化处理后作为卷积神经网络的输入图像信息。图2给出了应用卷积神经网络识别交通标志的原理图。该网络采用了6层交替的卷积层和池采样层来逐层提取交通标志的特征,形成的特征矢量由一个全连接的输出层进行识别。图中:W1i(i=1,2,…,m1),W1(j j=1,2,…,m2),…,W1k(k=1,2,…,m(n?1))分别表示卷积层L1,L3,…,Ln - 1 的卷积核;Input表示输入的交通标志图像;
Pool表示每个池采样层的采样池;map表示逐层提取的特征子图;Y 是最终的全连接输出。
交通标志识别的判别准则为:对于输入交通标志图像Input,网络的输出矢量Y = [y1,y2 ,…,yC ],有yj = Max{y1,y2 ,…,yC},则Input ∈ j,即判定输入的交通标志图像Input为第j 类交通标志。
2.2 交通标志识别的基本步骤
深层神经网络识别交通标志主要包括交通标志的训练与识别,所以将交通标志识别归纳为以下4个步骤:(1) 图像预处理:利用公式Gray= 0.299R +0.587G + 0.114B 将彩色交通标志图像转换为灰度图像,再利用邻近插值法将交通标志图像规格化,最后利用最大类间方差将交通标志图像二值化。
(2)网络权值和阈值的初始化:利用随机分布函数将权值W 初始化为-1~1之间的随机数;而将阈值b 初始化为0。
(3)网络的训练:利用经过预处理的交通标志图像构成训练集,对卷积神经网络进行训练,通过网络前向传播和反向传播的反复交替处理,直到满足识别收敛条件或达到要求的训练次数为止。
(4)交通标志的识别:将实际采集的交通标志图像经过预处理后,送入训练好的卷积神经网络中进行交通标志特征的提取,然后通过一个全连接的网络进行特征分类与识别,得到识别结果。
3 实验结果与分析
实验主要选取了我国道路交通标志的警告标志、指示标志和禁令标志三类中较常见的50幅图像。考虑到在实际道路中采集到的交通标志图像会含有噪声和出现几何失真以及背景干扰等现象,因此在构造网络训练集时,除了理想的交通标志以外,还增加了加入高斯噪声、经过位移、旋转和缩放处理和实际采集到的交通标志图像,因此最终的训练样本为72个。其中,加入的高斯噪声为均值为0,方差分别为0.1,0.2,0.3,图像的位移、旋转、缩放的参数分别随机的分布在±10,±5°,0.9~1.1的范围内。图3给出了训练集中的交通标志图像的示例。图4是在实际道路中采集的交通标志图像构成的测试集的示例。
在实验中构造了一个输入为48×48个神经元、输出为50 个神经元的9 层网络。网络的输入是像素为48 × 48 的规格化的交通标志图像,输出对应于上述的50种交通标志的判别结果。网络的激活函数采用S型函数,如式(2)所示,其输出范围限制在0~1之间。
图6是交通标志的训练总误差EN 曲线。在训练开始的1 500次,误差能迅速地下降,在迭代2 000次以后是一个平稳的收敛过程,当迭代到10万次时,总误差EN可以达到0.188 2。
在交通标志的测试实验中,为了全面检验卷积神经网络的识别性能,分别针对理想的交通标志,加入高斯噪声、经过位移、旋转和比例缩放以及采集的交通标志图像进行实验,将以上测试样本分别送入到网络中识别,表2给出了测试实验结果。
综合分析上述实验结果,可以得到以下结论:(1)在卷积神经网络的训练学习过程中,整个网络的误差曲线快速平稳的下降,体现出卷积神经网络的训练学习具有良好的收敛性。
(2)经逐层卷积和池采样所提取的特征具有比例缩放和旋转不变性,因此对于旋转和比例缩放后的交通标志能达到100%的识别率。
(3)与传统的BP网络识别方法[11]相比较,卷积神经网络能够达到更深的学习深度,即在交通标志识别时能够得到更高的所属类别概率(更接近于1),识别效果更好。
(4)卷积神经网络对实际采集的交通标志图像的识别率尚不能达到令人满意的结果,主要原因是实际道路中采集的交通标志图像中存在着较严重的背景干扰,解决的办法是增加实际采集的交通标志训练样本数,通过网络的深度学习,提高网络的识别率和鲁棒性。
4 结论
本文将深层卷积神经网络应用于道路交通标志的识别,利用卷积神经网络的深层结构来模仿人脑感知视觉信号的机制,自动地提取交通标志图像的视觉特征并进行分类识别。实验表明,应用深层卷积神经网络识别交通标志取得了良好的识别效果。
在具体实现中,从我国交通标志的设计特点考虑,本文将经过预处理二值化的图像作为网络的输入,主要是利用了交通标志的形状信息,而基本略去了颜色信息,其优点是在保证识别率的基础上,可以简化网络的结构,降低网络的计算量。在实际道路交通标志识别中,将形状信息和颜色信息相结合,以进一步提高识别率和对道路环境的鲁棒性,是值得进一步研究的内容。
此外,本文的研究没有涉及到道路交通标志的动态检测,这也是今后可以进一步研究的内容。
参考文献
[1] 刘平华,李建民,胡晓林,等.动态场景下的交通标识检测与识别研究进展[J].中国图象图形学报,2013,18(5):493?503.
[2] SAHA S K,DULAL C M,BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication,2012,50(10):35?41.
[3] STALLKAMP J,SCHLIOSING M,SALMENA J,et al. Man vs.computer:benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network,2012,32(2):323?332.
[4] 中国计算机学会.深度学习:推进人工智能梦想[EB/OL].[2013?06?10].http://ccg.org.cn.
[5] 郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175?184.
[6] FUKUSHIMA K. Neocognition:a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics,1980,36(4):193?202.
[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines,1989,86(11):2278?2324.
[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation,1989,1(4):541?551.
[9] CIRESAN D,MEIER U,MAsci J,et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works,2012,32(2):333?338.
[10] NAGI J,DUCATELLE F,CARO D,et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur:IEEE,2011,342?347.
[11] 杨斐,王坤明,马欣,等.应用BP神经网络分类器识别交通标志[J].计算机工程,2003,29(10):120?121.
[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http://cogprints.org/5869/.
[13] 周开利,康耀红.神经网络模型及其Matlab 仿真设计[M].北京:清华大学出版社,2005.
[14] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806?2810.
[15] 刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014(7):1921?1930.
关键词:模式识别卷积神经网络 google earth 应用
中图分类号:TP39 文献标识码:A 文章编号:1007—3973(2012)009—087—02
随着科技的进步,许多发明、电子产品使人们的生活更加方便。生活经常见到的有:笔记本电脑的指纹锁、数码相机的人像识别功能、电脑手写板、语音录入设备、门禁中的虹膜识别技术等等,这些设备与技术中都包含了模式识别技术。这些看似抽象的技术与算法正与其他技术一起悄然的改变人们的生活。
1 什么是模式识别
人们的许多感官功能看似简单,但用人工的办法实现却比较困难。人与人见面相互打招呼。在看见对方的面部后,人能够很快的认定这张脸是个人脸,而且我认识他,应该和他打招呼。这个看似简单的过程其实并不简单,我们不仅仅要识别五官,还要扫描轮廓,而且还要判断是否认识等等。可见,很多看似简单的认知过程,如果试图用某一方法描述确实不宜。对人脸进行模式识别就可以解决这个看似简单的问题。
模式识别(Pattern Recognition)是指通过用计算机对事物或现象的各种形式的(光信息,声信息,生物信息)信息进行处理和和判读,以对事物或现象进行描述、辨认、分类和解释的过程,是人工智能的和信息捕获的重要组成部分。现在被广泛应用于计算机视觉,自然语言处理,生物特征识别,互联网搜索等领域。
2 模式识别与google earth卫星照片
在卫星图片中识别特定的目标,如道路,湖泊,森林等等,往往要运用模式识别技术,现在较为主流的是神经网络识别。上一代的技术室根据RGB提取的,在提取森林或湖泊的时候,有很多干扰颜色,对卫星照片精度有很高要求。根据RGB提取效果不是十分理想,而且计算量大,对硬件有一定要求。
随着神经网络识别技术的发展,现在计算机可自动识别目标。不必使用特殊的卫星波段影像,小型机计算,只要从GOOGLE EARTH获取的普通卫星影像就可以自动识别了。
Google Earth是Google公司开发推出的一款虚拟地球仪软件,它把卫星照片、航空照相布置在一个地球的三维模型上,是一款全球地图集成软件。Google Earth与模式识别技术的综合运用,使其卫星图片在道路规划,通信线路管理,土地勘察,遥感探测等等行业有着很大的运用。
在实际情况下对卫星图片进行模式识别,实现起来有许多困难,光线条件、大地背景、大气云层情况影响以及由于拍摄角度或空气密度等原因导致照片的被照物体的几何变形等都会对识别效果有直接影响。这些都对识别算法要求很高。本文选用的神经网络识别方法,具有识别率高、对不规则物体识别效果好等优点,被广泛运用在许多领域。本文使用改进的卷积神经网络对google earth 卫星图片进行处理,几乎不用对照片进行预处理。这大大节省了运算时间,而且避免了二次处理后对原始文件的污染,大量原始信号被最大程度地保留。
3 模式识别与卷积神经网络
卷积神经网络CNN(Convolutional Neural Networks)是近年发展起来并引起广泛重视的一种高效识别方法。神经网络是受动物神经系统启发,利用大量简单处理单元互联而构成的复杂系统,以解决复杂模式识别与行为控制问题。目前,CNN已经成为国内外科学家研究的重点方向,特别是在模式识别领域。它的优点是不需要对图像进行复杂的预处理,成为大家广为使用的方法。CNN的基本结构一般包括两层:(1)特征提取层。每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,与其他特征间的位置关系也随之确定下来。(2)特征映射层。网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。
4 卷积神经网络在卫星图片识别中的应用
为提高google earth卫星照片中目标的识别率,创造性使用卷积神经网络进行模式识别,其主要部分基本设计结构如图1所示。
图1中,整个结构模仿动物的神经结构,大量的单一识别单元被关联成一个网路。 C层则是由复杂(complex)神经元组成的神经层,它的输入连接是固定的,不可修改,显示接收信心被激励位置的近似变化。网络中C层的最后一层为识别层,显示模式识别的结果。S层为简单(simple)神经元组成的神经层,完成主要信息提取,其输入连接是不是固定的,可在训练的过程中不断修改。这个系统进过不断的训练,输入照片的格式和大小会自动地被识别,大大节省了前期的工作时间,提高了识别速度。
在训练集中同时需要常规积极样本和消极样本,样本包括卫星图片中房屋和道路的1000个图像目标积极训练集。大多数基于学习方法的目标物体识别使用一个大约为10?0的最小输入窗口,好处是可以做到不遗漏任何重要信息。为了达到稳定的效果,对所有原有的训练样进行色彩转换和对比还原转换,得到的积极样本训练集有2400个目标样本。
5 实验结果
分两个步骤进行试验,第一步对卫星图片进行定位和裁剪等预处理,第二步选取合格卫星图片200个样本图片训练卷积神经网络,训练后得到各层3个主要数据:阈值、权值及神经元细胞平面数,然后使用优化后的神经网络识别机对200个测试样本进行检查,其正确的识别率达到97%。实验要注意训练的时间,系统过度训练后,识别率会不断提高,但训练时间的不断增加,测试失败率到最小值后出现及其微细震荡,造成识别率的小幅波动。(见图2)
实验表明,卷积神经网络应用于卫星图片目标识别是完全可行的,训练样本越丰富则则识别率越高。与传统模式识别方法相比有更高的识别率和抗干扰性。本文采用一种改进的基于卷积神经网络的识别机制对卫星照片中的目标物体进行识别。该识别方法通过对目标物体图片的学习,优化了系统中的关键参数的权值。大大提高了目标物体的识别率。
参考文献:
[1] 高隽.智能信息处理方法导论[M].北京:机械工业出版社,2004.
[2] 高隽.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2003.
[3] 边肇祺.模式识别[M].北京:清华大学出版社,1987.
关键词:物联网;人脸识别;视频网络
1物联网及人脸识别视频网络技术的发展
1.1物联网视频网络技术的发展状况
最近几年,随着物联网技术、图像处理技术以及数据传输技术的快速发展,视频网络技术应运而生并取得了长足的发展。当前,视频网络系统作为一种模拟数字控制系统,其具有非常成熟和稳定的性能,已广泛应用于实际工程中。虽然数字系统发展迅速,但尚未完全形成相应的体系,因此,混合数字和模拟应用程序逐渐迁移到数字系统将成为未来发展的主要趋势之一。当前,国内外市场上主流的产品主要有两种,即模拟视频数字网络系统、数字视频网络系统。前者技术先进,性能稳定,被广泛应用于实际工程应用中,特别是大中型视频网络项目。后者作为一种新兴技术,是一种通过以计算机技术和视频压缩为核心的新型视频网络系统,其有效的避免了模拟系统所存在的一些弊端,但未来仍需要进行不断的改进和发展。外部集成、视频数字化、视频网络连接、系统集成是未来视频网络系统发展的重要研究方向。数字化是网络的前提,而网络是系统集成的基础。因此,视频网络领域的两个最大发展特征是:数字化和网络化。
1.2人脸识别视频网络的发展状况
人脸识别技术作为模式识别领域中的一项前沿课题,截止目前,已有三十多年的研究历史。人脸识别目前是模式识别和人工智能的研究热点,目前主要采用AdaBoost分类器进行人脸区域的检测,人脸识别研究的内容大致分为以下内容:(1)人脸检测:其指的是在不同场景下的人脸检测及其位置。人脸检测是通过在整个输入的图像中找到一个合适的人脸区域为目的,并将该图像分为人脸区域和非人脸区域两部分。在实际的某些理想情况下,由于可以人为手动控制拍摄环境,因此,可以轻松确定人脸的位置;但是在大多数情况下,由于场景更加复杂,因此,人脸的位置是未知的。因而在实际的人脸识别视频网络过程中,首先必须确定识别场景中是否有人脸的存在,如果存在人脸,再进一步确定图像中人脸的具体区域。(2)人脸识别:将系统检测到的人脸特征信息与系统数据库中存在的已知人脸信息进行充分识别与匹配,以此获取相关信息,该过程的本质是选择正确的人脸模型和匹配策略。在实际生活的应用当中,由于成人的面部模型处于不断变化当中,且容易受到时间、光线、相机角度等方面的差异,因而很难用一张图纸表达同一个人的面部图像,这使得提取特征变得困难,由于大量的原始灰度图像数据,神经元的数量通常很大并且训练时间很长。除此之外,完全依赖于神经网络的识别方法具有当前计算机系统固有的局限性,尽管神经网络具有很强的感应能力,但是随着样本数量的增加,其性能可能会大大降低。简而言之,由于年龄,表情,倾斜度和其他表征对象的因素的多样性,很难进行人脸识别,因此,识别该对象的效果仍远未达到现实。目前,普遍采用AdaBoost算法来对出现在视频中的人脸区域进行检测,以此达到实时获取人脸图像的目的,AdaBoost算法的原理是通过训练得到多个不同的弱分类器并将这些弱分类器通过叠加、级联得到强分类器,AdaBoost算法流程如图1所示。(3)表情分析:即对面部表情信息(幸福,悲伤,恐惧,惊奇等)进行分析和分类。当前,由于问题的复杂性,正在对面部表情的分析进行研究,它仍处于起步阶段。心理学表明,至少有六种与不同面部表情相关的情绪:幸福,悲伤,惊奇,恐惧,愤怒和恶心。即与没有表情的面部特征相比,这六个表情的面部特征具有相对独特的运动规则。(4)生理分类:分析已知面孔的生理特征,并获得相关信息,例如种族、年龄、性别和职业。显然,此过程需要大量知识,通常非常困难和复杂。
2物联网卷积神经网络人脸识别方法分析
卷积神经网络是专门设计用于识别二维形状的多层感知器。通常,可以使用梯度下降和反向传播算法来训练网络。从结构上讲,卷积神经网络包含三个概念:局部感受野、权重共享和下采样,使其在平移,缩放,倾斜或其他形式的变形中相当稳定。当前,卷积神经网络被广泛用于模式识别,图像处理和其他领域。卷积神经网络(CNN)用于提取目标人脸图像的特征。训练网络后,将先前测试的模型用作面部分类器,微调可以缩短网络模型的训练时间。卷积神经网络的基本体系结构是输入层,卷积层(conv),归约层(字符串),完全连接层和输出层(分类器)。通常有多个卷积层+速记层,此程序实现的CNN模型是LeNet5,并且有两个“卷积+下采样层”LeNetConvPoolLayer。完全连接的层等效于MLP(多层感知器)中的HiddenLayer。输出层是一个分类器,通常使用softmax回归(有些人称为直接逻辑回归,它实际上是多类逻辑回归)。LogisticRegression也直接提供了该软件。人脸图像在视频监控中实时发送到计算机,并且面部区域部分由AdaBoost算法确定。在预处理之后,将脸部图像注入到新训练的预训练模型中进行识别。该过程如图2所示。
3物联网人脸识别视频网络多目标算法优化
多目标优化问题的实质是协调并在各个子目标之间达成折衷,以便使不同的子目标功能尽可能地最佳。工程优化的大多数实际问题都是多用途优化问题,目标通常相互冲突。长期以来,多目标优化一直受到人们的广泛关注,现在已经开发出更多的方法来解决多目标优化问题。如果多标准优化没有最差的解决方案,那么通常会有无限多的解决方案,这并不是最差的解决方案。解决面部强调时,人们不能直接应用许多次等解决方案。作为最后的决定,我们只能选择质量不是最低,最能满足我们要求的解决方案。找到最终解决方案的方法主要有三种。因此,只有通过找到大量有缺陷的解决方案以形成有缺陷的解决方案的子集,然后根据我们的意图找到最终的解决方案。基于此,多目标算法是通过将多准则问题转变为一个关键问题,这种方法也可以视为辅助手段。这种方法的棘手部分是如何获取实际体重信息,至于面部特征,我们将建议一种基于权重的多功能优化算法,该算法可以更好地反映脸部的特征。我们将人脸的每个特征都视为多个目标,并且在提取面部特征时,面部特征会受到外界的强烈影响,例如位置,光照条件和强度的变化,并且所有部位和每个部位都会受到影响。因此,我们可以使用加权方法从每个受影响的分数中提取不同的权重。通过开展试验测试,结果表明,在有多目标优化的算法的作用下,比在没有多目标优化的算法作用下人脸识别效果有所提高,大约提高了5—10个百分点。
4结论
鉴于多准则优化算法在科学研究的各个领域中的广泛使用,本文提出了一种多准则优化算法来对复杂的多准则人脸图像上的各种面部特征进行特征提取的多准则优化,以达到提高人脸识别率的目标、提高整个人脸识别视频网络系统的性能。
参考文献
[1]江斌,桂冠.基于物联网的人脸识别视频网络的优化方法研究[C]//物联网与无线通信-2018年全国物联网技术与应用大会论文集.2018.
[2]余雷.基于物联网的远程视频监控优化方法研究[J].科技通报,2014(6).
[3]张勇.远程视频监控系统的传输技术的实现[D].电子科技大学,2011(9)
关键词:卷积神经网络;反向传播算法;仿射变换;sloth;python;theano
中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2017)04-0096-02
随着环保压力的增大,各国已经开始利用摄像头来监控渔船的捕捞活动,并运用机器学习技术来对渔船捕获的鱼类图像进行自动的识别与分类从而扼制非法的捕捞。
目前计算机性能的飞速发展、图像数据采集设备的廉价与普及促进了机器学习理论与方法的发展,数据科学家已经可以构建复杂的机器学习模型并利用从廉价的数码摄像头设备采集到大量的数据快速的训练模型。吴一全等[1]采用了手动选择特征的方法, 基于支持向量机对5种鱼进行识别,各类鱼的识别精度平均为83.33%。万鹏等[2]计算鱼的长轴方向各段的平均宽度与长度的比值并将其作为特征参数,利用3层BP(back propagation)神经网络对鲫鱼和鲤鱼进行识别,识别精度为92.50%。但是这些方法都是基于手动选择特征的机器学习方法,手动选择特征的方法基于人的经验选择特征, 会导致遗漏重要的特征, 导致分类准确率低。深度学习中的卷积神经网络能在训练过程中自动学到“好”特征,避免了手动选择特征。本次研究采用了基于VGG16的卷积神经网络(CNN)来进行鱼类分类,并运用了数据集扩增方法,dropout方法, batch normalization方法来降低模型的过拟合。但是原始数据集背景干扰很大,船上的人、物体和甲板上捕获的鱼类糅合在一起,直接采用原始数据集训练会导致训练出的模型稳定性不好。
基于上述分析,本文从原始数据出发,设计了一种目标检测方法,即在原始训练数据已经有鱼类类别标签的基础上,再标注上一层表示鱼类在图片中坐标位置的标签,然后利用这些二次标注过的数据训练模型,就可得到一个既能预测鱼在图片中的坐标位置又能预测鱼的分类的糅合模型。因为这两种预测网络在卷积层共同训练一套滤波器,所以在训练滤波器预测鱼的坐标位置时,训练完成的滤波器便能在另一方面辅助预测鱼的分类,使特征提取只专注于鱼的坐标区域,这样就有效的排除了背景干扰。实验结果显示此模型具有很高的识别精度和鲁棒性,能在背景干扰很强的图片数据集上准确的完成鱼类的识别和分类。
1 模型构建
实验数据来源于某组织举办的图像识别竞赛。数据通过固定在渔船某个位置的摄像头采集,通过采集甲板上捕获的鱼类照片,共采集到3777张共8个分类的照片作为训练样本,分别为长鳍金枪鱼、大眼金枪鱼、黄鳍金枪鱼、鳅鱼、月鱼、鲨鱼、其他、无鱼类(表示没有鱼出现在照片里)。按一定比例做分层采样,其中2984张用作训练集,394张用作验证集,399张用作测试集。训练集用经过错切幅度值为0.15的仿射变换作数据集扩增来降低过拟合,因为在从原始数据集上分层采样得来的小样本数据集上验证显示当错切幅度值等于0.15时,模型在测试集上的分类精度最高。
在训练集上采用sloth@款图片标注工具手动标注鱼类在图片中的位置,并把这些标注结果和已有的鱼类分类标注结果当做输入数据和图片数据一起传给模型训练。
本次研究的神经网络模型结构如图1所示。卷积层采用了被广泛使用在图像分类任务中的VGG模型的卷积滤波器的权重[3],并在其模型上作微调来实现本次研究的目标。
输入层将不同尺寸的图片统一转换成244*244大小。
汇合层(max pooling)是指取一小块像素区域的像素最大值,作用是可减少数据量,控制过拟合。
全连接层的权重采用反向传播算法(back propagation)训练,参数寻优采用随机梯度下降方法。动态学习率设定方法采用了 Adam方法,可根据损失函数在迭代训练中产生的信息自动调整学习率。
激活层函数采用RELU方法,公式为。最后一层预测鱼类分类的激活曾需要把对应于各个分类的分数值转换成总和为1的对应于各个分类的概率值,所以激活函数采用Softmax方法,公式如下
由于卷积神经网络网络强大的表示能力,为了降低模型的过拟合以及加快模型的训练速度,本次工作在激活曾后面再依次加入一层dropout层和batch normalization层。dropout层是指随机的舍弃一部分激活曾神经元的值,并将其置为0[4]。batch normalization层是指规范化每层激活层的输出,并加入4个规范化参数来抑制模型训练过程中的反规范化现象[5]。
2 程序实现
具体的软件实现采用python编程语言和keras框架平台。keras底层采用轻量易用的theano框架,并依赖计算机的显卡来进行更快速的训练工作。整个图像分类的软件框架主要由4部分组成,分别是输入图像数据处理、模型各个网络层的实现及拼接、模型编译、模型训练及预测。下面按数据在模型中流动的顺序具体的阐述各个部分的程序实现。
2.1 输入图像数据处理