前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇深度神经网络综述范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
【关键词】人工智能 图像识别 深度学习
1 概述
图像识别技术是人工智能研究的一个重要分支,其是以图像为基础,利用计算机对图像进行处理、分析和理解,以识别不同模式的对象的技术。目前图像识别技术的应用十分广泛,在安全领域,有人脸识别,指纹识别等;在军事领域,有地形勘察,飞行物识别等;在交通领域,有交通标志识别、车牌号识别等。图像识别技术的研究是更高级的图像理解、机器人、无人驾驶等技术的重要基础。
传统图像识别技术主要由图像处理、特征提取、分类器设计等步骤构成。通过专家设计、提取出图像特征,对图像M行识别、分类。近年来深度学习的发展,大大提高了图像识别的准确率。深度学习从大量数据中学习知识(特征),自动完成特征提取与分类任务。但是目前的深度学习技术过于依赖大数据,只有在拥有大量标记训练样本的情况下才能够取得较好的识别效果。本文认为研究如何在标记数据有限的情况下继续利用深度学习完成物体识别任务具有重要意义。这也是未来人工智能研究的重要方向之一。
2 传统图像识别技术
传统的图像识别技术包括:图像获取、预处理、特征提取、分类。在图像输入后,需要先对图像进行预处理。一幅标准灰度图像,如果每个像素的像素值用一个字节表示,灰度值级数就等于256级,每个像素可以是0~255之间的任何一个整数值。一幅没有经过压缩处理的640×480分辨率的灰度图像就需要占据300KB的存储空间。通常我们需要将图片的亮度及对比度调整合适,才能使图片更加清晰、便于观察。
许多采集到的图片带有或多或少的噪声,需要对图片的噪声进行消除。对图片噪声的消除可以使用不同的去噪方法,如中值滤波、算数平均滤波、平滑线性滤波和高斯滤波等。不同滤波器分别适用于不同情况的噪声。如椒盐噪声便适合使用中值滤波器,高斯噪声便适合使用平滑线性滤波和高斯滤波。有时候,我们需要对图像细化处理(如指纹细化,字符细化等),以便获取主要信息,减少无关信息。细化操作,可以得到由单像素点组成的图像轮廓,便于后续特征提取操作。
基本的图像特征提取包括边缘、角点等提取。一般使用不同的特征提取算子结合相应的阈值得到这些关键点。另一类在频域中进行特征提取的方法主要是通过傅里叶变换,将图像基于频率分为不同的部分,从而可以在频谱中反映出原始图像的灰度级变化,便可得到图像的轮廓、边缘。
在完成图像的预处理和特征提取之后,我们便能够对图像进行识别、分类。常用的分类器有K-近邻(KNN),支持向量机(SVM),人工神经网络(ANN)等等。K-近邻算法原理是,当一个样本的k个最相邻的样本中大部分属于某一类别时,该样本也应当属于同一类别。支持向量机是通过寻找支持向量,在特征空间确定最优分类超平面,将两类样本分开。人工神经网络模仿生物大脑中的神经网络结构,通过误差反向传播不断优化参数,从而得到较好的分类效果。
3 基于深度学习的图像识别技术
一般认为深度学习技术是由Hinton及其学生于2006年提出的,其属于人工神经网络分支。深度神经网络模仿人脑的神经机制来分析样本,并尽可能地对样本的特征进行更深度的学习。以图片为例,利用深度学习技术对样本的特征进行学习时,由低层特征到高层特征越来越抽象,越来越能表达语义概念。当样本输入后,首先对图像进行卷积与下采样操作,卷积和下采样操作是为了进行特征提取和选择。以原始像素作为输入,深度学习技术可以自动学习得到较好的特征提取器(卷积参数)。深度学习的训练过程,首先将当前层的输出作为下一层的输入,进行逐层分析,使得每一层的输入与输出差别尽可能小。其后,再联合优化,即同时优化所有层,目标是分类误差最小化。
传统的深度神经网络往往网络中的节点数太过庞大,难以训练。人们构造出卷积神经网络,以权值共享的方式减少了节点数量,从而能够加深学习的深度,使系统能学习到更抽象、更深层的特征,从而提高识别正确率。目前较成功的深度学习网络结构有AlexNet、GoogLeNet、ResNet等。
与传统识别技术相比,深度学习技术具有以下优势:
(1)无需人工设计特征,系统可以自行学习归纳出特征。
(2)识别准确度高,深度学习在图像识别方面的错误率已经低于人类平均水平,在可预见的将来,计算机将大量代替人力进行与图像识别技术有关的活动。
(3)使用简单,易于工业化,深度学习由于不需要领域的专家知识,能够快速实现并商业化,国内较知名的深度学习创业公司有专注人脸识别的Face++、研究无人车的驭势科技等。
4 存在问题与未来展望
虽然深度学习具备诸多优点,但目前来看深度学习仍有许多不足之处。首先,由于深度学习模型为非凸函数,对其的理论研究十分困难,缺乏理论保证。在对数据进行调整时,仍是简单的“试错”,缺少理论支撑。
同时,由于深度学习过于依赖数据量和计算资源。对一个新概念的学习,往往需要数百个甚至更多有标记的样本。当遇到有标记的样本难以获取或者代价太大时,深度学习就无法取得好的学习效果。并且深度学习需要十分昂贵的高性能GPU,这使得深度学习难以平民化。目前深度学习训练速度较慢,往往需要几天甚至一个月。其模型扩展性差,缺少“举一反三”的能力,样本稍加变化,系统性能便会迅速下降。目前的深度学习属于静态过程,与环境缺乏交互。
对其的解决方案目前主要有两点:
(1)针对于模型扩展性差的问题,通过引入迁移学习,研究不同任务或数据之间的知识迁移,提高模型的扩展能力、学习速度,同时降低学习成本,便于冷启动。
(2)与强化学习结合,研究在动态环境下进行深度学习,提高深度学习与环境交互的能力。
参考文献
[1]蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016:113-122.
[2]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000:885-894.
[3]梅园,赵波,朱之丹.基于直线曲线混合Gabor滤波器的指纹增强算法[J].计算机科学,2016.
[4]孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012:2806-2810.
[5]庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015:26-39.
[6]高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004:86-100.
关键词:卷积神经网络;深度学习;年龄分类
0引言
人脸作为人类个体鲜明显著的生物特征之一,包含着丰富的个人信息。随着计算机视觉和机器学习技术的发展,相关的人脸识别等技术已成为这些项目任务的热点课题,并在法医、电子化客户关系管理、安防、生物识别和娱乐影音等诸多领域中得到广泛应用。人脸除了可进行身份认证和识别外,还可以提取出性别、种族和年龄等信息,特别是可以将年龄及分布特征用于人机交互和商业智能等应用中,因此年龄估计研究具有重要的科学意义和实用价值。
相对于人脸识别,人脸所能表征的年龄信息要受到很多因素的影响,例如不同个体的基因差异、生活习惯、环境、抗压能力、健康情况和种族差别等有很大的关系。同时,相同个体因发型、化妆和表情的不同也会影响年龄的估计。因此,如果要基于传统的分类算法(如支持向量机)并利用人脸图像信息来进行年龄分类将很难得到理想的结果。针对这些问题,目前的研究还相对不足,如果能有效解决上述问题,对大部分潜在的应用领域也都将带来深刻的影响。
1相关工作
年龄分类的主要流程是先根据人脸图像获取特征,再通过机器学习方法构建模型,通过把年龄分为多个年龄区段,即每个年龄段对应一个类别(比如未成年或成年人等)。因此可以把年龄分类看成是一个二分类或者多分类的分类问题来进行求解。1994年,Kwon和Lobo则从人脸图像中获取年龄分类,把人分为3种不同的类别,也就是儿童、青年人和老年人,强调重要特征点的选择。2002年Lanitis等人提出了能自动对年龄实现估计的年龄量化方法。而且,王先梅等的综述中也整体梳理了相关年龄估计技术的研究发展。王绍宇等人还基于SMV采用生物特征对人进行分类,分为小孩和成人。此外在2016年,董远等人更将迁移学习和卷积神经网络用于人的年龄和性别分类。
关键字:计算机视觉;作物病害诊断;进展;模式识别
中图分类号:TP311 文献标识号:A 文章编号:2095-2163(2015)02-
The Research Development of Computer Vision in the Plant Disease Diagnosis
PU Yongxian
(Computer Science Dept .Dehong Teachers'college, Dehong Yunnan 678400, China)
Abstract: according to the statistics, crop yield loss caused by disease in more than 12% on average, disease occurs not only affect the production, also decreased the quality of the product. Research by computer vision technology realizes fast and accurate diagnosis of crop disease, and provides scientific basis for disease prevention and control, which is the urgent demand of agricultural informatization development. Articles on computer vision technology is applied to the crop disease diagnosis has carried on the detailed analysis and research, in order to get these new technologies in the current situation of crop disease diagnosis each link, points out the shortages of computer vision in the diagnosis of crop diseases and research direction. The study on the development of crop disease intelligent detection technology will play an important role.
Key words:Computer Vision; Crop Disease Diagnosis; Progress; Pattern Recognition
0引言
在作物生产中,病害是制约作物质与量的重要因素。病害发生,往往致使作物的使用价值降低,甚至还会导致大面积减产,乃至绝收,造成巨大的经济损失。因此,在作物生长过程中,病害防治是个关键的问题之一。因各种原因植保人员匮乏,而种植户个体素质差异及受一些主观人为因素的影响,对作物病害诊断存在主观性、局限性、模糊性等,不能对作物病害的类型及受害程度做出客观、定量的分析与判断,结果要么是药量不对、要么是药不对症,严重影响了作物的质与量。
计算机视觉也称为机器视觉,是研究如何用计算机来模拟和再现人类视觉功能的科学,也被称为图像理解和图像分析,是人工智能领域的一个重要分支。随着计算机技术、图像处理和人工智能等学科的发展,以及数码相机、手机等摄像工具像素的提高,将机器视觉用于作物病害诊断,实现作物病害的无损检测、快速诊断提供了新的途径和方法[1]。报道最早的是在1989年穗波信雄等人[2]对采集的缺乏钙、铁、镁营养元素的茨菇叶片图像进行研究,在RGB模型中,利用直方图分析了正常和病态的颜色特征。为适应农业信息化的迫切需求,国内外学者对机器视觉用于作物病害诊断进行了研究和实践,而取得进展主要集中在近10年,涉及的作物有水稻、玉米、小麦、葡萄、黄瓜、甘蔗、蔬菜等病害[3-14],这些研究针对不同作物,从不同侧面为作物病害实现自动化诊断提供了理论和实践基础。因机器视觉比人眼能更早发现作物因病虫危害所表现的颜色、纹理、形状等细微变化,所以利用这种技术病害病害与人工方式相比,提高了诊断的效率和精准度,为作物保护智能化、变量喷药等提供了科学依据。
本文综述和归纳了机器视觉诊断作物病害的主要技术:病害图像采集、增强处理、病斑分割、特征提取、特征优化、病害识别等各环节的方法及现状,指出了机器视觉诊断作物病害存在的不足和研究方向。该研究对实现作物病害的机器视觉诊断技术的发展将起到重要的推动作用。
1机器视觉识别作物病害的技术路线与进展
作物病害因其病原物种类不同会产生形状、颜色、纹理等不同的病斑,通常专业植保技术人员就是根据这些特征判断病害的。机器视觉诊断作物病害是通过无损采集病害图像,利用图像处理技术对图像增强处理、分割病斑,提取病斑特征、优化特征,用模式识别技术诊断病害类别及危害程度,从而为病害的防治提供科学依据。图1为机器视觉诊断作物病害的技术路线图。
图1机器视觉识别作物病害技术路线图
Fig 1 Technology roadmap of machine vision recognition crop diseases
1.1病害图像采集与增强处理
(1)病害图像采集方法。图像采集是病害识别的第一步,采集的质量会直接影响识别结果。常用采集设备有数码摄像机、扫描仪、数码相机、手机等。其中,数码相机便于携带,能满足图像清晰度要求,符合野外作业等特点,因此病害图像采集中用得较多。依据采集环境氛围分为室内采集和室外(田间)采集两种。室内采集是将田间采摘到的病害标本经密封保湿后使用CCD摄像机或数码相机在室内摄取病害的标本图像。在田间采集图像中,有学者为了采集到高质量的图像,采取了一系列措施以减少外界因素的影响。如陈佳娟[5]采用便携式扫描仪采集图像,以减少自然光照对图像质量的影响。徐贵力等人[6]设计了活体采光箱,使照射光变成反射光,从而避免了阴影,以减少误差。这种规范图像采集方式虽简化了后期图像处理和识别的难度,但基层生产单位可能缺乏配套的技术设备,且会使病害识别过度依赖图像。为扩展应用范围和通用性,有学者对在田间自然光照射下直接获取的病害图像,用图像处理和模式识别技术诊断病害进行了研究,如李宗儒[7]用手机拍摄了苹果的圆斑病、花叶病等5种病害图像,对病害图像增强处理、分割病斑,提取病斑特征,用BP神经网络识别病害,获得了较好效果。姜武[8]用Canon EOS 50D相机在阳光充足的早晨拍摄山茶叶片图像,进行颜色分形和RGB强度值提取,用支持向量机对山茶分类识别,取得了较好效果。
(2)图像增强方法。在采集图像过程中,因受设备、环境等因素影响,往往使采集到的图像含有噪声,若不对其增强处理会影响到病害的正确识别率。病害图像增强是为病斑分割,特征提取做准备,所以应确保在去除噪声的同时,保证病斑边缘不模糊。图像增强处理根据其处理的空间不同,分为空域法和频域法。空域法是对图像本身直接进行滤波操作,而频域法是对图像进行转化,将其转化到频率域中去噪处理,之后再还原到图像的空间域。图像增强处理常用方法有:直方图均衡化、对比度增强、均值滤波、中值滤波、高斯滤波、锐化等。王静[9]利用数码相机采集了赤星病与野火病两种病害图像80幅,采用灰度图像直方图均衡化及中值滤波两种方法对图像增强处理,实验表明,中值滤波去噪效果最好,在保留图像病斑边缘信息的同时,使病斑轮廓与细节更加清晰,便于后期病斑分割及特征提取。刘芝京[10]采集黄瓜早、中、晚期的角斑病病害图像,分别用均值滤波、中值滤波、高斯滤波等对图像处理,实验表明这些去噪方法中,高斯滤波效果最好。
1.2病斑特征获取
(1)病斑分割
计算机视觉主要是依据病斑的特征信息诊断病害类别及危害程度的。因此,彩色病斑的准确分割,是后期提取病斑特征,病害类别的客观、准确诊断的关键环节之一。当前针对作物病害图像分割算法有阈值分割、空间聚类、区域分割、边缘检测分割、计算智能方法等。由于作物病害图像存在背景复杂、病斑区域排列无序、颜色、纹理分布不均、病斑边界模糊、叶片表面纹理噪声等干扰,因此尚无一种鲁棒性好,且简单适用的通用方法,也还没有一种判断分割是否成功的客观标准。近年来学者们对作物病害图像的分割进行了大量研究,试图寻找一种更具潜力的分割算法,以期获得更完美,通用的分割方法。赵进辉等人[11]分析了甘蔗病害图像的颜色与形状特征,采用面积阈值及链码分割赤腐病和环斑病病斑,收到了较好的效果。管泽鑫等人[12]提取水稻病斑与斑点外轮廓颜色,用最大类间方差法(Otsu[13])分割病斑,取得了较好的效果。邵庆等人[14]以小麦条锈病为例,对获取的小麦病害图像采用迭代阈值分割和微分边缘检测分割病斑。温长吉等人[15].用改进蜂群算法优化神经网络实现玉米病害图像分割。祁广云等[16]采用改进的遗传算法及BP神经网络对大豆叶片病斑分割,能有效提取病斑区域。毛罕平等人[17-18]利用模糊C均值聚类对棉花、玉米病害图像的病斑进行分割。张飞云[19]采用K-means硬聚类算法对玉米叶部病害图像分割,得到彩色病斑。张芳、仁玉刚[20-21]用采分水岭算法分割黄瓜病害图像,正确率均在90%以上。刘立波[22]对水稻叶部病害图像的分割进行研究,结果证明,模糊C均值聚类法的分割效果较好,但速度欠佳,Otsu法分割效果略差,但速度较快。濮永仙[23]利用支持向量机检测烟草病斑边缘,以分割彩色病斑。石凤梅等人[24]利用支持向量机分割水稻稻瘟病彩色图像病斑,其分割效果优于Otsu法。
(2)病斑特征提取
计算机视觉识别作物病害用到的特征主要有颜色、纹理、形状等特征。颜色是区分病害类别的重要特征,有RGB、HSI、Lab、YUV等7种颜色空间模型,可得到颜色特征值和颜色特征差异,而模型的选择会影响到病害识别效果。纹理是指图像中反复出现的局部模式及排列规则。作物病害图像正常与病变部分的纹理在粗细、走向上有较大差异。纹理特征有基于灰度直方图的统计测度,基于灰度共生矩阵的纹理特征和基于游程的纹理描述特征。提取纹理特征的方法有分形维数、小波变换、Gabor小波变换、局域二值模式,以及Gabor分块局域二值模式方法等。形状常与目标联系在一起,形状特征可以看作是比颜色和纹理更高层的特征,它能直观描述目标和背景之间的区别,不同病害的病斑在尺寸大小、似圆性、长短轴等方面有不同特性,对旋转、平移有很强的稳定性。提取病斑形状特征的方法有弗里曼链码法,傅里叶描述子,多尺度曲率空间方法等。王美丽等人[25] 在HSV颜色空间提取小麦白粉病和锈病病害图像的颜色和形状特征,对病害进行识别,识别率达96%以上。蔡清等人[26]对虫食菜叶图像处理后,提取其形状的圆形度、复杂度、球形度等7个特征,用BP神经网络识别病害。王克如[27]提取玉米病害图像中纹理特征的能量、熵及惯性矩作为识别病害的特征,实验得出,以单个特征识别正确识别率达90%,综合应用三个纹理特征,识别率达100%。田有文等人[28]提取葡萄叶部病斑的颜色、纹理、形状特征,用支持向量机识别,实验表明,综合应用三种特征的识别率比只用单一特征的识别高。李旺[29]以黄瓜叶部3种常见病害图像为研究对象,提取病斑颜色、纹理和形态特征总共14个特征,用支持向量机识别,实验表明,分别以颜色、纹理、形状特征识别,识别率分别为72.23%、90.70%、90.24%,综合3种特征识别率为96.00%。
(3)特征优化
特征优化是指在特征提取完成后,将特征因子中对识别病害贡献低的因子丢弃,以确保在降低特征维度的同时,能提高病害的识别率。常用的特征优化方法有:逐步判别法、主成分分析法、遗传算法等。实践证明,优化后的特征能更好的表征病害,能在特征减少的情况下提高诊断的正确率。管泽鑫等人[12]提取水稻3种常见病害图像的形态、颜色、纹理共63个特征,用逐步判别法对特征优化,用贝叶斯判别法识别病害,可使特征数减少到原来的35.2%,而病害准确识别率达97.2%。柴洋等人[30]提取了番茄早疫病、晚疫病等4种叶部病害图像的颜色、纹理和形状共18个特征,用逐步判别法优化,最终选取12个特征,用主成分优化后综合成2个新变量,分别用贝叶斯判别法和用费歇尔判别函数识别病害,均取得了较好的效果。陈丽等人[31]提取了玉米5种叶部病害图像病斑特征,用遗传算法优化特征,用概率神经网络识别病害,识别率为90.4%。彭占武[32]提取了黄瓜6种常见病害图像的颜色、纹理、形状特征14个,用遗传算法优化得到8个特征,用模糊识别模式识别病害,其识别率达93.3%。濮永仙[33]提取了烟草常见病害图像的颜色、纹理及形态共26个特征,用双编码遗传算法与支持向量机结合优化特征,最后得到16个特征,该方法与没有采用遗传算法的支持向量机识别相比,在同等条件下,特征向量减少了38%,正确率提高了6.29%。所谓双编码遗传算法,即二进制编码和实数编码结合,支持向量机作为底层分类器,分类精度作为遗传算法的适应度对个体进行评估,在去除冗余特征的同时为保留的特征赋予权重,如图2所示。韩瑞珍[34]提取了害虫的颜色、纹理特征共35个,用蚁群算法对特征优化,将35个特征降低到29个,识别准确率从87.4%提高到89.5%。
图2双编码遗传算法中的个体
Fig 2 Individual in the double coding genetic algorithm
1.3病害模式识别
模式识别也叫模式分类,指依据输入的原始数据,判断其类别并采取相应的行为[35]。病害模式识别的任务是依据特征数据由分类器完成分类的,分类器设计和特征描述共同决定了模式识别系统的性能。用于病害识别的模式可分为统计模式、句法结构模式、模糊模式和机器学习方法四类。其中,统计模式识别是用概率统计原理,获取满足某种已知分布的特征向量,然后通过决策函数来分类,不同的决策函数能够产生不同的分类方法。常见的统计模式识别方法有两种:一是由Neyman决策和贝叶斯决策等构成的基于似然函数的分类方法,另一种是基于距离函数的分类识别方法。模糊模式识别是基于模糊理论利用模糊信息进行模糊分类的,主要方法有最大隶属原则识别法、接近原则识别法和模糊聚类分析法三种。机器学习指计算机模拟或者实现人类的某些行为,它的应用已涉及很多领域。目前常用于作物病害识别的机器学习方法有人工神经网络、支持向量机(SVM)、移动中心超球分类器等。其中,支持向量机分类器是目前机器学习领域的研究热点之一,它能够较好地解决小样本、非线性、高维数的分类问题,且具有良好的推广和泛化能力。神经网络是基于经验风险最小化原则,以训练误差最小化为优化目标,而SVM以训练误差作为优化问题的约束条件,以置信范围最小化为优化目标,所以SVM的解具有唯一性,也是全局最优[36]。移动中心超球分类器是近年来新提出的一种分类器,它是一种对参考样本进行压缩的方法,可以节省空间,但其识别率不如人工神经网络高。以下是在作物病害诊断中较成功的几种识别模式及技术进展。
1.3.1 贝叶斯判断法
贝叶斯判别法是一种典型的基于统计方法的分类器。它的基本原理是将代表模式的特征向量X分到m个类别(C1,C2,…,Cm)中的某一类。操作步骤为:
(1)设样本有n个属性(W1,W2,…Wn),每个样本可看作是n维空间的一个点X=(x1,x2,…,xn);
(2)设有m个不同的类(C1,C2,…,Cm),X是一个未知类别的样本,预测X的类别为后验概率最大的那个类别;3)用贝叶斯后验概率公式计算,并进行比较,依据后验概率可将样本X归到Ci类中,当且仅当>,成立。贝叶斯分类器因其结构简单、易于扩展等特点,被广泛用于作物病害诊断。杨昕薇等人[37]对3种寒地水稻常见病害图像处理、提取特征,用贝叶斯判别法识别病害,其识别率达97.5%。赵玉霞等人[38]提取玉米锈病、灰斑病等5种病斑图像的特征,利用朴素贝叶斯分类器识别,其识别精度在83%以上。柴阿丽等人[39]提取了番茄早疫病、晚疫病等4种叶部病害图像病斑的颜色、纹理和形状特征,优化特征后,用贝叶斯判别法识别病害,其识别率达94.71%。
1.3.2 人工神经网络识别法
神经网络技术是目前广泛使用的一种机器学习方法,其研究工作始于19世纪末20世纪初[40],因具有并行处理、非线性映射、自适应学习、鲁棒容错性等优点,以及采用数据驱动模式,故在模式识别领域得到广泛应用。人工神经网络诊断作物病害的基本步骤是:构建神经网络识别模型,将已提取并优化好的病害图像特征数据作为分类器的输入特征矢量对模型训练,经过训练后的模型可实现作物病害的分类识别。目前应用于作物病害识别的人工神经网络主要有:BP神经网络、概率神经网络、自组织特征映射网络,并衍生出模糊神经网络、量子神经网络等。BP神经网络具有较好的自学习性、自适应性、鲁棒性和泛化性。概率神经网络是径向基网络的一个重要分支,其分类器是一种有监督的网络分类器,在识别过程中随着训练病害种类的增加[41],其运算速度会减慢。自组织特征映射网络分类器是于1981年提出的一种由全连接的神经元阵列组成的自组织自学习网络[42],可以直接或间接地完成数据压缩、概念表示和分类的任务,多项实验表明它的病害图像识别率都在90%以上。模糊神经网络是模糊理论同神经网络相结合的产物,它汇集了神经网络与模糊理论的优点,集学习、联想、识别、信息处理于一体。量子神经网络是量子计算理论和人工神经网络结合的产物,并集成了两者的优点。王军英[43]以葡萄发病部位、病斑形状、病斑颜色和主要症状为特征,用改进的BP神经网络识别病害,识别率达95.36%。谭克竹等人[44]用BP神经网络识别大豆的灰斑病、霜霉病和斑点病的特征与病害的关系,其轻度病害的识别精度为87.19%,中度病害的识别精度为90.31%,重度病害的识别精度为93.13%。魏清凤等人[45]利用模糊神经网络诊断模型以诊断蔬菜病害,其病害识别率达85.5%。张飞云[19]提取了玉米灰斑病、锈病和小斑病病害图像的颜色、纹理、形状特征,用量子神经网络进行病害识别,其平均识别率达94.5%。陈丽等人[31]对田间采集的玉米叶部病害图像,对图像分割、特征提取,利用概率神经网络识别病害,其识别率为90.4%,同样条件下高于BP神经网络。
1.3.3 支持向量机识别法
支持向量机[46](Support Vector Machine,简称SVM)是Vapnik等人提出的一款新型的机器学习方法。SVM有线性可分和线性不可分两种情况,采用不同的核函数会有不同的SVM 算法。常用的核函数有:线性核函数、多项式核函数、径向基核函数、Sigmoid核函数等。SVM在基于数据的机器学习领域,它兼顾训练误差和泛化能力,在解决小样本、非线性、高维数、局部极小值等模式识别问题中表现出许多特有的优势[47-48],在基于图像诊断作物病害领域应用越来越多。宋凯等人[49]提取了玉米叶部病害图像特征,选择基于SVM的不同的核函数识别病害,其中径向基核函数的正确识别率为89.6%,多项式核函数为79.2%,Sigmoid核函数的识别性能最差。刘鹏[50]提取甜柿病害图像的纹理特征和颜色特征采用SVM识别病害,结果表明,当SVM类型为nu-SVR,核函数为Sigmoid,参数C=26、ξ=24时识别效果最好。田有文等人[51]用支持向量机识别黄瓜病害,实验表明,SVM方法在处理小样本问题中具有良好的分类效果,线性核函数和径向基核函数的SVM分类方法在黄瓜病害的识别方面优于其他类型核函数的SVM。越鲜梅[52]提取了向日葵叶部的叶斑病、黑斑病、霜霉病3种病害图像的颜色矩、纹理特征共9个特征,采用一对一投票决策的SVM多分类模型识别病害,取得了较好的效果。刘立波[22]提取了水稻常见叶部病害图像的颜色、纹理、形状等特征,对特征优化后,分别用最近邻域、BP神经网络和SVM方法识别病害,其中识别率最高的是SVM,BP神经网络居中,最近邻域法最差,BP神经网络的训练速度最慢。
2机器视觉识别作物病害存在的问题与进一步研究重点
将计算机视觉用于作物病害诊断,以改变传统的诊断方式,为种植户准确诊断病害,以及变量施药提供了决策支持。目前,计算机视觉诊断作物病害虽然取得了一定的进展,但从研究的深度、应用的范围和实用化角度看,还存在许多不足,还需进一步深入研究。
2.1机器视觉诊断作物病害存在的问题
笔者查阅了大量文献,对目前常用的机器视觉识别作物病害的技术进行了研读,目前机器视觉识别作物病害的技术还不够成熟,存在以下问题:
(1)在实验室条件下计算机视觉诊断作物病害正确率高,但应用到田间,难度较大,主要原因是大多研究是在简单背景下、对少数几种病害图像诊断,而对大田复杂背景下诊断多种病害的研究还比较少。
(2)病害图像分割背景简单,对于自然状态和复杂背景下的病害图像分割有待进一步的研究。
(3)因作物病斑的大小、颜色等图像特征在不同时期有差异,对于某一发病时期建立的作物病害诊断系统,用于不同发病时期诊断识别率会有所不同。
(4)许多分类算法和分类器都存在各自的优缺点,不能适合所有作物病害识别,没有统一的评价标准,难以实现各诊断系统之间的客观比较。
(5)不同研究者使用的病害图像各不相同,难以比较不同。
(6)机器视觉诊断作物病还是少数专家对某类作物在局部范围内的研究,很难满足现实生产的多种作物、不同区域同时诊断的要求。
2.2进一步研究重点
根据以上存在的问题,今后的研究方向和重点为:
(1)机器视觉识别作物病害技术从实验室向大田扩展时,需综合考虑所提取的病害图像特征在复杂背景下的可获取性、稳定性、可操作性等。
(2)机器视觉诊断作物病害系统应充分考虑不同发病时期,识别特征的变化规律。
(3)研究适合多种作物在复杂背景下实现病斑分割、特征提取等高效的图像处理算法,在模式识别方面要侧重于模糊数学、支持向量机、神经网络、遗传算法、组合优化等理论与技术的研究。
(4)建立规范统一的作物病害图像数据库,图像可普遍获取,建立合理完善的病害分割、特征提取、病害种类识别等系统,以及病害评价标准。
(5)模式识别病害中的算法需进一步发展和优化,建立统一的评判标准,评价方法适合所有的识别算法和各应用领域,采用定量和客观评价准则,可精确描述算法性能,评判应摆脱人为因素。
参考文献:
[1]GEORGIEVA K, GEORGIEVA Y, DASKALOV D.Theoretical substantiation of model of system for evaluation a state of vine plants and taking a decision for plant protection activities[J]. Trakia Journal of Sciences (Series Social Sciences),2003,1:30-32.
[2]穗波信雄.图像处理在植物生长信息提取中的应用[R].日本:农业机械学会关西支部研究会资,1992:63-46.
[3]SASAKI Y , OKAMOTO T. Automatic diagnosis of plantdisease-recognition between healthy and diseased leaf[J]. Journal of the Japanese Society of Agricultural Machinery,1999,61(2):119-126.
[4]陈佳娟,纪寿文,李娟,等.采用计算机视觉进行棉花虫害程度的自动测定[J].农业工程学报,2001,17(2):157-160.
[5]贾浩.基于计算机视觉的玉米叶部病害识别技术研究[D]. 泰安:山东农业大学,2013.
[6]徐贵力,毛罕平,李萍萍,等.差分百分率直方图法提取缺素叶片纹理特征[J].农业机械学报,2003,34(2):76-79.
[7]李宗儒.基于图像分析的苹果病害识别技术研究[D].杨凌:西北农林科技大学,2010.
[8]姜武.模式识别技术在山茶属植物数值分类学和叶绿素含量预测中的应用研究[D]. 金华:浙江师范大学,2013.
[9]王静.基于图像处理技术的烟叶病害自动识别研究[D]. 昆明:昆明理工大学,2009.
[10]刘芝京.基于图像处理的黄瓜细菌性角斑病的识别研究[D]. 成都:西华大学.2012.
[11]赵进辉,罗锡文,周志艳.基于颜色与形状特征的甘蔗病害图像分割方法[J].农业机械学报,2008,39(9).
[12]管泽鑫,唐健,杨保军,等.基于图像的水稻病害识别方法研究[J].中国水稻科学,2010,24(5):497~502.
[13]OTSU N A. Threshold selection method from gray-level histo-gram[J]. IEEE Trans Syst Man Cybenet, 1979, 15: 652-655.
[14]邵庆,张楠,路阳.小麦病害图像识别处理及形状特征提取研究[J].农机化研究,2013,35(8):35-37.
[15]温长吉,王生生,于合龙,等.基于改进蜂群算法优化神经网络的玉米病害图像分割[J].农业工程学报,2013,29(13):142-147.
[16]祁广云,马晓丹,关海鸥.采用改进的遗传算法提取大豆叶片病斑图像[J].农业工程学报.2009,25(5).
[17]毛罕平,张艳诚,胡波.基于模糊C均值聚类的作物病害叶片图像分割方法研究[J].农业工程学报.2008,24.
[18]张柏毅,朱景福,刘勇.基于模糊C-均值聚类的作物叶部病斑图像分割[J].智能计算机与应用.2011,3(10).
[19]张云飞.基于量子神经网络和组合特征参数的玉米叶部病害识别[J].南方农业学报,2013,44(8):1286-1290.
[20]张芳.复杂背景下黄瓜叶部病害识别方法研究[D]. 沈阳:沈阳农业大学,2014.
[21]任玉刚,张建,李淼,等.基于分水岭算法的作物病害叶片图像分割方法[J].计算机应用,2012,32(3):752-755.
[22]刘立波.基于图像的水稻叶部病害诊断技术研究[D]. 北京:中国农业科学院,2010.
[23]濮永仙.基于支持向量机与多特征选择的作物彩色病斑边缘检测[J].计算机应用系统,2014,9(23):118-123.
[24]石凤梅,赵开才,孟庆林,等.基于支持向量机的水稻稻瘟病图像分割研究[J].东北农业大学学报,44(2):128-135.
[25]王美丽,牛晓静,张宏鸣,等.小麦叶部常见病害特征提取及识别技术研究[J].计算机工程与应用, 2014,50(7):154-157.
[26]蔡清,何东健.基于图像分析的蔬菜食叶害虫识别技术[J].计算机应用, 2010,7(30):1870-1872.
[27]王克如.基于图像识别的作物病虫草害诊断研究[D]. 北京:中国农业科学院,2005.
[28]田有文,李天来,李成华,等.基于支持向量机的葡萄病害图像识别方法[J].农业工程学报,2007,23(6):175-179.
[29]李旺.基于图像处理的黄瓜叶部病害识别研究[D]. 长沙:湖南农业大学,2013.
[30]柴洋,王向东.基于图像处理的温室大棚中番茄的病害识别[J].模式识别与仿真,2013,32(9):83-88.
[31]陈丽,王兰英.概率神经网络在玉米叶部病害识别中的应用[J].农机化研究,2011,(6):145-148.
[32]彭占武.基于图像处理和模式识别技术的黄瓜病害识别研究[D].长春:吉林农业大学,2007.
[33]濮永仙,余翠兰.基于双编码遗传算法的支持向量机作物病害图像识别方法[J].贵州农业科学,2013,7(41)187-191.
[34]韩瑞珍.基于机器视觉的农田害虫快速枪测与识别研究[D].杭州:浙江大学,2014.
[35]边肇祺,张学工.模式识别[M].北京:清华大学出版社,2002:284-304.
[36]奉国和.基于聚类的大样本支持向量研究[J].计算机科学,2006,33(4):145-147.
[37]杨昕薇,谭峰.基于贝叶斯分类器的水稻病害识别处理的研究[J].黑龙江八一农垦大学学报,2012,24(3):64-67.
[38]赵玉霞,王克如,白中英等.基于图像识别的玉米叶部病害诊断研究[J].中国农业科学 2007,40(4):698-703
[39]柴阿丽,李宝聚等.基于计算机视觉技术的番茄叶部病害识别[J].园艺学报,2010,37(9):1423-1430.
[40]Han Jiawei,Kamber M.数据挖掘概念与技术[M].第二版. 范明,孟小峰,译.北京:机械工业出社,2007:251-306.
[41]贺鹏,黄林.植物叶片特征提取及识别[J].农机化研究,2008(6):168-170.
[42]杨占华,杨燕.SOM神经网络算法的研究与进展[J].计算机工程,2006,32(16):201-228.
[43]王军英.基于BP神经网络的葡萄病害诊断系统研究[J].农业信息网,2013,8:30-33.
[44]谭克竹,沈维政.基于BP神经网络的大豆叶片病害诊断模型的研究[J].控制理论与应用,2013,32(12):5-7.
[45]魏清凤,罗长寿,曹承忠,等.基于模糊神经网络的蔬菜病害诊断模型研究[J].河南农业科学,2013,(9):4224-4227.
[46]BURGOS-ARTIST X P, RIBERA A, TELLAECHE A, et al. Improving weed pressure assessment using digital images from an experience-based reasoning approach [J]. Computers and Electronics in Agriculture, 2009, 65(2): 176-185.
[47] BURGES C J C. A tutorial on support vector machines for pattern recognition [J].Data Mining and Knowledge Discovery, 1998, 2(2):121-169.
[48]Steve R Gunn. Support vector machines for classification and regression [R].Southampton: University of Southampton, 1998:1-28.
[49]宋凯,孙晓艳,纪建伟.基于支持向量机的玉米叶部病害识别[J].农业工程学报,2007,23(1):155-157.
[50]刘鹏,屠康,徐洪蕊,等.基于支持向量机的甜柿表面病害识别[J].现代食品科技,2011,27(3):349-353.
[51]田有文,牛妍.支持向量机在黄瓜病害识别中的应用研究[J].农机化研究,2009,(3):36-38.
[52]越鲜梅.基于图像识别的向日葵叶部病害诊断技术研究[D].呼和浩特:内蒙古工业大学,2013.
1 项目基金:云南省科学研究基金子课题(2013Y571)。
作者简介:濮永仙( 1976-),女,云南腾冲人,硕士,副教授,主要研究方向:机器视觉诊断作物病害,智能农业方面的研究。
??
??
关键词:卷积神经网络;人脸识别;大样本;对抗生成网络
中图分类号:TP391 文献标识码:A 文章编号:2095-1302(2017)07-00-04
0 引 言
近几年,基于大量训练数据的卷积神经网络(Convolutional Neural Networks,CNN)在目标检测、目标识别、显著性检测、行为识别、人脸识别和对象分割等计算机视觉领域取得了举世瞩目的成果。这些令人鼓舞的成绩主要归功于以下几点:
(1)将大量有标签的数据作为训练集,学习出具有百万参数的模型,从而使卷积神经网络能够有效提取对象的本质特征;
(2)不断改进性能优异的网络结构,如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各种并行计算硬件设备(如GPU)的支持,大大提高了CNN训练模型的效率。其中,将标签的大量数据作为训练集起着至关重要的作用。
本文以人脸识别为例,讨论和综述多样本算法的研究现状和发展方向。
有效的特征是目标识别的关键,对人脸识别问题来说亦如此。传统的主成分分析(Principal Component Analysis,PCA)[4,5],线性区分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不错的成绩。基于传统特征的人脸识别受限于环境,此类特征作用在复杂或者背景多变的人脸图像时,其识别性能往往大幅下降,如在LFW数据集上其识别率骤然下降[9]。
采用CNN作为特征提取模型,主要考虑到该模型的所有处理层,包括像素级别的输入层,均可从数据中学习到可调节的参数。即CNN能自哟哟笫据中学习特征,无需人工设计特征。合理有效的特征需从大量数据和大量参数中自动学习获取,从而达到优秀的识别性能。基于卷积神经网络的世界领先方法均使用了上百万的数据,其中最具有代表性的如VGG-Face网络需要260万个人脸图像样本进行训练[10],Facebook的DeepFace网络需要440万个有标签的人脸图像样本训练[11]。而Google更使用了2亿样本数据来训练FaceNet网络[12]。
1 多样本获取现状
如引言所述,有效合理的特征是目标识别的关键,而CNN能从大量有标签的数据中自动学习图像的本质特征。获得图像特征的关键因素是有标签的大数据。因此许多研究的前提工作均聚焦在人工获取数据和给数据加标签方面。然而,获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。虽然也有一些公开免费的数据集,且收集该类数据相对比较容易,如CASIA-WebFace[13],有49万个图像,但远少于Facebook和Google的数据集。在这种情况下,缺乏大量样本直接阻碍了深度学习方法的使用,成为阻碍提高检测率和识别率的瓶颈。除了深度学习技术提取特征需要大量样本外,已有研究证明[14-19],基于传统方法的技术同样需要大量样本作为支撑。在这种形势下,通过图像处理与机器学习技术自动增加样本集已成为必要手段。
无论基于传统方法的识别问题,还是基于深度学习的识别问题,大量有标签的数据作为训练集在算法中起着举足轻重的作用。如果样本不足,算法往往过拟合,无法提高算法的性能。为了获得更多样本,一些研究工作从网络上获取数据,例如在IMDb上,已经把9万有标签的数据集扩大到了26万 [10]。除此之外,Facebook获取了440万个有标签的人脸进行DeepFace网络训练[11],而Google使用2亿个数据训练FaceNet网络[12]。
目前获取方法具有如下局限:
(1)现有方法耗时耗力,需要经费支持。获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。这种情况下,只有像Facebook和Google这样的大公司会收集大量有标签的数据进行网络训练。而大多数情况下的数据收集涉及个人隐私与财力物力等问题,对于一般的小公司或科研院所而言,收集数据普遍难度较大。
(2)收集特殊图片困难。对于一些特殊的图像,如医学图像,遥感图像,现实中数量本身就少,加之无法直接从网上获取,因此小样本很容易导致过拟合。
2 样本集扩大算法研究现状
2.1 基于传统方法的多样本算法研究现状
对于传统的样本生成算法,如果数据集中有足够的训练样本,均可得到比较满意的识别结果,但在现实的人脸数据库中,人脸的数据样本却是有限的。文献[20]表明,增加图像样本的数量可以较大幅度提高识别的准确率。
为了增加样本数量,提高识别准确率,科研工作者已做了大量工作。其中,借助原始样本产生虚拟样本是一种有效的增加数据集方法。这种方法大致分为如下几类:
(1)通过人脸图像的对称性来得到原始样本的虚拟样本,如Xu[14,15]和Liu等[21]提出借助原始图像的“对称脸”和“镜像脸”产生虚拟样本,从而扩大数据集并提高人脸识别的正确率,Song[22]也提出相应的算法来改进人脸识别的性能;
(2)通过改变图像的光照、姿势和表情等来产生虚拟样本,例如Boom等用一种称为VIG的方法对未知光照情况进行建模[16],Abdolali[17]和Ho[18]等提出了类似的算法扩大数据集;
(3)基于人脸图像自身的特征生成虚拟样本,Ryu等根据原始样本的分布来产生虚拟样本[19],Liu等也根据图像本身特性来产生虚拟样本[23]。
(4)基于数学的多样本产生方法,如Zhang等提出利用奇异值分解的方法获得基于原始样本的虚拟样本[24]。借助图像合成方法生成的新样本如图1所示。
图1 借助图像合成方法生成新样本
除了借助图像处理方法获得原始样本的新样本外,还可以利用图像合成算法获取多样本,本研究做了相关实验,其结果如图1所示。假设数据集中有c类人脸图像,每类有ni个样本,令表示第i类中的第j个样本,这里i=1,2,…,c,j=1,2,…,ni,h和w分别代表样本xij的高和宽(均为像素值)。用X=[X1,X2,…,Xc]代表所有样本,则Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i类样本。则有:
其中, P(Xi)代表所生成的第i类新样本, f(g)表示图像处理函数,代表多个样本的串联,即将多个样本联合起来得到一个类别的新样本。
2.2 基于深度学习的多样本生成算法研究现状
大量有标签的训练数据是机器学习成功的关键,尤其对于强大的深度学习技术,大数据集能提高CNN的性能,防止过拟合[25]。为了扩充数据集,已有一些工作在不改变图像语义的情况下进行,如水平镜像[26]、不同尺度的剪裁[27,28]、旋转[29]和光照变化[27]等传统方法。
DeepID[30]采取了增大数据集手法来训练网络,只有大的数据集才能使得卷积神经网络训练得更加充分,该研究采用两种方法增大数据集:
(1)选择采集好的数据,即映入CelebFaces数据集。
(2)将原始数据集中的图片多尺度、多通道、多区域的切分,然后分别进行训练,再把得到的向量串联起来,即得到最后的向量。
以上方法仅局限于相对简单的图像处理技术,该类方法生成的多样本具有一定的局限性。比如,真正意义上的旋转应按一定的角度进行3D旋转,而不仅仅是图像本身的角度旋转。合成数据能一定程度上解决以上问题,如Shotton等通过随机森林合成3D深度数据来估计人体姿势,Jaderberg等使用合成数据来训练CNN模型识别自然场景下的文字[31]。这些研究的结果均优于使用剪裁,旋转等传统方法。但使用3D合成图像比较复杂,需要较多的前期工作。
近年来,借助生成对抗网络(Generative Adversarial Networks,GANs)来生成原始样本的方法吸引了很多学者。2014年6月,Goodfellow 等发表了论文《Generative Adversarial Nets》[32],文中详尽介绍了GANs的原理、优点及其在图像生成方面的应用,标志着GANs的诞生。早期的GANs模型存在许多问题,如GANs网络不稳定,甚至有时该网络永远不会开始学习,生成的结果无法令人满意。文献[32]中生成器生成的图片十分模糊,针对此问题,Denton等提出一个被称为 LAPGANs的模型[33],该模型用多个卷积神经网络连续生成图像,这些新图像的清晰度不断提高,最终得到高分辨率图像。GANs除了基于图像生成图像外,还可以通过文字生成图像,如文献[34]搭起了文本到图像的桥梁,通过GANs将文本直接转换成对的图像。文献[35]将GAN应用于超分辨率中,该文献提出了全新的损失函数,使得 GANs 能对大幅降采样后的图像恢复其生动纹理和小颗粒细节。另外,Radford 等提出了名为DCGANs的网络[36],该文献指出,用大数据集训练出的 GANs 能学习一整套层级的特征,并具有比其他无监督学习模型更好的效果。以上方法均为基于一大类原始样本生成另一大类图像。
基于GAN生成样本的过程如图2所示。首先将同类别的原始图像输入到生成对抗网络GAN的生成器网络G中,生成“假冒”图像G1和G2,接着借助判别器D来判断输入的图像是真实图像还是“假冒”图像。生成器G努力生成类似原始样本的图像,力争判别器D难以区分真假;而判别器D应不断提高自身性能,有能力鉴别出由生成器G生成的图像为赝品。生成器G和判别器D的价值函数如下:
生成器G最小化log(1-D(G(z))),判别器D最大化logD(x),使得最大概率按照训练样本的标签分类, 生成模型G隐式定义了一个概率分布Pg,希望Pg 收敛到数据真实分布Pdata。
图2 GAN生成新样本示意图
3 结 语
综上所述,基于原始样本的多样本生成算法是一个值得深入研究探索的问题,具备清晰而明确的理论意义和现实应用意义。虽然研究人员已经对相关问题进行了一些研究,取得了一系列成果,但是多样本的产生方法缺乏全面、深入的理解,尚未出现具有里程碑意义的研究成果。具体而言,本文认为,基于原始样本的多样本生成问题需要在如下几个方面展开深入的研究:
(1)在研究多样本生成算法时,保留原始样本的本质特征,如在人脸识别中,抛弃不必要信息(光照、表情和姿势)的影响是一项十分有意义的工作。
(2)在合成新样本时,设计合理有效的构造元素,使合成的新表示更接近自然亦是一个值得研究的方向。
(3)基于生成对抗网络,研究某一类对象的生成新样本的核心算法是一项有意义的工作。
参考文献
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
关键词:智能控制;方法;形式
中图分类号:TP31 文献标识码:A
1智能控制的发展
科学技术和生产的迅速发展是智能控制学科发展的动力。以往以单纯数学解析结构为基础的控制理论,其局限性日益明显。它的局限性主要体现在以下几方面:其一,在航空、航天、航海及各种工业部门,受控对象日益复杂。受控对象不仅规模大,运动学结构复杂,而且各运动变量之间严重耦合,同时还带有严重的不确定性(包括结构和参数两个方面的不确定性)和非线性。这样复杂的受控对象使得以确定模型和数学解析方法为基础的传统控制理论遇到了困难和挑战。其二,控制任务和目标的复杂化,也使传统的控制理论难于胜任。例如,一架性能优良的攻击机必须具备对空、地多目标自动攻击的能力,必须具备自动地形跟踪、回避的能力,必须具备自动导航和高品质自动飞行的能力。这样复杂的控制任务和控制指标要求,对于传统的控制理论来说是很困难的。其三,系统工作环境的复杂化,也使传统的控制理论产生麻烦。例如,在空战条件下,战场敌我态势的突变,气象条件的突变,敌方对我方系统的破坏和干扰,驾驶员的疲劳和意外失误,或者系统处于不利的化学物质环境中工作等。上述复杂受控对象,复杂的控制任务和控制目的,复杂的系统运行环境都促使人们研究新的控制方式去实现对它们的有效控制。这就是智能控制产生和发展的背景和动力。
另一方面,近代迅速发展的人工智能技术和计算机技术又为智能控制的发展提供了条件。诸如符号、语言的知识表达,状态特征的辨识,定性与定量,精确与模糊信号的处理,分析推理,逻辑运算,判断决策,自然语言理解和视觉系统等一系列拟人思维和功能均可通过计算机来实现。可以说,人工智能和计算机技术为智能控制的发展提供了物质条件。因此,智能控制不仅是科学技术和生产发展的推动和需要,也是科学技术发展的必然趋势;不仅是控制科学的继承、发展和提高,也是多学科相结合、共同迸发出的新的科学技术的火花。
2智能控制的主要形式
智能控制这一学科正在蓬勃发展,智能控制的形式也日新月异。目前正在兴起和研究的形式很多,其中主要的有如下几种。
2.1分级递阶智能控制
分级递阶智能控制是从系统工程出发,总结了人工智能与自适应控制、自学习控制和自组织控制的关系之后逐渐形成的,是智能控制最早的理论之一。
分级递阶智能控制有两种比较重要的理论:知识基/解析混合多层智能控制理论,该理论是由意大利学者A.Villa提出的,可用于解决复杂离散事件系统的控制设计问题。萨里迪斯三级智能控制理论,按照这种理论设计的智能控制系统是由组织级(最高级)、协调级(中间级)和执行级(最下级)三级组成的,并用熵函数来衡量每一一级的执行代价和效果,用熵进行最优决策。这一方法为现代工业、空间探测、核处理和医学领域应用自主控制系统提供了一个有效的方法。总之,分级递阶智能控制是为求解大系统,复杂系统的寻优、决策和有效控制而提出来的,是研究多级自寻优控制、多级模糊控制、多级专家控制、递阶智能多目标预测控制以及大型空间运动结构系统的三级递阶智能控制的有效方法。
2.2专家系统控制
专家系统控制(包括仿人智能控制和智能PID控制),是工程控制论和专家系统相结合的产物。这类智能控制的特点是专家的知识和经验与传统的PID控制器的结合,它所设计产生的控制规则简单易于实现,如飞行控制过程、化工PH过程的智能控制。在这一类智能控制中,还应指出的一种形式是实时监督控制专家系统,由故障检测、故障诊断和故障处理三部分组成,这种形式在航天、航空和化工等领域都有大量应用。
2.3模糊控制
该控制方法最早提出者之一是美国著名控制论专家LA.Zadeh,1965他发表了模糊集合论。模糊控制理论主要以模糊数学和规则表组成控制决策。它适用于难以建模的受控对象,但很难做到高精度。
2.4人工神经元网络控制
20世纪50年代末就已问世的神经元网络模仿生物神经系统,主要模仿人的大脑的神经网络模型和信息处理机能,如信息处理、判断、决策、联想、记忆、学习等功能,以实现仿人行为的智能控制。
2.5各种智能控制方法的交叉和结合
为了发挥各种不同智能控制方法的优点,克服它们各自的缺点和不足,各种组合、结合、互相交叉渗透的智能控制方法不断被提出和研究。例如,专家模糊控制、模糊神经网络控制、专家神经网络控制、模糊PID控制、专家PID控制和模糊学习控制等。
2.6各种智能控制方法与传统控制理论方法的交叉和结合
它们既能发挥智能控制的优点,也能发挥传统控制方法的优点,在工程实际中可获得完美的控制效果。它不仅是方法研究的交叉,而且也是多学科研究的交叉和发展。这些交叉和结合有模糊变结构控制、自适应模糊控制、自适应神经网络控制、神经网络变结构控制和专家模糊PID控制等。上述交叉和结合还可以举出一些,这些控制有的学者又称为综合控制理论和方法。
3智能自主控制
随着科学技术发展和生产的需要,自主控制,特别是用智能化的方法实现自主控制成为当今的热门研究课题。智能自主控制也是智能控制的一种形式。什么是智能自主控制,至今没有统一的定义,根据普遍的理解,给出如下说明。
3.1智能自主控制的含义
智能自主控制系统应该具有如下功能:系统能自动接受控制任务、控制要求和目标,并能对任务、目标和要求自主进行分析、判断、规划和决策。系统能自主感知、检测自身所处的状态信息、环境信息和干扰信息,并能自主进行融合、分析、识别、判断和决策;同时能作出能否执行任务的决策。
系统能根据控制任务、目标要求,结合系统所处的当前自身状态信息、环境信息、干扰信息,自主地进行分析、综合,并作出执行任务和如何完成任务的控制决策。系统能根据上述决策自主形成控制指令,自主操控系统状态的行为,并朝着完成控制任务和目标的方向运动。
在上述运动过程中,如果出现任务改变,出现事先未预见的环境变化和自身状态变化,或出现系统自身损伤,系统能根据任务改变、新的环境(干扰属环境变化)信息和自身状态信息的改变,自主地作出分析、判断,并作出改变系统状态行为的指令,使系统改变自身的状态。或自主进行系统重组,以适应外界环境的变化;或自主进行系统的故障诊断、自修复,以适应完成控制任务和目标的要求,最终自主完成控制任务,达到控制的目标。具有上述功能的系统可以认为是智能自主控制系统,或称为智能自主控制。
3.2智能自主控制系统的应用
智能自主控制的关键是用智能化的方法实现完全无人参与的控制过程,并使系统运行达到预期的目的。
现以智能自主控制的行驶车辆为例说明其智能自主控制的过程。假定要使车辆完成由A城去B城送货的任务。智能自主控制行车系统接受这一任务后,首先要做的工作是,接受任务,分析任务,同时检测系统自身所处状态(是否处于运行准备状态)和车辆重心目前所处的地理坐标位置。第二步,开启环境状态检测识别系统,确定车辆自身的环境坐标位置,即确定车身是否处于地理坐标的道路中间,车头和道路规定的行车方向是否相同。第三步,将以上检测结果与任务要求相结合,进行决策分析。根据智能自主控制行车系统存储的数字地图,决策、规划出行车路线,选择好行车道路,同时根据规划出的行车路线和道路向行车智能自动驾驶系统发出行车指令,给出行车控制信号。该系统能协调地启动发动机,能控制油门,方向盘和刹车,驾车按规划的行车路线和所选择的道路行驶。第四步,在行车过程中,智能自主控制行车系统中的智能自主导航系统,能不断记录行车方向、路线、行车速度和里程,确定车身重心的地理位置坐标;智能环境状态检测识别系统能确定车身相对周围环境的坐标。如果行车中的地理位置坐标偏离了规划出的行车路线,智能自主控制行车系统应能根据车身目前所处的位置,结合系统携带的数字地图重新规划出新的行车路线,并能选好行车道路。如果行车中车身偏离了行车道路中间线,或行车前方出现障碍,则智能自主控制行车系统能通过环境视觉识别系统,给出行车方向修正指令和停车指令,避免行车事故,保持行车任务的正常执行。第五步,当行车到达终点B城时,智能自主控制行车系统的智能导航系统能根据行车规划的终点位置的地理坐标和行车当前的地理位置坐标,判断行车的终点任务是否完成。
如果行车终点位置到达,则将停车任务转交给环境状态检测识别系统,由该系统搜索选择停车位置,并将此停车位置与出发前记录在系统数据库中的停车位置环境图像相匹配,匹配无差,则命令行车智能自动驾驶系统关闭油门、发动机,并停车。如果行车过程中,智能自主控制行车系统发生损坏,系统自身应能实现故障自诊断、自修复或系统自重组。这种自修复和系统自重组往往要求能在车辆行进中完成。
结语
智能控制系统的设计是一项复杂的系统工程,随着科技的发展与进步,有关技术还在不断的发展之中,但发展迅速,各种不同智能控制水平的系统正在不断的研究,其实际应用也不断涌现为人们的生活带来可极大的便利。
参考文献
[1]游明坤.智能控制理论的发展及应用[J].软件导刊,2006.
[2]胡氢,司纪凯.智能控制技术现状分析及发展[J].煤矿机械,2006.