前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络识别方法范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
>> 基于PCA—LDA与蚁群优化BP神经网络的人脸识别算法 基于粒子群算法和神经网络的人脸识别分类器研究 基于卷积神经网络的人脸识别研究 基于BP神经网络的人脸识别研究 基于PCA算法的人脸识别技术研究 基于改进PCA算法的人脸识别研究 基于MB_LBP和PCA算法的人脸识别研究 基于BP神经网络的人脸识别算法的实现 基于模糊混沌神经网络的人脸识别算法 基于卷积神经网络的人脸识别 基于子图分割和BP神经网络的人脸识别方法 基于EMPCA和RBF神经网络的人脸识别 基于改进PCA与FLD算法的人脸识别 基于模糊人工神经网络的人脸识别研究 基于改进的LBP和PCA算法的人脸识别 基于并行PCA算法的人脸识别系统的研究 基于PCA和SVM的人脸识别 基于PCA和FLD的人脸识别方法 基于快速PCA―SVM的人脸识别研究 基于主分量分析的BP神经网络人脸图像识别算法 常见问题解答 当前所在位置:l.
[6]刘学胜.基于PCA和SVM算法的人脸识别[J].计算机与数字工程,2011(7).
[7]廖海滨,陈庆虎. 基于因子分析的实用人脸识别研究[J].电子与信息学报,2011(7).
[8]蔡晓曦,陈定方.特征脸及其改进方法在人脸识别中的比较研究[J].计算机与数字工程,2007(4).
由于在移动数码设备(例如智能手机、掌上电脑、学习机等)以及平板电脑(Tablet PC)上的巨大应用价值,联机手写汉字
>> 联机手写汉字/词组识别的研究及其应用 基于联机手写汉字字块特征码提取的研究 用VB实现联机手写汉字的笔划端点提取 藏文联机手写识别的研究与实现索 基于多重卷积神经网络的大模式联机手写文字识别 联机手写维文字符的预处理和特征提取方法 基于过拆分和合并的联机手写英文单词分割技术 对脱机手写相似汉字识别方法的研究 基于神经网络的联机手写识别系统的研究和实现 立足细化处理解析脱机手写汉字识别 BP神经网络探析脱机手写汉字识别 脱机手写数字识别技术研究 一种改进的脱机手写汉字四角特征粗分类方法 基于字型特征的手写体汉字多分类识别的研究 脱机手写体签名识别的小波包隐马尔可夫模型 基于GABP神经网络的脱机手写藏文识别方法 基于置信度分析的脱机手写数字识别算法 手写汉字识别系统的研究与应用 手写数字识别的原理及应用 手写汉字的特性与生命力 常见问题解答 当前所在位置:l,运行时需要Java Runtime Environment 1.5以上版本的支持),已经能较好地识别笔顺无关的手写体汉字。目前该系统还没有加上虚拟笔划等一些草书识别技术及先进的结合联机及脱机识别引擎的多分类器集成技术,我们将来在适当时候会利用Java平台实现这些技术并在该页面上公布。
我们还构想了一个联机手写识别技术在计算机辅助汉字书写学习中的崭新应用――汉字听写学习,初步的原型网页见218.192.168.156:8080/ call/dictation.asp,(该页面同样用Java平台实现,运行时需要JRE支持)。 使用者可以进行在线汉字听写,然后系统利用联机识别技术自动评判使用者书写的字符是否正确,并给出反馈。该技术已经集成到我们正在设计的一个对外汉语书写教学网站之中。近年来,随着中国社会经济建设的飞速发展,汉语教学在世界各地受到越来越多的重视,国外的汉语学习者日益增多,尽管目前国内外有不少汉语教学网站或软件,但我们的学习系统利用低存储量的活动汉字编码技术及动态反走样还原显示技术、基于联机识别的汉字听写技术以及汉字书写质量评价技术,具有特色和创新。
六、结束语
我们认为,高自由度的草书识别及无约束的手写词组的识别是构造更自然、更快捷、更流畅的手写输入方式的核心技术,相信通过国内外同行的努力,在不远的将来,手写输入法会变得更实用、更高效、更具竞争力;此外,手写汉字/词组识别技术在计算机教育、智能机器人等领域中还可带来更多的创新应用。
【关键词】:高速公路 防逃 人脸识别 高清视
中图分类号:U412.36+6 文献标识码:A
人脸识别的分类与概述
人脸识别就是通过计算机提取人脸的特征,并根据这些特征进行身份验证。人脸与人体的其他生物特征(指纹、虹膜等)一样与生俱来,它们所具有的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提;同其他生物特征识别技术相比,人脸识别技术具有操作简单、结果直观、隐蔽性好的优越性。人脸识别一般包括三个步骤:人脸检测、人脸特征提取和人脸的识别与验证。其处理流程如图
输入图像 人脸图像人脸特征输出结果
人脸识别的一般步骤
人脸识别方法繁多,早期研究较多的方法有基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法。目前人脸识别方法主要研究及应用的是基于统计的识别方法、基于连接机制的识别方法以及其它一些综合方法。下面是这几类方法的基本介绍:[2]
(1)基于几何特征的人脸识别方法
几何特征矢量是以人脸器官如眼睛、鼻子、嘴巴等的形状和几何关系为基础的特征矢量,其分量通常包括人脸指定两点间距离、曲率、角度等。早期的研究者Brunelli[3]等人采用改进的积分投影法提取出用欧式距离表征的35维人脸特征矢量用于人脸识别。Huang Chung Lin等人[4]采用动态模板[5,6,7]与活动轮廓模型提取出人脸器官的轮廓[8,9,10]。基于几何特征的人脸识别方法有如下优点:符合人类识别人脸的机理,易于理解;对每幅图像只需要存储一个特征矢量,存储量小;对光照变化不敏感。但这种方法同样存在一些问题,如从图像中提取这些特征比较困难;对强烈的表情变化和姿态变化的鲁棒性差等。
(2)基于模板匹配的人脸识别方法
模板匹配大都采用归一化相关,直接计算两幅图之间的匹配程度。最简单的人脸模板就是将人脸看成一个椭圆[10,11]。另一种方法就是将人脸用一组独立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板等,采用弹性模板方法提取这些模板特征[12]。Brunelli等人专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法,他们得出的结论是:基于几何特征的人脸识别方法具有识别速度快和内存要求小等优点,但基于模板匹配的识别率要高于基于几何特征的识别率。
(3)基于统计的人脸识别方法
基于统计特征的识别方法包括基于特征脸的方法和基于隐马尔可夫模型的方法。特征脸(Eigenface)方法[13]是从主成分分析导出的一种人脸识别和描述技术。主成分分析实质上是K-L展开的网络递推实现,K-L变换是图像压缩中的一种最优正交变换,其生成矩阵一般为训练样本的总体散布矩阵。特征脸方法就是将包含人脸的图像区域看作是一种随机向量,因此可以采用K-L变换获得其正交K-L基底。对应其中较大特征值的基底具有与人脸相似的形状,因此又称之为特征脸。
隐马尔可夫模型(HMM)是用于描述信号统计特性的一组统计模型。基于人脸从上到下、从左到右的结构特征,Samaria等人[14]首先将1-D HMM和2-D Pseudo HMM用于人脸识别。Kohir等[15]采用1-D HMM将低频DCT系数作为观察矢量获得了好的识别效果。Eickeler等[16]采用2-DPseudo HMM识别DCT压缩的JPEG图像中的人脸图像。Nefian等[17]采用嵌入式HMM识别人脸。
(4)基于连接机制的人脸识别方法(神经网络弹性图匹配)
基于连接机制的识别方法,包括一般的神经网络方法和弹性图匹配(Elastic Graph Matching)方法。神经网络在人脸识别应用中有很长的历史[18]。Demers 等[19]提出采用PCA方法提取人脸图像特征,用自相关神经网络进一步压缩特征,最后采用一个多层处理器来实现人脸识别。Laurence等[20]通过一个多级的SOM实现样本的聚类,将卷积神经网络(CNN)用于人脸识别。Lin等[21]采用基于概率决策的神经网络(PDBNN)方法。最近,径向基函数RBF神经网络因具有逼近性好、空间描述紧凑和训练速度快等特点而被用于人脸识别。Gutta等[22]提出了将RBF与树分类器结合起来进行人脸识别的混合分类器结构,后来他们用RBF神经网络进行了针对部分人脸的识别研究[23],他们的研究表明利用部分人脸也可以有效地识别人脸。Er等[24]采用PCA进行维数压缩,再用LDA抽取特征,然后基于RBF进行人脸识别。Haddadnia 等[25]基于PZMI(Pseudo Zernike Moment Invariant)特征,并采用混合学习算法的RBF神经网络进行人脸识别。此外,Lucas 等采用连续的n-tuple网络识别人脸。
弹性图匹配方法是一种基于动态链接结构的方法[26]。在人脸图像上放置一组矩形网格节点,每个节点的特征用该节点处的多尺度Gabor幅度特征描述,各节点之间的连接关系用几何距离表示,从而构成基于二维拓扑图的人脸描述。根据两个图像中各节点和连接之间的相似性可以进行人脸识别。Wiskott等[27]将人脸特征上的一些点作为基准点,强调了人脸特征的重要性。他们采用每个基准点存储一串具有代表性的特征矢量,大大减少了系统的存储量。Würtz 等[28]只使用人脸面部的特征,进一步消除了结构中的冗余信息和背景信息,并使用一个多层的分级结构。Grudin等[29]也采用分级结构的弹性图,通过去除了一些冗余节点,形成稀疏的人脸描述结构。Nastar等[30]提出将人脸图像I(x,y)表示为可变形的3D网格表面(x, y, I(x,y)),将人脸匹配问题转换为曲面匹配问题,利用有限元分析的方法进行曲面变形,根据两幅图像之间变形匹配的程度识别人脸。
(5)基于形变模型的方法
基于形变模型的方法是一个受到重视的方法。通过合成新的视觉图像,可以处理姿态变化的问题。Lanitis等[31]通过在人脸特征边沿选择一些稀疏的基准点描述人脸的形状特征,然后将形状变形到所有人脸图像的平均形状,再根据变形后的形状进行纹理(灰度)变形,形成与形状无关的人脸图像。然后分别对形状和灰度进行PCA变换,根据形状和纹理的相关性,用PCA对各自的结果进一步分析,最终得到描述人脸的AAM(Active Appearance Model)模型。通过改变这些参数可得到不同变化的人脸图像,模型参数能够用于人脸识别。Romdhani 等[32]采用激光扫描仪获得人脸的3D数据,分别对一些基准点构成的形状和基准点的灰度(或彩色)完成PCA,得到3D人脸形状和灰度(彩色)基图像,通过变化参数就可获得不同的3D人脸模型。通过施加一些先验约束可以避免合成不真实的人脸图像。利用线性形状和纹理误差,通过3D模型向2D输入图像的自动匹配实现人脸识别。
项目采用的识别算法
人脸自动识别技术经过多年来的研究已经积累了大量研究成果。但是仍然面临很多问题,尤其是在非约束环境下的人脸识别。结合本研究项目及应用环境综合考虑,采用特征脸方法对视屏资料中的司机脸部进行提取识别。
特征脸方法是90年代初期由Turk和Pentland提出算法,具有简单有效的特点, 也称为基于主成分分析(principal component analysis,简称PCA)的人脸识别方法。把人脸图像空间线性投影到一个低维的特征空间。PCA实质上是K-L展开的网络递推实现。K-L变换是图像压缩技术中的一种最优正交变换。人们将它用于统计特征提取。从而形成子空间法模式识别的基础。若将K-L变换用于人脸识别,则需假设人脸处于低维线性空间。由高维图像空间K-L变换后,可得到一组新的正交基,由此可以通过保留部分正交基获得正交K-L基底。如将子空间对应特征值较大的基底按照图像阵列排列,则可以看出这些正交基呈现出人脸的形状。因此这些正交基也称为特征脸,这种人脸的识别方法也叫特征脸法。
特征子脸技术的基本思想是:从统计的观点,寻找人脸图像分布的基本元素,即人脸图像样本集协方差矩阵的特征向量,以此近似地表征人脸图像。这些特征向量称为特征脸(Eigenface)。
利用这些基底的线性组合可以描述、表达和逼近人脸图像,因此可以进行人脸识别与合成。识别过程就是将人脸图像映射到由特征脸张成的子空间上,比较其与已知人脸在特征脸空间中的位置,具体步骤如下:[33]
(1)初始化,获得人脸图像的训练集并计算特征脸,定义为人脸空间;
(2)输入待识别人脸图像,将其映射到特征脸空间,得到一组权值;
(3)通过检查图像与人脸空间的距离判断它是否为人脸;
(4)若为人脸,根据权值模式判断它是否为数据库中的某个人。
1. 计算特征脸
假设人脸图像包含个像素,因此可以用维向量Γ表示。如人脸训练集由幅人脸图像构成,则可以用表示人脸训练集。
其均值为:
(2-1)
每幅图像与均值的差为:
(2-2)
构造人脸训练集的协方差矩阵:
(2-3)
其中 。
协方差矩阵的正交分解向量即为人脸空间的基向量,也即特征脸。
一般比较大(通常大于1000),所以对矩阵直接求解特征向量是不可能的,为此引出下列定理:
SVD定理:设是一秩为的维矩阵,则存在两个正交矩阵:
(2-4)
(2-5)
以及对角阵:
(2-6)
满足
其中:为矩阵和的非零特征值,和分别为和对应于的特征矢量。上述分解成为矩阵的奇异值分解(SVD),为的奇异值。
推论:
(2-7)
由上述定理可知:
人脸训练集所包含的图像一般要比图像的像素数小的多,因此可以转求矩阵
(2-8)
的特征向量,M为人脸训练集图像总数。
矩阵的特征向量由差值图像与线性组合得到:
=(2-9)
实际上,m(m
(2-10)
识别
基于特征脸的人脸识别过程由训练阶段和识别阶段两个阶段组成。在训练阶段,每个己知人脸映射由特征脸张成的子空间上,得到m维向量:
(2-11)
距离阈值定义如下:
(2-12)
在识别阶段,首先把待识别的图像映射到特征脸空间,得到向量
(2-13)
与每个人脸集的距离定义为
(2-14)
为了区分人脸和非人脸,还需计算原始图像与其由特征脸空间重建的图像之间的距离:
(2-15)
其中:
(2-16)
采用最小距离法对人脸进行分类,分类规则如下:
(1)若,则输入图像不是人脸图像;
(2)若,则输入图像包含未知人脸;
(3)若,则输入图像为库中的某个人脸。
实际上,特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇,统称特征子脸。特征子脸在相应的图像空间中生成子空间,称为子脸空间。计算出测试图像窗口在子脸空间的投影距离,若窗口图像满足阈值比较条件,则判断其为人脸。
基于特征分析的方法,也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量,这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系,而且也保留了各部件本身的信息,而基于部件的识别则是通过提取出局部轮廓信息及灰度信息来设计具体识别算法。现在Eigenface(PCA)算法已经与经典的模板匹配算法一起成为测试人脸识别系统性能的基准算法;而自1991年特征脸技术诞生以来,研究者对其进行了各种各样的实验和理论分析,FERET测试结果也表明,改进的特征脸算法是主流的人脸识别技术,也是具有最好性能的识别方法之一。
该方法是先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性,然后再计算出它们的几何特征量,而这些特征量形成一描述该面像的特征向量。其技术的核心实际为"局部人体特征分析"和"图形/神经识别算法。"这种算法是利用人体面部各器官及特征部位的方法。如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认。Turk和Pentland提出特征脸的方法,它根据一组人脸训练图像构造主元子空间,由于主元具有脸的形状,也称为特征脸,识别时将测试图像投影到主元子空间上,得到一组投影系数,和各个已知人的人脸图像比较进行识别。
结束语
从目前国情来讲,在一段时间内高速公路收费还会继续存在,某些司机逃费的侥幸心也同样会有。通过带路径识别功能的 RFID 复合卡作为通行卡,利用 RFID 卡的信息对车辆进行跟踪,在不增加硬件投入的情况下,直接可以给车道收费系统提供抓拍高清图像,以及其它报警联动系统提供图像等,可有效解决高速公路冲卡逃费问题,可广泛应用于封闭式管理的公路收费系统。
参考文献:
[1]江艳霞. 视频人脸跟踪识别算法研究. 上海交通大学博士学位论文,2007.
[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on
PAMI, 1993, 15(10):1042 -1052.
[3]李刚. 基于特征脸法的正面人脸识别研究. 国防科学技术大学硕士学位论文,2002.11
[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN
ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.
[5]张建飞、陈树越等. 基于支持向量基的交通视频人车识别研究[J]. 电视技术,2011
[6]肖波、樊友平等. 复杂背景下基于运动特征的人面定位[J]. 重庆大学学报,2002
[7] 《中华人民共和国交通部公路联网收费技术要求》,交通部
[8] 《广东省高速公路联网收费系统》,DB44 127-2003,广东省质量技术监督局
[9] 《视频安防监控数字录像设备》,GB 20815-2006
[10]《安全防范工程技术规范》,GB 50348-2004
关键词: 图像特征; 支持向量机; 模拟退火算法; 交通标志识别
中图分类号: TN911?34; TP391.41 文献标识码: A 文章编号: 1004?373X(2017)08?0097?03
Traffic sign recognition based on image feature and improved support
vector machine algorithm
HAO Yongjie1, ZHOU Bowen2
(1. Hohhot Vocational College, Hohhot 010051, China; 2. College of Management and Economics, Tianjin University, Tianjin 300072, China)
Abstract: A traffic sign recognition method based on image feature and improved support vector machine (SVM) algorithm is studied in this paper. The color feature and shape feature are used to extract the image feature of the traffic sign. The Gabor filtering method is adopted to perform the enhancement processing of the traffic sign image. Since the accuracy of the recognition algorithm based on SVM is affected by the basic parameters to a great extent, and the parameters are selected according to the experience usually, the simulated annealing algorithm is used to select the parameters of the support vector machine optimally. The research results show that the detection accuracy of the traffic sign detection method is higher than that of the other three methods, and the detection accuracy of color and shape features extraction method is higher than that of the single color feature extraction method or shape feature extraction method.
Keywords: image feature; SVM; simulated annealing algorithm; traffic sign recognition
交通安全题以及道路通信能力不足问题越来越严重,人们开始重视如何提升道路交通的安全性及有效性,车辆安全辅助驾驶能够将道路信息、车辆信息以及驾驶员信息联系起来,驾驶员在其辅助下能够对行车环境进行感知,进而达到识别和监测道路信息的目的[1?2]。作为高级辅助系统的重要部分,交通标志识别系统能够有效地提升驾车的舒适性以及安全性。利用该系统,能够采集自然场景图像,经过图像识别和处理以后就可以检测交通标志,进而及时警告、指示以及提醒驾驶员[3?4]。
1 基于图像特征的交通标志检测特征提取
1.1 基于颜色的交通标志特征
不同的交通标志在颜色上存在着较大的差距,因此在分割交通标志图像的过程中通常以颜色为基础来分离抽取交通标志[5?6]。色调V、饱和度S以及色度H三个分量组成了HSV 颜色空间,作为三原色RGB空间的一种非线性变换,HSV颜色空间模型和圆柱坐标系的一个圆锥形子集是相互对应的,实现RGB颜色空间和HSV空间之间的转换[7]如下:
(1)
(2)
(3)
1.2 基于形状的交通标志特征
利用颜色抽取的方法能够在实景图中提取交通标志区域。然而由于在背景上自然场景和交通标志均比较复杂,如果仅仅依靠颜色无法获得较为精确的判定结果。但是这种方法能够将那些颜色比较类似的背景排除掉,主要是因为这些复杂背景和交通标志的特殊形状存在着一定的差距[8]。矩形、三角形以及圆形为交通标志的三种主要类型,当交通标志不同时其属性也存在着一定的差距,例如执行到边缘的距离、伸长度、矩形度以及圆形度等。圆形度、矩形度以及伸长度计算方法如下[9]:
(4)
(5)
(6)
1.3 Gabor滤波
Gabor 滤波首先对核函数模板进行确定,然后对图像进行卷积操作。Gabor 滤波函数乘以复指数振荡函数就是所对应的冲激响应。本文在提取特征向量时采用Gabor滤波法,所对应的核函数[10]如下:
(7)
2 改进支持向量机模型
相比于神经网络,支持向量机不需要太多的训练样本,同时对于凸优化问题支持向量机能够有效的解决,当参数和样本一致时,训练模型所得到的预测值就不会产生变化,因此在实际应用和理论中都比神经网络模型具有更高的性能。
但是在应用的过程中支持向量机需要依靠经验对学习参数进行选取。比如惩罚因子C和ε等,支持向量机的精度在很大程度上受到这些参数的影响,通常根据经验来进行参数的选取,这对于支持向量机模型的使用和推广是不利的。因此本文使用模拟退火算法对支持向量机的参数进行优化选择。
支持向量机的思想是利用结构风险最小化思想以及构造损失函数的思想,以统计学理论为基础,通过极小化目标函数就可以对回归函数进行确定,如下[11]:
(8)
将上述问题转化为对偶问题:
(9)
解出上述问题即为支持向量机的回归函数:
(10)
作为一种随机寻优算法,模拟退火算法是以蒙特卡罗迭代求解策略为基础的,其基本原理和物理上的金属退火比较类似。使用模拟退火算法对支持向量机的参数进行优化选择,主要过程如下:
步骤1:初始化参数。设定支持向量机中的ε,C和σ参数的初始范围。
步骤2:使用模拟退火算法对支持向量机的参数进行优化选择。
步骤3:更新最优解。如果,则使,,;否则使。
步骤4:抽样稳定性判别。如果,则使,并返回步骤2;否则使。
步骤5:终止退火判别。如果,则使,否则使。如果,则终止退火算法,否则继续向下进行。
步骤6:退火方案。如果,则按照方式进行退火;否则按照方式进行退火。
在利用SA对SVM参数进行确定的过程中能够记忆性地进行参数的选取,可以存储当前进化所得到的最优参数,保证可以根据记忆调整参数的选择过程;同时利用SA算法能够调整所选取的参数,避免出现局部最小的情况,对于逼近系统的精度以及参数选择学习速度的提升有非常好的效果[12]。
3 交通标志识别实例分析
通过交通标志识别实例对本文研究的识别方法进行验证分析。通^实地考察,拍摄了500幅包括826个交通标志的图像,用于实例分析,部分标志图像如图1所示。
本文以文献[13]中研究的图像特征检测方法为例进行对比分析。使用本文研究的图像特征检测方法得到的图像处理结果和使用文献[13]中研究的图像特征检测方法得到的图像处理结果如图2所示。
对比本文和文献[13]中的特征检测方法可以看出,本文研究的方法处理后图像中杂点更少,更利于图像的分类识别。另外,由于文献[13]中的特征检测方法使用计算图像均值处理,因此特征检测效率相对更低。
下面对交通标志识别准确率进行分析。使用多种图像特征检测方法和图像分类模型进行组合:本文研究的使用颜色和形状特征提取,改进支持向量机进行图像分类,称方法A;使用颜色和形状特征提取,常规支持向量机进行图像分类,称方法B;使用颜色特征提取,改进支持向量机进行图像分类,称方法C;使用形状特征提取,改进支持向量机进行图像分类[14],称方法D。
使用上述四种方法针对拍摄的826个交通标志的图像进行识别,对比结果如表1所示。
表1 四种算法的识别结果对比
可以看出使用本文研究的交通标志检测方法的检测精度高于其他三种方法。使用颜色和形状特征提取的检测精度要高于单独使用颜色或形状特征提取方法。
4 结 论
交通标志识别系统能够有效地提升驾车的舒适性以及安全性。交通标志识别系统能够采集自然场景图像,经过图像识别和处理以后就可以检测交通标志,进而及时警告、指示以及提醒驾驶员。本文研究一种基于颜色和形状特征以及改进支持向量机算法的交通标志识别方法,并通过实例对所研究的交通标志识别方法的可行性进行了验证。
参考文献
[1] 王刚毅.交通标志检测与分类算法研究[D].哈尔滨:哈尔滨工业大学,2013.
[2] 宋婀娜,房俊杰,李娜,等.一种基于局部特征的交通标志检测算法的研究[J].现代电子技术,2015,38(13):114?116.
[3] 杨正帅.基于视觉的道路识别技术在移动机器人导航中的应用研究[D].南京:南京理工大学,2007.
[4] 王忠.基于视觉的道路识别技术在智能小车导航中的应用研究[D].南京:东南大学,2006.
[5] 陈朴.模拟退火支持向量机算法研究及在电力负荷预测中的应用[D].哈尔滨:哈尔滨工业大学,2006.
[6] 陈亦欣,叶锋,肖锋,等.基于HSV空间和形状特征的交通标志检测识别研究[J].江汉大学学报(自然科学版),2016(2):119?125.
[7] 王洋.一种基于模板匹配的交通标志识别方法[D].长春:吉林大学,2013.
[8] 卢艳君.交通标志自动检测与识别算法研究[D].武汉:武汉科技大学,2015.
[9] 鲍朝前.针对圆形和三角形交通标志的检测与识别[D].北京:北京工业大学,2015.
[10] 周欣.圆形和三角形交通标志分割与识别算法研究[D].上海:华东理工大学,2013.
[11] 李瑾,刘金朋,王建军.采用支持向量机和模拟退火算法的中长期负荷预测方法[J].中国电机工程学报,2011(16):63?66.
[12] 张震,徐子怡,袁淑芳.基于支持向量机和模拟退火算法对供暖热负荷的预测方法[J].自动化技术与应用,2016(2):10?14.
行人再识别指的是在非重叠监控视频中,检索某个监控视频中出现的目标是否出现在其它的监控视频中.最近几年,行人再识别问题引起了广大科研人员的兴趣与研究.监控视频中的目标图像分辨率低、场景中存在着光照变化、视角变化、行人姿态变化以及摄像机自身属性的问题,导致同一目标在不同的监控视频中外观区别很大,使得行人再识别问题遇到了很大的挑战。为了有效的解决这些挑战,广大的研究者提出了很多解决方法.目前的行人再识别算法可以简单概括为四种:直接法、基于深度学习的方法、显著性学习的方法和间接法.
直接法利用视觉特征对行人建立一个鲁棒性和区分性的表示,不需要通过学习直接利用行人特征然后根据传统的相似性度量算法(欧式距离、巴氏距离等等)来度量行人之间的相似度.文献[1]首次提出了利用直方图特征来表征目标并通过度量直方图的相似度来识别不同的目标.文献[2]将行人图像粗略分为头部、上半身和下半身3部分,然后串联每一部分的颜色直方图对行人描述.文献[3]采用分割的技术提取人的前景,并利用行人区域的对称性和非对称性将人的前景划分成不同的区域.对于每个区域,提取带权重的颜色直方图特征、极大稳定颜色区域(maximallystablecolorregions)特征和重复度高的结构区域(recurrenthighlystructuredpatches)特征描述它们.文献[4]提出了一种结合gabor特征和协方差矩阵描述的BiCov描述子来对行人描述.文献[5]采用图案结构(pictorialstruc-ture)算法定位图像中人的各个部件所在的区域.对于每个部件的区域,提取与文献[3]类似的颜色直方图特征、极大稳定颜色区域特征来描述它们.文献[6]利用lbp特征和21个滤波器特征(8个gabor滤波器和13个schmid滤波器)来描述图像中的行人.文献[7]通过共生矩阵对行人的形状和外形特征进行描述.虽然直接法的算法模型简单,但由于在光照变化、视角变化以及姿态变化等情况下,同一个人的外观变化往往很大,很难提取出鲁棒性和区分性的特征描述.因此在光照变化、视角变化以及姿态变化等情况下,直接法的效果很差.
深度学来在计算机视觉中得到了广泛的应用,因此不少学者研究并提出了基于深度学习的行人再识别算法.文献[8]LiWei等人提出了一种六层的FPNN神经网络,它能有效解决行人再识别中出现的光照变化、姿态变化、遮挡和背景粘连等问题,从而提高了识别率.文献[9]Ahmed等人提出了一种深层卷积结构能够同时自动学习特征和相应的相似性测度函数.但基于深度学习的行人再识别算法需要非常大的训练数据库,导致训练时间长,此外还需要针对特定问题搭建相应的模型,因此不利于方法的推广.同时,深度学习方法中还存在调置参数缺乏理论性指导,具有较大主观性的问题.基于显著性学习的行人再识别方法近年来也受到研究者的广泛兴趣.人们可以通过行人的一些显著信息来识别行人,但传统的方法在比较两张图片的相似性的时候,往往忽略了行人身上的显著性特征.对此,文献[10]赵瑞等人提出了一种通过学习行人图像的显著性信息来度量两张行人图像的相似性的方法.但显著性学习的行人再识别算法在行人姿态变化的情况下,显著性区域会出现偏移或者消失,导致识别效果较差.间接法主要是学习得到一个分类器或一个排序模型.间接法代表性的算法有距离测度学习、支持向量机、迁移学习和流形排序算法.距离测度学习算法作为间接法中的一种,最近几年在行人再识别中得到了广泛的应用.本文提出的算法也是基于距离测度学习,所以下面着重介绍基于距离测度学习的行人再识别算法.
与手动设计特征的直接法不同,距离测度学习方法是一种利用机器学习的算法得出两张行人图像的相似度度量函数,使相关的行人图像对的相似度尽可能高,不相关的行人图像对的相似度尽可能低的方法.代表性的测度学习算法有文献[11]郑伟诗等人把行人再识别问题当成距离学习问题,提出了一种基于概率相对距离的行人匹配模型,文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量两张行人图像的相似度,以及文献中提出的相应测度学习算法.距离测度算法是将原始特征空间投影到另一个更具区分性的特征空间.与其它的算法相比,距离测度学习算法具有更好的效果.距离测度学习算法即使只使用简单的颜色直方图作为特征,算法的性能往往优于其它算法.文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量行人对的相似度,但作者直接在原始特征空间训练得到测度矩阵,进而得到样本之间的相似性函数.原始特征空间的线性不可分性导致通过原始特征空间直接训练得到的测度矩阵不能很好的表征样本之间的相似性和差异性.本文提出基于核学习的方法,首先通过相应的核函数将原始特征空间投影到非线性空间,然后在非线性空间中学习得到相应的测度矩阵.投影后的非线性特征空间具有很好的可分性,这样学习得到的测度矩阵能准确的表征样本之间的相似性和差异性.另外,基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法,学习得到一个测度矩阵.然而这种特征融合往往忽略了不同属性特征之间的差别,这样学习得到的测度矩阵不能准确的表征样本之间的相似性与差异性.对此,本文提出在不同的特征空间中学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表征样本之间的相似性.本文算法在公共实验数据集上的实验效果优于目前主流的行人再识别算法,尤其是第一匹配率(Rank1).本文其余章节的组织安排如下.第1节介绍本文提出的行人再识别算法.第2节介绍本文算法在公共数据集上的实验.第三节总结全文以及展望.
1基于多特征子空间与核学习的行人再识别算法
1.1基于核学习的相似度量函数的学习文献[12]中提出了一种KISSME的算法,文中指出,从统计学角度考虑,一对有序行人对(i,j)的相似度可以表示为式。文献[12]中提出的算法是直接在原始线性特征空间中训练得到测度矩阵,进而得到表示样本之间相似性的相似度函数.由于原始特征空间的线性不可分,上述方法得到的测度矩阵不能准确表达样本之间的相似性和差异性,导致识别效果差.本文提出基于核学习的算法首先通过相应的核函数将原始特征空间投影到更易区分的非线性空间,然后在非线性空间中训练得到测度矩阵M.这样得到的测度矩阵具M有很好的区分性,能使同类样本之间的距离尽可能小,异类样本之间的距离尽可能大.核学习的主要思想是将原始线性特征空间投影到区分性好的非线性空间.原始特征空间中的特征xxi通过函数Φ投影到非线性空间,则非线性空间的特征表示为Φ(xxi).非线性映射函数一般是隐性函数,则很难得到显示表达式,可以利用核函数求解特征空间中样本点的内积来解决。
1.2基于多特征子空间的测度学习基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法得到测度矩阵.这种方法忽略了不同属性特征之间的差别,导致学习得到的测度矩阵不能准确的体现样本之间的相似性与差异性.对此,本文提出对于不同的特征空间单独学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表示样本之间的相似性.
1.3行人图像的特征表示本文采用颜色特征和LBP特征对行人目标进行描述,生成两种特征子空间.颜色空间有很多种,用不同的色彩空间描述一图片的效果是不同的.依据文献[20]和文献[21],本文采用的颜色特征从RGS、HSV、YCbCr和CIELab4种颜色空间中提取.RGS空间的定义为R=R/(R+G+B)、G=G/(R+G+B)、S=(R+G+B)/3.为了获取具有鲁棒性和区分性的颜色特征表示,本文将上述四种颜色特征空间融合.融合后的颜色特征描述对于光照变化的场景具有良好的鲁棒性.图1给出了一张被平均分成6个水平条带的行人图像,对于每个水平条带的每种颜色空间的每个通道,提取16维的颜色直方图特征,将所有的颜色直方图特征串联形成行人图像的颜色特征,从而得到行人图像颜色特征的维数为1152维(4*6*3*16).原始特征空间的1152维特征经过核函数投影后的特征维度较高且大部分信息都是冗余的.因此实验中利用PCA将核空间中的特征维数降到保持大于90%的能量。为了更好的描述图像的局部信息,本文中提取的局部特征来自于LBP等价模式中邻域点数为8半径为1和邻域点数为16半径为2两种模式的特征.上面两种LBP等价模式的维度分别为59维和243维.类似于颜色特征的提取,一张行人图像被平均分成6个水平条带,对于每个水平条带提取LBP两种模式的特征,将所有的LBP特征串联形成行人图像的局部特征,从而得到行人图像局部特征的维数为1812维((59+243)*6).同理,原始特征空间的1812维特征经过核函数投影后的特征维度同样较高并且大部分信息也都是冗余的.因此实验中同样利用PCA将核空间的特征维度降到保持90%以上的能量.
1.4本文算法的具体操作步骤利用步骤3得到不同核空间中的测度矩阵计算样本在不同核空间的相似度,然后将样本在不同核空间中的相似度按照一定的权值结合来表示样本之间的相似性.
2实验测试与结果
本节首先介绍实验中所使用的测试数据和算法性能的评测准则,其次介绍本文算法在不同公共实验集上与已有的行人再识别算法的性能比较,然后在不同公共实验集上对比核映射前后的算法性能,最后在不同公共实验集上分析权值不同时对算法性能的影响.文中所有的实验是基于vs2010+opencv2.4.9实现的,实验平台是24G内存的Intel(R)Xeon(R)CPUE5506@2.13GHz(2处理器)PC台式机.
2.1测试数据和算法性能的评测准则为了与已有算法公正比较,实验中,采用先前工作普遍采用的评价框架.如文献[22]所述,随机选择p对行人图像对作为测试集,余下的行人图像对作为训练集.测试集由查询集和行人图像库两部分组成.每对行人图像,随机选择一张图像并入查询集,另一张则并入行人图像库.当给定一个行人再识别算法,衡量该算法在行人图像库中搜索待查询行人的能力来评测此算法的性能.为了测试算法在只有少量的训练样本时的性能,p分别取316,432,532进行实验.p取值越大,则测试样本越多(匹配越困难),训练样本越少(训练越困难).对于每组实验,以上产生测试集和训练集的过程重复10次,10次实验结果的平均值作为本组实验的结果.已有的行人再识别算法大部分采用累积匹配特性(CumulativeMatchCharacteristic,CMC)曲线评价算法性能.给定一个查询集和行人图像库,累积匹配特征曲线描述的是在行人图像库中搜索待查询的行人,前r个搜索结果中找到待查询人的比率.第1匹配率(r=1)很重要,因为它表示的是真正的识别能力.但是当r取值很小时,第r匹配率也很有现实意义.因为在实际应用中,反馈的前r个搜索结果中,可以通过人眼判断找到查询目标.
2.2不同公共实验集上实验对比本文算法选择在VIPeR[23]数据集、iLIDS[24]数据集、ETHZ[25]数据集和CUHK01[26]数据集上进行实验.VIPeR数据集中相关行人对来自两个不同的摄像机.相关行人对的外观由于姿态、视角、光照和背景的变化而差异大.iLIDS数据集包含119个行人的476张图像,每个行人的图像从两张到八张不等.iLIDS数据集是从机场收集的,数据集有严重遮挡和光照变化的问题.ETHZ数据集包含146个行人的8555张图像.数据集中的图像来自移动摄像机拍摄的三个视频序列.ETHZ数据集中的图像由同一摄像机拍摄,则数据集中行人姿态变化和视角变化的程度没有VIPeR数据集那么明显.为了使ETHZ数据集具有挑战性,实验中相关行人提取两张图像,一张近景和一张远景.远景图像含有大量无用的背景信息,使选用的数据集有明显的遮挡情况和光照变化.CUHK01数据集是由两个摄像机在校园环境中拍摄得到,包含971个行人的3884张图像.每个行人包含四张图像,前两张图像是摄像机拍摄的行人前后景图像,两张图像是摄像机拍摄的行人侧面图像.每个行人的前两张图像只是姿态上有稍许的变化,前两张图像与后两张图像在视角上、姿态上差异较大以及有明显的光照变化.实验中,每个行人前后景图像随机选择一张,侧面图像随机选择一张,这样得到的实验集具有显著的视角变化、姿态变化和光照变化.
2.2.1VIPeR数据集VIPeR数据集是由632对相关行人对图像组成.如图2所示,同一列中的行人图像为同一个人,为了对比本文算法基于不同核函数的实验效果,下表1给出了该算法基于不同核函数的实验对比.实验中测试样本集和训练样本集均为316对相关行人图像.VIPeR数据集上的其它实验,如果没明确表明测试样本集和训练样本集的个数,都默认有316对相关行人图像.从表1可知,本文算法基于RBF-χ2核函数的效果最优.为了充分体现算法的效果,在后面的实验效果对比中都是基于RBF-χ2核函数.下表2给出了该算法与当前主流算法的效果对比.从表2可知,该算法性能有较大的提升,尤其是Rank1,Rank1比表中最好的结果提高了约8(%).此外,该算法与表中的PCCA、rPCCA、kLFDA和MFA等算法都是基于RBF-χ2核函数;但该算法整体效果明显优于它们.值得一提的是,对于Rank1,该算法的效果相对主流的行人再识别算法有了显著的提高.第1匹配率很重要,因为它表示的是真正的识别能力.行人再识别技术一个典型的应用是刑事侦查;若Rank1越高,则在刑事侦查中,搜集与嫌疑人有关的线索的效率就会提高.为了充分说明本文算法的优越性,表3给出该算法在仅用HSV特征情况下与其它算法效果对比.由表3可知,该算法虽然只使用了HSV特征,但是效果比采用多特征的算法(SDALF、PS、RDC和KISSME)更好.KISSME融合了HSV、LAB和LBP等特征,Rank1仅有20(%);该算法只用HSV特征,Rank1就达到了28.4(%).另外,该算法与同样只使用HSV特征的算法(如ITML、Euclidean、NRDV和KRMCA等)相比,仍然优于它们.其中,ITML和Euclidean算法整体效果都比该算法差.NRDV算法虽然Rank1与该算法相近,但是Rank10和Rank20较低,且NRDV算法模型比该算法复杂得多.KRMCA算法效果总体上都不如该算法且KRMCA的代价函数收敛很慢,算法训练时间很长.当测试集规模为P=432和P=532时,该算法与已有行人再识别算法的性能比较如表4和表5.从表中可知,在只有少量的训练样本情况下,该算法性能同样优于已有算法.由此可见,该算法有效解决了学习相似度度量函数中出现的过拟合问题.
2.2.2iLIDS数据集iLIDS数据集中每个行人包含两张到八张照片不等.实验中,从每个行人所包含的图像中随机取两张作为实验集,最后得到的实验集为119对相关行人图像.最终实验效果是多次随机取得的实验集效果的平均值.数据集中的图像尺寸是不尽相同的,实验中统一把图像的尺寸设置为高128宽48.实验中训练集为59对行人图像,测试集为60对行人图像.本文算法在iLIDS数据集上与其它算法的效果对比如下。该算法与表中基于测度学习的算法PCCA、rPCCA、MFA和kLFDA都是基于RBF-χ2核函数.但从表6可知,该算法整体性能优于PCCA、rPCCA和MFA等算法;该算法虽然与kLFDA算法性能接近,但总体上还是优于kLFDA算法.由此可见,该算法比使用相同核函数的其它算法效果更好.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.
2.2.3ETHZ数据集数据集中的图像尺寸是不相同的,实验中统一把图像尺寸设置为高128宽48.实验中训练集为76对行人图片,测试集为70对行人图片.表7分析了本文算法在ETHZ数据集上与其它算法的效果对比.从表7可知,该算法在ETHZ数据集上的整体性能优于同样基于RBF-χ2核函数的PCCA、rPCCA、MFA和kLFDA等算法.在ETHZ数据集上,同样证明了该算法比使用相同核函数的其它算法效果更好.值得一提的是,该算法的rank1较于其它算法显著提升了.另外,该算法整体性能也优于KISSME、SVMML和LFDA算法.
2.2.4CUHK01数据集数据集中的图片的尺寸是不相同的,实验中统一把图片的尺寸设置为高128宽48大小.实验中训练集为486对行人图片,测试集为485对行人图片.本文算法在CUHK01数据集上与其它算法的效果对比如下表8:从表8可知,该算法在CUHK01数据集上的整体性能同样优于KISSME和SVMML算法以及基于测度学习的算法PCCA、LFDA、rPCCA、MFA和kLFDA.该算法与MidLevel算法效果接近,但MidLevel算法模型复杂.该算法与其它算法效果对比可知,该算法可以学习得到具有良好区分性的相似性度量函数.通过在CUHK01数据集上的效果对比,进一步说明该算法与使用相同核函数的其它算法相比效果更好.
2.3特征核映射前后算法性能的比较为了分析特征经过核映射后对算法的影响,表9、表10、表11和表12分别给出在四种数据集上特征经过核映射前后算法效果的对比实验.通过在四个公共数据集上实验对比可知,特征经过核映射后算法效果在VIPeR、iLIDS和CUHK01数据集上整体上都得到了显著的提升,在ETHZ数据集上虽然提高不明显,但还是优于已有算法.总的来说,该算法在特征经过核映射后,学习得到的相似度度量函数更具有区分性,能够得到较好的识别效果.
2.4权值a取值不同时算法的性能比较为了分析权值a对算法性能的影响,图3、图4、图5和图6分别给出在四种数据集上不同的权值a下,本文算法性能的对比实验.其中SC为颜色特征子空间的相似度函数,ST为LBP特征子空间的相似度函数.权值a越大,代表相似度函数中颜色特征子空间的相似度函数比重越大.通过在四种数据集上不同的权值a下算法性能的对比实验可知,a取值对算法效果的影响较大.当a取值很小时,算法效果不是很理想,当a增大时,算法性得到一定程度的提升,当a在0.5到0.7范围内取相应的值时,算法性能能达到最优,当a继续增大后,算法性能有一定程度的下降.
3结论