前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机视觉范畴范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
【关键词】MFCVisual C++图像显示
尽管图像处理学属于综合性的边缘性学科,但是在研究范畴方面,它和模式识别、计算机图形学以及计算机视觉等存在着一定的差异,但也有一定的联系。
传统意义上的图形学指的是通过图表、图形、绘图等诸多形式对数据信息进行反应、阐述的一种学科。但是计算机图形学则与之不同,它研究的对象是如何借助计算机技术来创造此类形式。实际上,从输出结果与处理对象上看,它与图像分析恰恰相反。计算机图形学正在尝试着利用非图像形式的数据描述促使图像形成,而图像分析和模式识别较为类似,二者间的输出是不一致的,但其转换比较方便。计算机视觉突出强调的是计算机在实现人的视觉功能方面的重要性,其牵扯到了大量与图形处理相关的技术,然而当下研究内容大多是和图像理解相结合的内容。
虽然如今在处理大数据量的图像方面,计算机处理的速度比不上光学法,但计算机处理的精确度高,可十分便捷、灵活地求解出极其复杂、功能多样化的运算。在这么短的发展历史过程当中,它可以在几乎和成像相关的所有领域得到成功推广与运用,并起着非常重要的影响。
1 MFC和VC++
Microsoft Foundation Class Library(MFC),为了能够方便的建设Windows下的应用程序,可以把MFC中的所有类别结合起来,创建应用程序框架,这也是一种相对SDK来说更为简单的方法。此时程序员的工作内容是,借助预定义的接口,在此轮廓中填进详细的应用程序中独有的东西。
Microsoft Visual C++有与之相对应的工具去做好该项工作:资源编辑器能有利于对用户接口进行直观地设计;AppWizard可在初步的框架文件的生成过程中进行使用;Class Wizard有利于把代码添加至框架文件中;类库可以有助于应用程序特定的逻辑的实现。
2 图像显示形式
2.1 图像缩放
图像的缩放操作能使图像的大小发生变化,形成的图像的像素也许在原图内找不出与之相对应的像素点,如此一定要实施近似处理。通常情况下,我们可以采用与之最接近的像素值进行赋值,当然利用插值算法进行计算也可。
比方说,如fx、fy的值都是0.5,那么图像将会变成以前的一半大,所得图像的(0,0)像素和原图内的(0,0)像素相对应;(0,1)像素与原图内的(0,2)像素相对应;(1,0)像素与原图内的(2,0)像素相对应,依此类推。在原图的基础上,每行间隔一个间距设置点,每相距一行实施操作。
2.2 图像旋转
一般图像是以图像的中心为原点进行旋转的,在旋转过后,图像通常会出现一些变化。与图像平移相同的是,一方面,图像旋转为了显示全部图像可支持拓展图像范畴,另一方面,可去除掉转出显示区域的图像。
3 图像显示设计
系统通过在功能模块内使用了函数void Invalidate( BOOL bErase = TRUE ),实现图形的旋转与缩放功能,该函数具有让整个窗口客户区无法发挥出作用的功能,这就说明要重新进行绘制。比方说,若一个被其它窗口遮蔽的窗口转变成前台窗口,则以往被遮挡的部分就丧失了作用,需重新绘制。此时在应用程序的消息队列中,Windows会WM_PAINT消息。MFC为窗口类出具了WM_PAINT的消息处理函数OnPaint,该函数承担着对窗口进行重新绘制的工作。
3.1 图像放大与缩小
图像放大是指图像依据一定比例进行缩小或者扩大,能使位图空间的大小发生变化。得到位图的空间尺寸,在不使位图的大小发生改变的情况下,让位图依据以往大小只改变相框的大小,但不改变相片的大小。
3.2 图像翻转
水平翻转是将图像水平方向的像素点沿着中间线进行翻转,处理过程为:获得当前设备指针,指向当前设备,定义三个无符号的的指针,为翻转图像申请一段内存空间,大小为图像内存大小。内层循环将每一行的像素点进行翻转,左侧的像素移到右侧,右侧的像素点移到左侧外层循环将所有行的像素进行翻转将左侧的像素点移到右侧,Invalidate()函数进行窗体的重绘。
4 结论
本文说明了运用VC++平台和MFC技术来实现本次设计的优点,主要讨论了如何构建一个简单的图像显示系统,如何简单处理图像,从而能够在MFC平台下成功实现图像的翻转、缩小以及放大的功能。
参考文献
[1]胡新宸.基于OpenGL的医学图像三维可视化平台的设计与实现[D].厦门大学,2013.
[2]秦练,赵秀萍,杨文杰.计算机图形学编程实践研究[J].北京印刷学院学报,2014(04).
[3]黄琛.基于MFC的绘图软件设计与实现[J].电脑知识与技术:学术交流,2013(10).
关键词 Kinect;细化算法;Otsu算法;温室番茄盆栽;茎干分割
中图分类号 TP391.41 文献标识码 A 文章编号 1007-5739(2014)03-0336-03
温室作物生长过程的数字化和可视化,是温室环境调控技术的重要基础和条件,对提高设施农业产业的经济效益具有重大意义。数字农业是集农业科学、环境科学、计算机技术、通信技术和网络技术等众多技术于一体的高新技术系统,也是现代农业发展的新模式[1-2]。伴随着计算机软硬件和图形图像处理技术的快速发展,计算机视觉技术在数字农业中的应用越来越广,从而使得用计算机视觉技术实现农作物的数字化成像与可视化成为可能。数字化就是采用图像传感器对目标进行成像与采集,可视化则把所采集到的图像信息在设备上进行直观的呈现[3-4]。然而现在对温室作物信息的采集主要是通过采用昂贵的图像采集设备来完成的,比如CCD摄像机、激光扫描仪、双目设备等,而且有些设备得到的图像信息容易受到光线的影响。为此,本文以温室番茄盆栽作物为研究对象,提出了一种基于Kinect立体视觉系统的作物茎干特征提取与分析算法。最后基于分割得到的茎干,在OpenGL图形平台中绘制番茄植株茎干的三维形态,然后再加上一些叶片、果实从而形成番茄植株的拓扑结构,最终实现番茄植株的可视化。
1 图像采集与预处理
1.1 Kinect简介
Kinect是微软公司研制的一款体感外设,它是一种3D体感摄影机。其主要特点及功能:Kinect底部为多点阵列麦克风,可以输入声音并能够过滤环境噪声;RGB摄像头,可以进行图像捕获;2个深度传感器,由红外线投影机加单色CMOS传感器组成,使得设备能识别3D空间;底座有机械转动功能,可以让摄像头拍摄到的范围更广[1,5]。
Kinect能够处理30帧/s的深度信息,每帧有640×480像素,每个像素16位,而实际有效位只有13位,纵向角度范围43°,横向57°,深度探测范围在1.2~3.8 m为最佳[1]。
1.2 图像采集和预处理
图像采集与预处理的硬件系统由运行Windows 7的PC、Kinect、支架、供电和传输线组成。软件平台是Microsoft Visual Studio 2010和OpenCV库与PrimeSense公司开发的OpenNI库。通过Kinect的彩色感应镜头与深度感应镜头,能够同时获得温室盆栽的彩色图像与深度图像。图1a是Kinect彩色感应镜头获得的温室番茄盆栽的彩色图像。
图1a是从Kinect得到的植株彩色图像,虽然清晰但是图像中同时也含有许多杂乱的背景。Kinect可以获得物体到镜头的距离(深度),可以利用这一特点对彩色图像和深度图像进行合并处理。图1b是Kinect得到的深度图像,其中橙色表示距离摄像头0.8~1.5 m的部分。将彩色图像中位于深度图像除橙色外的区域去除,就得到了图1c,这样就可以消除目标盆栽植株以外的大部分干扰。但是Kinect的精度限制造成了图1c中的植株存在一些不连续的地方。
2 温室盆栽的茎干检测
2.1 深度图像细化
为了检测出盆栽的茎干,首先对深度图像进行细化。细化就是求取图像骨架,以骨架代替该图像。本文采用的细化方法是Zhang并行细化算法,它是一种比较实用的算法,具有速度快和保持细化后曲线的连通性等优点[6]。
对图1b进行Zhang并行细化算法后得到的二值图像如图1d所示,其中有效像素为白色,背景为黑色像素。
2.2 Hough变换检测茎干
在图1d中的二值图像可以看出盆栽的茎干被细化成1条线段,因此要想检测出茎干,只需要对线段进行检测。本文中采用概率型Hough变换算法来检测线段[7]。
在细化以后的二值图像中,采用概率型Hough变换算法检测盆栽茎干。为了使结果更清晰易见,将检测到的线段在深度图像中标记出来,线段颜色为浅蓝色,线段的端点用黄色标记(图1e)。注意到Hough算子在花盆处检测到了大量的线段,这些线段属于误检测,不应该纳入到茎干的范畴中,在本小节剩下的部分中将主要介绍如何去除这些不符合需要的线段,并保留真正的茎干线段。
2.3 消除误检测茎干
如果以铅垂线为轴,盆栽的冠层和花盆的横截面积要比主茎干处的大,因此盆栽的宽度从上到下呈现由大到小再到大的特点。这个“大―小―大”的特征与双峰直方图的“峰―谷―峰”特征类似。因此,考虑利用Otsu算法来定位茎干较多的“谷底”区域,从而滤除不符合要求的线段。具体步骤如下:①找出盆栽植物的中轴线(图1f)。②以盆栽植物中轴线为分界线建立网格系统(图1f),如果有一定数量的橙色像素落入某个格子,则认为格子有效。③以网格列号为横坐标,中轴线处为坐标原点,确定网格系统中每行的左右两端到盆栽中轴线最远的有效格子的坐标,并取绝对值。记录每行的这个值,建立以铅垂线为横轴的直方图(图2)。
关键词:ICA-HMAX模型;视觉相似度;卷积核;语义相似度
中图分类号:TP317 文献标识码:A 文章编号:1009-3044(2016)08-0177-05
Abstract: This paper firstly introduces a multi-level convolutional ICA-HMAX model; then propose visualization methods of the convolution kernel convolution kernel to achieve different levels of understanding. Proposed using S3 layer feature of the ICA-HMAX model to achieve visual similarity calculation of different categories. By implementing different categories of visual similarity between calculated on Caltech 101 datasets, and compared with the semantic similarity between categories and further explore the relationship between semantic similarity and visual similarity between.
Key words: ICA-HMAX model ;visual similarity; kernel convolution kernel; semantic similarity
1 概述
21世纪以来,数字成像技术和存储技术得到了空前的发展;使得每天有数量巨大的数字图像进入人们的生活,成为人类生活、工作、娱乐中的组成部分。另一方面,互联网技术的发展给图像的迅速传播提供了有利的条件。此外,图像是视觉信息的重要来源之一,蕴含丰富的语义信息。图像理解是人工智能领域中的一个新的方向,其核心问题是研究如何使计算机能够像人脑一样有效正确理解图像中所表达的高层语义信息。
仿生多层模型在计算机视觉和人工智能邻域取得了显著的成果。20世纪末,Poggio和Riesenhuber根据IT皮层的生理学数据提出了标准HMAX模型[1],该模型模拟视皮层中腹侧通路中简单细胞(Simple Cell)和复杂细胞(Complex Cell)的交替处理的功能,实现多层次特征提取。在此基础上,Serre等人提出一种具有随着层次的增加复杂度和不变性逐渐增强的图像特征表达[2],并将其应用到真实场景的目标识别中,其识别性能明显优于传统的特征表达(如SIFT特征[3]);Hu等人根据大脑神经元响应的稀疏特性进一步扩展HMAX模型,提出了Sparse-HMAX模型[4],在分类性能上远远优于HMAX模型,同时较好模拟和解释神经元对视觉信号的稀疏响应。
本文内容章节安排如下:第2节首先简要描述了本文的ICA-HMAX模型;然后介绍卷积核的可视化方法;第3节介绍基于WordNet的语义相似度计算和基于ICA-HMAX的视觉相似度计算方法。第4节实验结果和分析。第5节总结与展望。
2 ICA-HMAX模型与卷积核可视化
2.1 ICA-HMAX模型简介
前馈ICA-HMAX模型由五层构成如图1所示。自底向上依次为S1C1S2C2S3五层,其中S1层卷积核(W1、V1)由独立成分析(Independent Component Analysis,ICA)方法从彩色图像的数据块中学习获得,为了使得C1层具有局部空间平移不变性,在S1层的每个二维平面响应图上进行局部最大值汇聚(max pooling)操作;同理,S2层卷积核(W2、V2)也是采用ICA方法从C1层采样块中学习获得;同样,为了使得C2层也具有局部空间平移不变性,在S2层的每个二维平面响应图上进行最大值汇聚(max pooling)操作;同理可以获得S3层的卷积核(W3、V3)以及S3层的特征表达。值得注意的是该前馈模型的卷积核均为单尺度。
2.2 卷积核的可视化
若要实现对多层模型ICA-HMAX的深入的了解,需要知道不同层次的卷积核编码的图像信息。由于S1层特征卷积核是在彩色图像的原始像素层上学习,可以在像素空间上直接观察S1层卷积核编码的图像信息。而S2、S3层的卷积核是在图像C1、C2层的响应图上经过ICA学习获得高维数据,因此不能直接观察其卷积核编码的图像信息。为了观察S2、S3层的卷积核所编码的图像信息,当给定一个某个类别的卷积核的条件下,本文提出在该类别的图像上找出使得该卷积核的刺激最大的前50个感受野区域,并将这些区域与其刺激的响应值进行加权求和,然后取平均;所得结果具有表示S2、S3层卷积核所编码的图像信息从而作为S2、S3层的卷积核可视化。
3 相似度计算
3.1 基于WordNet的语义相似度计算
WordNet是由普林斯顿大学心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。一般来讲,国内外的研究学者将经典的基于语义的相似度的计算方法分为三个类型[6,7]:基于距离的相似度计算(Path Counting Measures)、基于信息内容的相似度计算(Information Content Measures)和基于特性的相似度计算(Feature-based Measures)。本文主要介绍基于距离的相似度计算方法――Shortest Path算法和Leacock and Chodorow算法。
3.2 基于视觉的类别相似度
众所周知,不同类别之间存在部分外观相似性,比如山猫和豹、狼和哈士奇、浣熊和果子狸等等。可见,分别在两个类别的训练集上训练ICA-HMAX模型,若两个类别视觉相似度越高,则这两个类别的S3层卷积核相似的基元个数越多;反之,两类别的S3层卷积核中的相似的基元个数越多,两个类别的视觉相似度越高。
我们知道两个类别的相似度越高,则两个类别的ICA-HMAX模型越能较好地实现对异类图像的相互表达。因此采用配对字典的方法[10]实现对S3特征表达的重构。然后,将重构图像与输入图的结构相似度[11](SSIM)作为衡量S3层特征对输入图像描述的好坏。若重构图像与输入图的结构相似度越高,则两个类别的视觉语义相似度越高,反之亦然。基于目标类别的视觉语义相似度算法流程如表1所示:
4 实验结果与分析
实验设置:实验所使用的PC机配置为Intel(R) Core(TM) i7-4770、CPU 3.4GHz × 8 cores、RAM 16 GB、Windows 7操作系统。为了探索不同类别之间的语义相似度和基于ICA-HMAX模型S3层的特征描述子的视觉语义相似度之间的关系,本文选择了Caltech 101数据集[12]进行实验,该数据集以彩色自然场景图像为主(包含一定数量的人造图像)。包括动物、花、人脸等101个目标类别以及一个背景类别。除背景类别之外,每个类别中的每张图片只包括一个类别中的一个实例,这有利于本实验进行。在进行实验之前,首先对数据集中每张图像做如下预测处理:统一图像高度为140个像素,保持图像的长宽比不变,采用双三次插值对其进行缩放。将每个类别中的图片按照4:1的比例分成训练集和测试集,在训练上训练各个类别的ICA-HMAX模型,采用3.2节介绍的视觉语义相似度方法在测试集上测试不同类别之间的视觉相似度。
4.1卷积核的可视化
图3(b)、(c)、(d)分别给出了S1、S2和S3层卷积核的可视化结果。结果表明,不同层次的卷积核编码了图像不同类型的特征。图3(b)中的S1层卷积核均编码了图像底层特征(如彩色边缘、彩色表面、拐角等结构信息等),并且不同类别的底层特征具有相似的结构特征;值得注意的是,通过ICA在彩色图像上的学习,获得了重要的颜色信息如彩色边缘、彩色表面等。S2层卷积核编码了各类别的中层部件特征,例如face_easy类别的S2层编码了人脸的眼睛、嘴巴、鼻子等信息,如图3(c)所示。由图3(d)可以看出,由于S3层卷积核的感受野比S2层大,编码信息更趋于类别信息。研究表明:这符合图像理解的层次特性[13]。
4.2 相似度
数据集Caltech101图像部分类别之间的基于路径的Shortest Path算法和Leacock and Chodorow的相似度矩阵分别如图4和图5所示。由图4和图5可以看出这两个矩阵都是对称矩阵。与一个类别最相似的类别有的不止一个,如与ant类别最相近的类别是butterfly、dragonfly、mayfly。值得注意的是图5中基于路径的Leacock and Chodorow算法的类别相似度数据是经过归一化处理后的数据。
本文采用基于ICA-HMAX模型的S3层的特征计算视觉相似,其视觉相似度矩阵的结果如图6所示。在该相似度矩阵中,把同一类别之间的视觉相似度设置为1作参考,来衡量不同类别之间的视觉相对度。在图6中横轴表示ICA-HMAX模型的类别。纵轴表示测试图像的类别。由图6可见,不同类别之间的视觉相似度矩阵不是对称。比如用airplane的ICA-HMAX模型对helicopter类别的图像进行表达,并计算其视觉相似度其值为0.506;而当用helicopter的ICA-HMAX模型对airplane类别的图像进行表达,并计算其视觉相似度其值为0.253。且与一个类别最相似的类别只有一个。在Caltech101数据集中helicopter类别的直升机的实例图片上都存在较为明显的螺旋桨。在airplane类别的飞机图像没有明显的螺旋桨。而在忽略helicopter类别的直升机螺旋桨后,直升机的机体形状与airplane类别的机体在视觉上存在相似。基于语义和视觉的相似度统计如表2所示。
两种相似度之间的差异性分析:由表2可知,基于语言的语义的相似度与基于视觉的相似度之间存在一致性和差异性。一致性:由表2可知,20个类别中基于语义和视觉的相似度一致有5对,分别sunflower和bonsai、rhino和llama、airplane和helicopter、ant和mayfly、hedgehog和llama。比如airplane和helicopter这两个类别的实例如图7所示。由图可见,不同类别之间存在视觉相似,两个类别实例在的某些局部形状、颜色、纹理等方面具有视觉上的相似性。差异性:由表2可知:20个类别中基于语义和视觉的相似度不一致的较多。如图8所示,ant、butterfly和dragonfly这三个类别的语义相对度很高但是它们的视觉相似度相差较大。原因在于:语义即语言意义,是人脑对客观上事物的认识和理解,它具有高度的概括性和抽象性。类别之间的语义往往根据类别所属范畴、关系、属性、功能等综合特性来进行划分。而仅仅从事物的视觉外观上无法体现出上述种种关系。
5 结论与展望
通过ICA-HMAX不同层次卷积核的可视化分析可知:自底层到高层不同层次的卷积编码规律如下:不同层次的卷积核编码了图像不同类型的特征。模型的层次越高,卷积核编码的信息越趋向于反映目标类别的特性,S1层卷积核编码体现底层共享特征(如拐角、 彩色边缘、彩色表面等)。S2层卷积核编码中层部件特征,比如face_easy类别的S2层编码了人脸的眼睛、嘴巴、鼻子等局部信息。S3层编码信息更趋于类别的全局信息。研究表明:这符合图像理解的层次特性。
通过视觉的相似和语义的相似度分析可知,基于ICA-HMAX模型的S3层特性的视觉相似度与语义相似之间存在一致性和差异性。这种一致性和差异性在计算机视觉和人工智能领域具有互补性。比如对于那些语义和视觉的相似度一致的类别,尤其是视觉相似度较高的类别之间可以进行迁移学习,使得计算机实现人类的类比学习能力。对于语义和视觉的相似度差异性在图像的检索和图像理解等方面可以实现互补。通过语义的相似度我们可以检索到较多的相似类别,如与ant语义相似的有ant、dragonfly、butterfly。这样我们可以实现大范围的查找。然后在通过视觉的相似度进一步筛选正确的类别图片。反之,通过语义可以指导基于视觉的机器学习。
参考文献:
[1] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex [J]. Nature neuroscience, 1999, 2(11): 1019-1025.
[2] Serre T, Wolf L, Bileschi S, et al. Robust object recognition with cortex-like mechanisms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007, 29(3): 411-426.
[3] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91-110.
[4] Hu X, Zhang J, Li J, et al. Sparsity-regularized HMAX for visual recognition [J]. PloS one, 2013, 9(1): e81813-e81813
[5] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines [C] //Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010: 807-814.
[6] Hliaoutakis A. Semantic Similarity Measures in MeSH Ontology and their application to Information Retrieval on Medline [J]. 2005.
[7] Raftopoulou P, Petrakis E. Semantic similarity measures: A comparison study [J]. Technical University of Crete, Department of Electronic and Computer Engineering, Tech. Rep. TR-TUC-ISL-04-2005, 2005.
[8] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and Application of a Metric on Semantic Nets”, IEEE Transactions on Systems, Man and Cybernetics, vol. 19, Issue 1, (1989) January-February, pp. 17 - 30.
[9] H. Bulskov, R. Knappe and T. Andreasen, “On Measuring Similarity for Conceptual Querying”, Proceedings of the 5th International Conference on Flexible Query Answering Systems, (2002) October 27-29, Copenhagen, Denmark.
[10] Vondrick C, Khosla A, Malisiewicz T, et al. HOGgles: Visualizing Object Detection Features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1-8.
[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
关键词:图像情感;情感计算;情感表示
中图分类号:TP391.4
1 引言
随着社交网络的快速发展和广泛使用,例如Twitter(https://),Flickr(https://),YouTube(https://)和新浪微博(http://),人们倾向于将自己的所见所闻、兴趣爱好等以文本、图像和视频等多媒体的形式上传至网络来呈现和分享其观点和情感。因此,即会导致文本、图像和视频等多媒体内容的规模正以显示指数级态势发生着爆炸式增长,而针对这些多媒体内容的处理及理解需求则日趋显著与突出。相对于底层视觉特征层,人们只能够感知和理解图像、视频的高层语义层,包括认知层和情感层。以往对视觉内容分析的工作主要集中在理解图像、视频的感知层,即描述图像、视频的真实内容,如物体检测与识别。然而,公众对数字摄影技术的关注热衷及对视觉内容情感表达的强烈需求,使得对图像、视频最高语义层―情感层的分析已然具有高度重要的研究和应用价值。
对多媒体内容情感层的分析属于情感计算的一部分。情感计算的概念是由麻省理工学院媒体实验室的Picard教授于1995年首次提出的,而于1997年专著《Affective Computing》则正式出版问世[1]。书中给出了情感计算的定义,即情感计算是指与情感相关、来源于情感或能够对情感施加影响的计算,包含3个部分:情感识别、情感发生和情感表达[1]。
基于此,根据需要处理的多媒体数据类型,对多媒体情感层的分析可以分为4种:基于文本的情感分析[2]、基于音频的情感分析[3-5、基于图像的情感分析[6-7]以及基于视频的情感分析[8-11]。其中,基于文本和音频的情感分析比较成熟,图像情感分析中人脸表情识别的研究也相对成熟,而关于普通图像和视频情感分析的研究相对来说,却仍显不足。对图像情感识别的研究最初源始于人脸表情R别,因为人脸检测和人脸识别的研究相对成熟,心理学对人脸表情的分类也已建立有清晰脉络,此外更有大量的研究机构也成功建立了表情识别的数据库[12-14]。
受到情感鸿沟和人类情感感知与评估的主观性等基础现实的制约,普通图像的情感分析进展缓慢。不仅如此,图像情感计算的发展还将需要心理学、艺术学、计算机视觉、模式识别、图像处理、人工智能等领域的共同支持,众多领域学科的交叉使得图像情感计算成为一个富有挑战性的研究课题。本文对图像情感计算的发展研究现状进行了全面论述和分析。
1 情感的定义与描述
人类具有很强的情感感知和表达的能力,但是由于情感的复杂性和抽象性,人们很难将情感从概念上实现具体化和清晰化。心理学、生理学领域的科学家们早在18世纪就开启了专门情感研究,并且推出了诸多情感理论来解释情感是如何源起于产生的,如1872年的Darwin三原则理论[15]、1884年的James-Lange理论[16]、1927年的Cannon-Bard 理论[17]和1991年的Lazarus理论[18]。但是迄今为止,科学家们也仍未提出一个准确、全面且可得到一致认可的情感定义。
心理学中与情感相关的词汇有emotion、affect、sentiment、mood、affective、emotional等,类似的中文词汇有情感、感情、情绪、情感的、感情的等。心理学上认为情感、情绪与感情是3个严格不同的概念[1,19-20],但计算机学科对此区分并不严格区分,一般只是笼统将其称为情感。wikipedia上给出了一种情感的模糊定义,“情感是对一系列主观认知经验的通称,是多种感觉、思想和行为综合产生的心理和生理状态”。心理学领域主要有2种方式来描述情感:离散情感状态(CES)和维度情感空间(DES),或称为范畴观和维度观[1,19-20] 。
1.1 离散情感状态
持范畴观的心理学家将情感分成相互独立的范畴,而且在外部表现、生理唤醒模式上都存在一定的差异。近年来,持范畴观的研究人员根据生物进化理论把情感分为基本情感和复合情感。不同的心理学家对基本情感的分类差异很大,从2类到几十类也各有不等,具体的分类方法可以参照文献[1,19-20]。研究中更具代表性的成果主要有:Ekman把情感分为6类,即高兴、愤怒、厌恶、恐惧、悲伤、惊奇[21];Izzard 用因素分析方法,提出11种基本情绪,即兴趣、惊奇、痛苦、厌恶、愉快、愤怒、恐惧、悲伤、害羞、轻蔑和自罪感[22];Mikels 通过严格的心理学实验,把情感分为8 类,即表示积极情感的娱乐、敬畏、满意、刺激,表示消极情感的生气、厌恶、害怕和悲伤[23];Plutchik提出了一套情感的演化理论,认为情感有8种基本类型,但是每种情感又有3种不同的愉悦度(valence),即把情感分为24类[24]。还有一种模型是将情感分成积极和消极2类,或者积极、消极和中性三类。目前对表情识别的分类多是基于Ekman 的分类,而对图像情感分类则以Mikels 的分类为主。
复合情感是由基本情感的不同组合派生出来的,可随着个体认知的成熟而烟花发展,并随着文化的不同而发生变化。Izzard认为复合情感有3类:基本情感的混合、基本情感和内驱力的集合、基本情感与认知的结合[22]。
用CES来描述和测量情感的优势可分述为:
1)符合人们的直觉和常识,容易被人们理解和标注,有利于情感计算的成果在现实生活中推广和应用;
2)有利于智能系统在识别情感后,进一步推理与之相联系的特定心理功能和可能的原因,而后做出适当的反映。
但也需明确认识到CES的缺点,具体表述为:
1)哪些情感状态或基本情感是必要的,目前研究者对此没有统一的认识;
2)CES是对情感的定性描述,无法用量化的数字表达主观的情感体验,且其对情感的描述能力也比较有限。
1.2 维度情感空间
持维度观的研究人员认为情感具有基本维度和两极性,所有的维度构成一个笛卡尔空间,DES就将情感描述为该空间中的点,理论上该空间的情感描述能力是无限的,即能够涵盖所有的情感状态。各种不同的维度情感空间可以参照[1][19][20]。常见的维度情感空间大多是3D的,如natural-temporal-energetic[25]、valence-arousal-control[26]、activity-weight-heat[27]等。比较典型的是愉悦度-激活度-优势度空间(valence-arousal-control space,VAC,有些时候也称为pleasure-arousal-dominance space,PAD)[26]。其中,愉悦度表示个体情感状态的正负特性,激活度表示个体的神经生理激活水平,优势度表示个体对情景和他人的控制状态。具体的VAC三维情感空间如图1 (a)所示[28],从图中不难看出,优势度维度的取值范围很小,而且只有当愉悦度呈现高峰值时才会有用。因此可以说,优势度在描述情感过程中仅能发挥有限的的作用。大多数计算机学者用DES 描述情感时都不曾考虑优势度,以愉悦度-激活度空间为主。但也并非所有的愉悦度和激活度的组合都能构成情感,能构成人们常见的情感状态的愉悦度和激活度的组合范围如图1 (b)所示[28]。
用DES来描述和测量情感具有鲜明优势,具体可论述为:
1)描述能力强,理论上能描述所有的情感类别;
2)易于对情感进行量化,以精确的数值来描述情感,解决了CES 情感标签的模糊性问题,也一并消除了自感的描述问题。
但DES也存在一定的缺陷,分析可得如下结论:
1)不易于人们直观的理解,给定DES的维度值,普通人无法识别出应该归属为哪种情感;
2)测试人员对DES的打分有一定的难度,由此导致较大的偏差。
2 图像情感计算的问题描述
所谓图像情感计算,是指计算机从图像中分析并提取情感特征,使用模式识别与机器学习的方法对其执行计算,进而理解人的情感。根据情感的描述方式,图像情感计算可以分为三大任务:情感分类、情感回归和情感图像检索。
一个图像情感计算系统通常包括如下3部分:
1)图像预处理。 由于输入图像在尺寸、光照、颜色空间等方面存在很大的差异,在进行特征提取之前往往需要进行预处理。比如,把图像尺寸调整到统一大小,把颜色空间转换到同一空间等。在图像情感计算过程中,预处理虽然不是一个专门的研究热点,但却会对算法的性能产生很大的影响。
2)情感特征提取/选择。 特征提取与选择是图像情感计算过程中的重要组成部分,直接决定了算法最终的性能。该步骤的主要任务是提取或者选择一些特征,并且使得其在类内具有很大的相似性而在类间具有很大的差异性。一般而言,用于图像情感计算的特征可以分为底层特征、中层特征和高层特征。
3)模型设计。 模型设计是指根据图像情感计算的任务来设计合适的模型,并以提取的特征作为输入,通过W习的方法来获得相应的输出。情感分类是一个多类分类问题,可以直接采用多类分类器,或者转换成多个二值分类。情感回归是一个回归问题,研究针对的是维度情感模型。情感图像检索对应的是如下检索问题,即给定输入图像,查找与之表达相似情感的图像。针对不同问题,可以采用的学习模型也将各有不同。
3 图像情感计算的研究现状与分析
本节对图像情感计算的研究现状进行总结与分析。首先从不同的分类角度综合归纳了当前可高效用于图像情感计算的技术特征,然后简要介绍常用的机器学习方法,最后对已有方法存在的主要问题进行分析并给出可能的解决方案。
3.1 用于图像情感计算的特征
如何提取与情感紧密相关的特征是情感识别的关键问题。根据所提特征的通用性(generality),可将已有的特征分为2类:通用特征和专用特征。根据所提特征的层次(level),可将已有的特征分为3类:底层特征、中层特征和高层特征。
进一步地,所谓通用特征是指计算机视觉里普遍适用的特征,设计这些特征的目的并不是为了用于情感识别,而是其他的视觉任务,如物体检测。Yanulevskaya所使用的Wiccest特征和Gabor特征就是典型的通用特征[29]。而专用特征则是针对情感识别这一特定任务而设计的能够表达不同情感的特征,比如常见的颜色、纹理等底层特征。
目前,绝大多数的情感特征提取工作都是基于艺术元素的,如颜色、纹理、形状、线条等。针对每一种类的艺术元素,研究者们又设计了为数可观的不同描述方法。关于艺术元素及常用特征的典型描述可见于如下:
1)颜色(color)有3个基本的属性:色调、强度和饱和度。常用于描述颜色的特征除了这3个基本属性的平均值,还有colorfulness、area statistics[30-31]等。
2)灰度值(value)描述颜色的亮度或暗度。常用的特征有lightness、darkness[30-31]等。
3)线条(line)是在某物体表面的连续的标记。主要有2种:强调线和非强调线。强调线,又称轮廓线,勾勒出了一个物体的轮廓或边缘,而非强调线则用于描述那些轮廓和边缘未可堪称重要的作品。不同的线条给人不同的感觉,如水平线代表平静,给人轻松的感觉,垂直线代表强度与稳定,对角线代表紧张,曲线则表示运动。通常用于描述线条的特征有通过霍夫变换计算的静止和动态线条的数量和长度[30]。
4)纹理(texture)用于描述物体的表面质量(surface quality),有的艺术家使用平滑的纹理,也有的人喜欢用粗糙的纹理。常用的有基于小波的特征、Tamura特征、灰度共生矩阵[30]以及LBP特征。
5)形状(shape)是平的,具有2个维度:高度和宽度。Lu等人使用圆度(roundness)、角度(angularity)、简单性(simplicity)和复杂性(complexity)来描述形状[32]。
(6)形式(form)具有3个维度,即高度、宽度和深度,因此形式具有体积。
(7)空间(space)指物体之间、上面、下面或物体内部的距离或面积。
除了目前常规通用的底层表达,也有部分工作开始提取中层或高层的特征。Machajdik和Hanbury[30]提取了包括Level of Detail、Low Depth of Field、Dynamics和Rule of Thirds在内的构图(composition)作为中层特征,同时也发掘包括人脸、皮肤在内的图像内容(content)作为高层特征。Solli和Lenz使用每个兴趣点周围的情感直方图特征和情感包(bag-of-emotion)特征来对图像进行分类[27]。Irie等人提取基于情感的音频-视觉词组包(bag of affective audio-visual words) 的中层特征以及隐主题驱动模型来对视频进行分类[33]。
3.2 常用的机器学习方法
图像情感分类一般可建模为标准的模式分类问题,常用的分类器都可以用来解决此问题。根据建模过程,其中的有监督学习即可以分为生成式学习和判别式学习。相应地,判别式学习就是直接对给定特征条件下标签的条件概率进行建模,或者直接学习一个从特征到标签的映射,如Logistic回归和支持向量机(SVM)等。生成式学习则分别对类别先验和似然进行建模,而后再利用Bayes法则来计算后验概率,如高斯判别分析和Naive Bayes。当处理多类分类时不仅可以直接采用多类分类器,也可以转换成多个二值分类问题,常规策略有“一对一”分类和“一对多”分类。多种分类器可用来实施图像情感的分类,其中进入使用流行的主要有Naive Bayes[30]、Logistic回归[34]、 SVM[32,35-36]和稀疏表示等。
一般情况下,图像情感回归建模为标准的回归预测问题,即使用回归器对维度情感模型中各个维度的情感值进行估计。常用的回归模型有线性回归、支持向量回归(SVR)和流形核回归(manifold kernel regression)等。当前有关图像情感回归的研究仍属少见,已知的只有使用SVR对VA模型所表示的情感尝试,并实现了回归[32,35]。
目前,已知的用于图像情感检索的方法主要有SVM[36]和多图学习[37]等。
3.3 现有方法存在的主要问题及可能的解决方案
3.3.1 所提取的底层特征与图像情感之间存在语义鸿沟
目前的图像情感识别方法主要仍是基于学习的方法,因此学习时所使用的特征决定了最终学习的分类器或回归预测器性能的优劣。而时下绝大多数工作所提取的特征主要是基于艺术元素的底层特征,这就使得“情感鸿沟”极为显著,学习所得的分类器的分类准确率较为低下,回归预测器的预测结果误差较大。基于此,如何进一步缩小这一鸿沟,即改进特征与情感类别或情感得分之间的映射关系,即已成为气候工作的研究重点。
3.3.2 ]有从脑科学、心理学及艺术学等学科的研究成果中得到启发
情感表达是一个多学科交叉的研究方向,现有的从计算机的角度进行情感表达的工作大多都未曾引入脑科学、心理学及艺术学等产生的丰硕研究成果,这极大地限制了图像情感表达领域的发展、推进和完善。
在进行艺术作品创作时,艺术家不仅仅需要使用艺术元素,而且还要研究艺术原理,即把艺术元素进行组织与排列以产生特定语义与情感的各类规则。因此,使用艺术原理作为描述情感的中层特征,可能会对情感识别产生一定的帮助。
3.3.3 没有考虑个性化的情感识别
目前绝大多数的情感识别工作对情感的处理都是基于期望情感的[38-39],即图像拍摄者或电影制作者创作作品时希望读者产生怎样的情感,或者基于大众化情感,即大多数人所产生的类同式情感。这样做虽然便于研究,但却不符合实际情况,因为人的情感具有宽泛的主观性,例如喜欢看恐怖片的人可能觉得这部影片并不恐怖。也就是说,不同人对同一图像的情感反应是不同的,即情感评价是因人而异的,而且同一个人在不同时刻对同一图像的情感反应也有可能出现不同,即情感评价是因时而异的。因此,课题重点就是需要研究每个人的真实情感。
要想解决上述问题,就需要为每个人都建立一个数据库。人工标记显然费时、费力,不过,把社交媒体中人们对图像的评价作为对图像情感的理解将不失为是一种近便且准确的方法。同时,还可以进一步考虑对社交媒体中情感的传播和影响进行建模,即人们某时刻对图像情感的理解可能受当时朋友情感的影响。
如果说只考虑期望情感将太过泛化,那么个性化的情感识别却可能过于特殊,并且为之产生的计算复杂度还会很高。因此,介于期望情感和个性化情感之间的群体情感就可能会是一个合理的适用性解决方案。所谓群体情感,是指具有相同教育背景、生活环境和社会文化的人对同一幅图像所产生的情感是相似的。
3.3.4 高层语义和情感的理解相互制约
人们产生情感,是由特定的知识背景与特定的语义所共同决定的。那么,考虑基于语义的图像情感识别就应该更具备克星的真实性。但是,对图像语义的研究本身即是一个尚未解决的疑难课题,这将使得运用语义进行情感识别还存在很大的困难。如果图像语义分析技术达到了一定的技术水平后,图像情感识别也必将获得根本性解决。
3.3.5 目前用于情感表_测试的数据库规模很小
现有已公布的图像情感数据库规模很小,大型的仅在2 000左右,小型的仅有200,这也限制了图像情感表达的迅速发展,首要就是无法运用统计的思想和理论来发现其中的一些规则。而与此同时,社交网络即给出了一种可能的应对方案,如何利用社交网络上的大规模数据提高图像情感的识别率,挖掘图像情感之间的相互关系则需要研究学界的更大关注与投入。
3.3.6 没有适用于图像情感识别的理想学习策略
语音情感识别之所以发展得比较迅速,即是因为得到了与语音表达的机制相关的混合高斯模型和人工神经网络的有效技术支撑。但是目前适用于图像情感识别的学习策略或分类方法却仍显匮乏,而这又需要脑科学和机器学习等交叉领域研究的进化、提升与发展。
4 结束语
研究图像情感计算,实现对图像情感语义的分析对认知心理学、行为科学、计算机视觉、多媒体技术和人工智能领域的理论和技术发展均有促进作用。在过去的十几年内,已有较多的相关工作获得发表、并进入实践。但是,图像情感计算的研究仍然处在初级阶段,仍有众多问题未获解决。本文在分析研究现状的基础上,总结出了现有方法存在的问题以及可能的解决方案,为后续研究提供了参考。
参 考 文 献
[1] Picard R W. Affective computing[M]. London, England: MIT Press, 1997.
[2] PANG B, LEE L. Opinion mining and sentiment analysis[J]. Information Retrieval, 2008, 2 (1/2): 1-135.
[3] YANG Y H, CHEN H H. Machine recognition of music emotion: A review[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3 (3): 40.
[4] RODA A, CANAZZA S, De POLI G. Clustering affective qualities of classical music: beyond the valence-arousal plane[J]. IEEE Transactions on Affective Computing, 2014, 5 (4): 364-376.
[5] ZHAO S, YAO H, WANG F, et al. Emotion based image musicalization[C] //Proceedings of IEEE International Conference on Multimedia and Expo Workshops. Chengdu, China: IEEE, 2014: 1-6.
[6] WANG W, HE Q. A survey on emotional semantic image retrieval[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008:117-120.
[7] JOSHI D, DATTA R, FEDOROVSKAYA E, et al. Aesthetics and emotions in images[J]. IEEE Signal Processing Magazine, 2011, 28 (5): 94-115.
[8] WANG S, JI Q. Video affective content analysis: a survey of state of the art methods[J]. IEEE Transactions on Affective Computing, 2015, 6 (4): 410-430.
[9] ZHAO S, YAO H, SUN X, et al. Flexible presentation of videos based on affective content analysis[C] //Proceedings of International Conference on Multimedia Modeling. Huangshan, China: Springer, 2013: 368-379.
[10] ZHAO S, YAO H, SUN X, et al. Video Indexing and Recommendation Based on Affective Analysis of Viewers[C] //Proceedings of ACM International Conference on Multimedia. Scottsdale, AZ, USA: ACM, 2011: 1473-1476.
[11] ZHAO S, YAO H, SUN X. Video classification and recommendation based on affective analysis of viewers[J]. Neurocomputing 119: 101-110, 2013.
[12] WANG S, LIU Z, LV S, et al. A natural visible and infrared facial expression database for expression recognition and emotion inference[J]. IEEE Transactions on Multimedia, 2010, 12 (7): 682-691.
[13] LUCEY P, COHN J F, KANADE T, et al. The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression[C] //Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. San Francisco, CA, USA: IEEE, 2010: 94-101.
[14] YIN L, WEI X, SUN Y, et al. A 3D facial expression database for facial behavior research[C] //Proceedings of IEEE International Conference on Automatic face and gesture recognition. Southampton, UK: IEEE, 2006: 211-216.
[15] DARWIN C, EKMAN P, PRODGER P. The expression of the emotions in man and animals[M]. New York, USA: Oxford University Press, 1872/1998.
[16] JAMES W. What is an emotion?[J] Mind, 1884(34):188-205.
[17] CANNON W B. The James-Lange theory of emotions: A critical examination and analternative theory[J]. The American Journal of Psychology, 1927, 39 (1/4): 106-124.
[18] LAZARUS R S. Progress on a cognitive-motivational-relational theory of emotion[J]. American psychologist, 1991, 46 (8): 819.
[19] 王志良. 人工情感[M]. 北京: C械工业出版社, 2009.
[20] 陈俊杰. 图像情感语义分析技术[M]. 北京: 电子工业出版社, 2011.
[21] EKMAN P. An argument for basic emotions[J]. Cognition & emotion, 1992, 6 (3/4): 169-200.
[22] IZARD C E. Basic emotions, relations among emotions, and emotion-cognition relations[J]. Psychology Review, 1992, 99: 561-565.
[23] MIKELS J A, FREDRICKSON B L, LARKIN G R, et al. Emotional category data on images from the International Affective Picture System[J]. Behavior research methods, 2005, 37 (4): 626-630.
[24] PLUTCHIK R. Emotion: A psychoevolutionary synthesis[M]. New York, USA: Harpercollins College Division, 1980.
[25] BENINI S, CANINI L, LEONARDI R. A connotative space for supporting movie affective recommendation[J]. IEEE Transactions on Multimedia, 2011, 13 (6): 1356-1370.
[26] RUSSELL J A, MEHRABIAN A. Evidence for a three-factor theory of emotions[J]. Journal of research in Personality, 1977, 11 (3): 273-294.
[27] SOLLI M, LENZ R. Color based bags-of-emotions[C] //Proceedings of International Conference on Computer Analysis of Images and Patterns. M¨unster, Germany:Springer, 2009: 573-580.
[28] Dietz R, Lang A. Affective agents: Effects of agent affect on arousal, attention, liking and learning[C]//Proceedings of International Cognitive Technology Conference. San Francisco, CA, USA: Springer, 1999.
[29] YANULEVSKAYA V, Van GEMERT J, ROTH K, et al. Emotional valence categorization using holistic image feature[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008: 101-104.
[30] MACHAJDIK J, HANBURY A. Affective image classi?cation using features inspired by psychology and art theory[C] //Proceedings of ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 83-92.
[31] WANG W N, YU Y L, JIANG S M. Image retrieval by emotional semantics: A study of emotional space and feature extraction[C] //Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Taipei, Taiwan: IEEE, 2006: 3534-3539.
[32] LU X, SURYANARAYAN P, ADAMS J R B, et al. On Shape and the Computability of Emotions[C] //Proceedings of ACM International Conference on Multimedia. Nara, Japan: ACM, 2012:229-238.
[33] IRIE G, SATOU T, KOJIMA A, et al. Affective audio-visual words and latent topic driving model for realizing movie affective scene classification[J]. IEEE Transactions on Multimedia, 2010, 12 (6): 523-535.
[34] BORTH D, JI R, CHEN T, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C] //Proceedings of ACM International Conference on Multimedia. Barcelona, Spain: ACM, 2013: 223-232.
[35] ZHAO S, GAO Y, JIANG X, et al. Exploring Principles-of-Art Features for Image Emotion Recognition[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 47-56.
[36] WU Q, ZHOU C,WANG C. Content-based affective image classification and retrieval using support vector machines[C] //Proceedings of International Conference on Affective Computing and Intelligent Interaction, Beijing, China: Springer, 2005:239-247.
[37] ZHAO S, YAO H, YANG Y, Zhang Y. Affective Image Retrieval via Multi-Graph Learning[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 1025-1028.
[38] HANJALIC A. Extracting moods from pictures and sounds: Towards truly personalized TV[J]. IEEE Signal Processing Magazine, 2006, 23 (2): 90-100.
[39] HANJALIC A, XU L Q. Affective video content representation and modeling[J]. IEEE Transactions on Multimedia, 2005, 7 (1): 143-154.
[40] ZHAO S, YAO H, JIANG X, et al. Predicting discrete probability distribution of image emotions[C] //Proceedings of IEEE International Conference on Image Processing. Quebec, QC, Canada: IEEE, 2015: 2459-2463.
关键词:车牌识别 模板匹配 汉字识别
1.引言
车辆牌照识别(LPR)系统作为一个综合的计算机视觉系统主要分为车流量、车型检测子系统和车辆牌照识别子系统两部分,而车牌字符识别是系统的核心。车辆牌照识别子系统又可分为车牌定位、车牌字符识别两部分。LPR系统主要需要进行的是图像的实时采集、处理、分析和识别,属于图像工程的范畴。
现代社会已进入信息时代,随着计算机技术、通信技术和计算机网络技术的发展,自动化的信息处理能力和水平不断提高,并在人们社会活动和生活的各个领域得到广泛应用,在这种情况下,作为信息来源的自动检测、图像识别技术越来越受到人们的重视。
2.两种模板匹配法
2.1 传统模板匹配法识别
传统模板匹配法是实现离散输入模式分类的有效途径之一,其实质是通过度量输人模式与模板之间的相似性,取相似性最大的作为输人模式所属类别。该方法通过对字符的直观形象进行特征抽取,使用相关匹配原理确定的匹配函数进行判决,也就是通过一个分类器将输入的字符与标准模板字符进行匹配。
2.2 改进的模板匹配法识别
传统模板匹配方法的缺点是抗干扰能力差。模板匹配法根据建模时所取特征的不同,分为图形匹配、笔画分析、几何特征抽取等几种形式。图形匹配法在建模和匹配比较时,都是基于字符的图形块本身进行匹配,并根据其相似程度得出识别结果,本文采用了该方法对汉字进行识别。
通过图形匹配的方法识别汉字字符的时,首先,要对输入的汉字字符进行二值化和归一化处理,若背景用0表示,汉字字符用1表示,对每一个汉字字符均建立一个标准的模板Ti,令待识别的图像为Y,它们的大小均为A×B,将Y与每一个模板进行匹配,分别求出它们的相似度Si:
其中,Ti和Y均为像素的二值点阵,Y×Ti表示矩阵和矩阵的点乘,即矩阵中对应位置元素的相乘。观察上式可以知道,上式即表示标准模板与待识图像上对应点均为“1”像素的数目与标准模板上“1”像素的数目之比。
在实际调查中,我们可以发现,汽车牌照中所使用的汉字字符大概有50多个,那么我们就只需要建立50多个模板。如果直接对汉字字符进行匹配运算,对每个汉字的进行识别时,都计算该汉字与所有模板的相似度,这样会导致大量的计算,从而降低了识别速度,不仅不能满足车牌识别的实时性需求,而且由于大量计算,增加了识别的错误率,因此我们通过先对汉字的模板进行粗分类,也就是根据车牌中汉字字符的某种特征对字符模板先进行大致的分类,比如可以依照字体结构进行分类等。当需要识别的汉字出现时,首先提取出该字符的这种特征,再计算与各个组之间的相似度,进而在相似度最大的组模板里进行特征的匹配,最终得出识别的结果。
根据以上的分析,选取的特征应该具有分类效果好、提取比较简单、易于识别的特性,所以我们最后选取了汉字模板图像的字符区域密度R和复杂指数F来对模板进行粗分类。
汉字模板图像的字符区域密度R指的是在汉字的模板图像中字符所包含的像素数和整个模板包含像素数的比值,这个比值能够比较好的反映字符的基本特征,它的数学表达式如2-2:
复杂指数F是字符的统计特征,它反映的是X方向和Y方向上字符笔画的复杂程度,该特征有一个突出特点就是它对字符的位置和大小不是很敏感,鲁棒性较好,它的具体计算公式如2-3:
字符在X与 Y方向上的复杂指数Fx和Fy别为:
其中,Lx和Ly别为X方向和Y方向上字符像素的总数,σx和σy分别为X方向和Y方向上质心二次矩的平方根,σx和σy的表达式如2-4:
其中,xc和yc分别为字符质心的X和Y方向上的坐标。图2.1为汉字识别的流程:
我们所使用的匹配判定原则为式(2-1),如果Sx等于Si的最大值,且Sx大于λ,那么认为图像X和模板Tx匹配,否则拒绝识别,其中λ为拒绝识别的阈值,通过多次实验,通过结果可以表明λ=0.68时有较好的识别效果。
4.总结
本文广泛查阅了国内外现有的关于车牌识别的文献后,对车牌识别系统中车牌字符识别的相关技术进行了综述。通过对传统模板匹配车牌字符识别方法进行研究,提出了一种改进的模板匹配车牌字符识别方法,解决了传统模板匹配法识别的不足,通过多次实验,表明该改进的模板匹配法识别能够达到较好的识别效果。
参考文献:
[1]张忻中.汉字识别技术的新动向.第四届全国汉字及汉语语音识别学术会议论文集,杭州,1992.5.
[2]邢向华,顾国华.基于模板匹配和特征点匹配相结合的快速车牌识别方法[J] .光电子技术,2003(12):268-270.