前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机视觉研究内容范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:双目视觉;匹配算法;计算机视觉;立体匹配;相位一致性
1.计算机视觉系统分析研究
1.1计算机视觉技术及双目立体视觉
计算机视觉是通过计算机技术实现对视觉信息处理的整个过程,是一门新的学科。视觉是人们认知事物的重要途径,视觉是人们对视觉信息获取、处理和存储的过程。随着计算机技术的发展,信号处理技术的应用,人们通过照相机来把实际的事物拍摄下来转变为数字信息,并通过计算机信号处理技术队获取的视觉信号进行处理。计算机视觉技术对图像的处理分为获取图像、特征抽象选取、事物识别及分类和对三维信息的理解。获取图像主要是通过摄像机和红外线等技术对周围视觉事物进行获取,并通过计算得到和真实事物相应的二维图像,二维图像主要是数字图像。计算机视觉系统的最基本的功能是数字图像的获取。可以看出计算机视觉研究最基本内容是三维场景距离信息的获取。在计算机被动测量距离方法中,有一种重要的距离感知技术叫作双目立体视觉。双目立体视觉技术是其他计算机视觉技术无法取代的一种技术,对双目立体视觉技术的研究在计算机视觉技术和工程应用方面都是非常重要的。
1.2计算机视觉理论框架
第一个视觉系统理论框架的提出是以信息处理为基础,综合了图像处理和神经生理学等研究内容而建立的。这个视觉系统理论框架是计算机视觉系统的基本框架,与计算机视觉技术有着密切的关系。视觉系统的研究是以信息处理为基础的,从理论层次、算法层次和硬件层次3个层次进行研究。计算机理论层次主要是表达系统各个部分计算的目的和方法,对视觉系统的输入和输出进行规定,输入作为二维图像,输出是以二维图像为基础建立起来的三维物体,视觉系统的目的就是对三维物体进行分析和识别,通过计算对二维物置和形状进行重新建立。算法层次对计算机规定的目标进行计算,算法和计算机表达有关,不同的表达可以通过不同的算法进行实现,在计算机理论的层次上,算法和表达比计算机理论的层次要低。硬件层次是通过硬件来实现算法的一种表达方法。计算机理论层次在计算机信息处理中时最高的层次,取决于计算机的本质是解决计算机的自身问题,不是取决于计算问题的计算机硬件。要更好地对计算机系统和框架进行理解最好的方法就是要区分3个不同的层次,计算机理论的含义和主要解决的问题是计算机的目的,表达算法含义和主要解决的问题是实现计算理论的方法和输入输出的表达,硬件的实现的含义和主要解决的问题是如何在物理上对表达和算法进行实现。计算机视觉处理的可以分为3个阶段,对视觉信息的处理过程从最初的二维图像的原始数据,到三维环境的表达。第一阶段基元图的构成,基元图是用来表示二维图像中的重要信息,主要是图像中亮度变化位置及其几何分布和组织结构,图像中每点的亮度值包括零交叉、斑点、端点和不连续点、边缘等。第二阶段2.5维图描述,在以观测者为中心的坐标中,表示可见表面的方向、深度值和不连续的轮廓,基元是局部表面朝向离观测者的距离深度上的不连续点表面朝向的不连续点。第三阶段三维模型表示,在以物体为中心的坐标系中,有由体积单元和面积单元构成的模块化多层次表示,描述形状及其空间组织形式,分层次组成若干三维模型,每个三维模型都是在几个轴线空间的基础上构成的,所有体积单元或面积形状基元都附着在轴线上。视觉理论框架图如图1所示。
2.基于计算机的视觉立体匹配算法研究
视觉立体匹配算法是基于人类视觉系统的一种计算机算法。立体匹配算法作为计算机立体视觉问题研究的重点,快速地实现图像对应点的匹配来获得视差图是当今研究的热点问题。立体视觉匹配算法根据基元匹配的不同可以分为相位匹配、区域匹配和特征匹配3种,其中区域匹配算法可以减少计算负担,区域匹配算法实时性高,应用前景广阔。计算机立体视觉通过对人的双眼进行模仿,在双眼的立体感知中获得信息,从摄像机拍摄的图像中获取物体的三维深度信息,这就是深度图的获取,把深度图经过处理得到三维空间信息数据,二维图像到三维空间实现转换。深度的获取在双目立体成像视觉系统中分为两步,首先在双目立体图像与图像之间建立点对点的对象关系,双目立体视觉算法研究的重点问题是解决对应点之间的匹配问题。其次以对应点之间的视差为依据对深度值进行计算。双目成像是获取同一场景中两幅不同的图像,两个单目成像模型构成一个双目成像模型。双目成像示意图如图2所示。系统的基线B是两个镜头中心的连接线,空间点w(z,y,z)作为世界坐标的值由(x1,y1)与(x2,y2)进行确定,如果摄像机的坐标位置和空间点w世界坐标的位置重合,图像平面和世界坐标轴xY的平面就是平行的。如果两个摄像机在坐标系统中的原点不同但是它们的光轴平行,那么双目成像计算人们可以看图3所示,图3表示的是两个摄像头连线在平台xY的示意。
立体视觉的成像过程是成像的逆过程,具有一定的不确定性。大量的数据信息在从三维影像向二维图像进行投影的过程会出现丢失的现象,所以视觉系统要通过自然的约束条件才能保证获取正确的解。这些约束条件在减少匹配的计算量方面可以提供有利的帮助。针对基于区域匹配快速算法,还可以应用基于视差梯度的匹配算法,这种匹配算法应用较大的搜索范围在边缘的特征点上进行搜索,采用视差梯度在非边缘区减少搜索范围。应用计算机视觉立体匹配算法可以减少成像匹配时间,大大提高了工作效率。计算机立体匹配算法征点的提取是算法的关键问题,今后的研究方向重点是对有效特征点提取方法的研究。
关键词:计算机视觉;教学应用;教学改革
计算机视觉是人工智能学科中的一门重要课程。随着相关应用在多个领域中的出现,越来越多的学生开始对这门课产生了浓厚的兴趣。如何让学生能够在整个课程中保持盎然的兴趣,并为有志于深入研究计算机视觉的学生指明方向,成为我们教师首先应注重的问题。
在实际的教学工作中,通过不断摸索总结,我们认为,以实际应用引导学生的学习兴趣,既满足了学生想了解计算机视觉实际应用的需求,又加深了学生对于算法的理解,把算法放在一个实际应用中,学生可以理解怎么用,为什么这么用。在这样的目标导引下,我们从选择教材开始,准备教学内容(包括合理的应用实例的选择)、制作PPT、探索教学方法,形成了目前以实际应用为主导的创新教学体系,非常受学生欢迎。在此,我们对这期间遇到的问题,解决方法、心得体会做一个总结和思考,希望能对同行有些许参考作用。
1选择教材
在我们这个专业,每年的上研率基本都保持在50%左右。在本专业的研究生阶段,也开设了双语教学的计算机视觉课程。另外,毕业后选择参加工作的同学也基本都进入和本专业非常相关的一些单位,所从事的工作,都是和在学校学习的知识密切相关。
因此,如何让这门课程的教学既兼顾本科毕业就参加工作的那部分同学,又兼顾继续深造的学生的需求,也是在这门课程讲授的过程中,需要特别注意的一个问题。对于本科毕业就要参加工作的同学而言,需要“广度”,需要了解计算机视觉这门课在各个领域中的应用,在实际中接触到相关的项目或工作时,能够知道去哪里可以找到自己需要的参考资料;而对于要进一步深造的同学而言,则需要一定的“深度”,为研究生阶段的研究打下基础。
全盘考虑到这些学生毕业之后的去向,我们选择了两本教材。一本是贾云得教授编著,科学出版社于 2000年出版的《机器学习》[2],这是一部顺应了时代与教学发展要求的教材,对计算机视觉中的基本概念、基本算法、基本算法的应用、经典应用进行了由浅入深的介绍。内容涵盖了所有经典的数字图像处理与机器视觉方法,也对一些已经得到非常好实际应用的方法,如光流法等作了简要介绍。另外还选择了一本英文原版的计算机视觉的经典著作,Ramesh Jain 教授等所著的《Machine Vision》[3],机械工业出版社于2003年出版。这是国内外非常推崇的一本计算机视觉著作,该教材条理清晰,深入浅出,对计算机视觉的基本原理、算法、应用的介绍非常详尽。
在教学中,我们采用了英文的PPT,但主要用的教材是贾云得教授的《机器视觉》,这样中英文对照讲解,一方面加深学生对教学内容的理解,另一方面也为学生今后阅读专业的英文论了相应准备。
2教学内容和工程实例的选取
2.1选取教学内容
本课程之前,大学二年级的本科生已开设数字图像处理课程,但所讲的基本原理和算法都非常浅显,所以在教学内容的安排上,分为两大部分:数字图像处理部分和视觉部分。数字信号处理部分主要讲解在视觉部分会用到的一些基本算法,为后面进入计算机视觉部分打基础。这部分约占总课时的1/3。视觉部分的课时也分为两部分:算法讲解与实例讲解。在算法讲解部分,对计算机视觉的基本算法、经典算法都做了深入浅出的讲解。实例部分则选择了经典的工业应用,让学生能够对所学算法进一步加以理解。
2.2选取适当的工程实例
就计算机视觉的教学内容而言,各个孤立的算法和方法对本科生来讲,有些抽象不好理解。如果在教学上仅仅通过老师在课堂上的讲解,很难让学生深入地理解相关的教学内容,而选择一个触手可及且简单好理解的工程实例往往就会达到意想不到的教学结果,学生可以把课堂上所学的枯燥理论与现实中活生生的事物联系起来,从而加深对教学内容的理解。
通过反复比对、反复论证,我们选择了在讲解基本原理和算法之后,在课程结束前,专门留出课时讲解手机制造这个例子。手机现在是人手一部,是这些年青学子再熟悉不过的事物了,通过对手机主板、手机键盘的制造过程的讲解,把所学的算法都融合进来,学生在觉得有趣的同时,不知不觉就加深了对所学算法的理解。
另外,在教学的过程中,我们还不断穿插其他学生耳熟能详的实例,如数码相机原理中的一些算法的讲解,我们和学生一起探讨应该怎么选择数码相机。再有,滤波器算法、在课堂上对Photoshop功能的演示,与所学算法关联起来,学生都很容易理解接受。
3教学点滴
3.1点睛之笔
在第一节课的讲述中,我们的重点不在于Marr理论,而是告诉学生:
人工智能就是要让计算机像人一样,能够会听、会看……
我们这门课程就是要让计算机“会看”,要像人一样会看。进而展示给学生一些我们精心挑选的图片,让学生自己判断,是不是自己的眼睛“骗了”自己,人眼和计算机看到的到底有什么不一样。
每次讲到这里,学生都会进行热烈的讨论,每个人都有不同的看法,每个人都有自己的坚持,不知不觉中,对这门课就产生了浓厚的兴趣,有了继续深入学习下去的愿望。在课堂讨论的最后,比较人眼对图片的判断以及计算机的判断后,让学生自己总结归纳,我们这门课到底要研究些什么,都有可能应用在哪些方面,然后对争议比较大的提议一一探讨。每到这个时候,大家的积极性就都被激发出来,在不断的争论与思想碰撞中找出正确的结论。
3.2拿身边的事物说“事”
计算机视觉课程的前半部分,多涉及到图像处理的一些常见算法。在讲授各种各样的滤波器和算子时,并没有针对各个滤波器和算子摆出一堆示例图片,让学生比较滤波前后的差异,从而很生硬地理解滤波器与算子的功能。取而代之的,我们首先以现在人手一台的数码相机为例提出问题,你为什么要选择你手里的这台数码相机?当初选这个品牌和型号时,你的考虑是什么?历年学生的回答几乎都是看网上测评,或者在网上看别人怎么说。这时列出我们收集到的各个品牌相机的测评报告,列出它们的优缺点,然后引导学生去思考,例如这个品牌的相机的缺点是照片发灰,不是很鲜亮,而另一个品牌的相机则绿的特别绿,红的特别红,为什么?那么有可能是哪部分的算法不够完善,为什么?
通过如此简单的对比,学生的积极性被完全激发。原来,数码相机这个几乎人人都有,大家都熟悉的“玩具”竟然和自己在课堂上学到的知识这么密切相关。
再有,就是利用学生们都熟悉的PS(Photoshop),演示现在所谓的“完美证件照”是怎么来的。为什么可以把疙疙瘩瘩的脸部皮肤变得光滑?在PS中,你就是点了一下鼠标,其实在后台,是加入了一个滤波器进行了滤波。各种这样的演示,学生都非常喜闻乐见。因为他们突然发现,原来那些事物,和我自己接触到这些看似枯燥的理论之间,还有这么深刻的联系。
还有一个很受学生欢迎的例子就是对于“鼓形失真”的讲解。我们的老师每次讲到这里,都不会简单告诉学生“鼓形失真”发生的原因是什么,应该怎么解决?老师都会问学生,明星为什么都一窝蜂去减肥?现在的女明星为什么都要去弄个“锥子脸”?课堂上就会出现一个小,男同学和女同学的看法各异,彼此之间开始争论不休。此时再趁热打铁地问学生,如果拿着相机,离自己的鼻子一公分,会拍出什么样的效果?有学生开始拿出手机对着自己和别人开拍,有的学生开始头头是道地分析。每到这种学生都开始热烈讨论的时候,就可以适时引导学生往正确的方向去,让他们自己找到正确的分析解决方法,往往这个时候,学生都会颇有成就感,对于问题的理解也会特别的深刻。
3.3选择合适的实际应用
在所有理论讲解结束后,我们会留出2~4次课讲述计算机视觉在工业上的应用。这些年来,对于手机制造这样一个工业应用,非常受学生欢迎。正如“数码相机”这个例子一样,现在学生都是人手一部手机,是大家再熟悉不过的东西。这个例子涉及到了在前面理论讲述中的大部分算法,如二值图像的处理、模板匹配、高斯滤波器等。学生通过对这个工业应用的理解,更进一步加深了对算法的理解。
以讲解手机键盘的制造过程为例,向学生提出和前面所讲内容相关的问题,引导学生自发思考,如为什么选择模板匹配法,而不是采用其他更复杂更精确的方法等等。每到这个时候,课堂气氛总是分外热烈,学生各抒己见,在不断争论中,更进一步加深对课本上枯燥理论的认识。
在这里需要注意的问题是一定要一步一步提出问题,循循善诱,引导学生一层一层地深入思考。如果问题的答案过于“深藏不露”,则有可能触发学生的抵触情绪,无法继续深入地思考。
4结语
通过多年的教学摸索,我们认为,在计算机视觉课程的讲述中,以实际应用引导学生这样的教学方法非常可取,而且也收到了很好的效果。另外,除了制定好的教学大纲,并选择合适的教材外,根据学校现在的时间情况,我们选择了多媒体手段辅助教学,充分利用Matlab和大屏幕投影等方方面面的优势,结合多种方法进行教学,对讲好计算机视觉这门课,非常有益。
参考文献:
[1] 林尧瑞,马少萍. 人工智能导论[M]. 北京:清华大学出版社,1989.
[2] 贾云得. 机器视觉[M]. 北京:科学出版社,2000.
[3] Ramesh Jain. Machine Vision[M]. 北京:机械工业出版社,2003.
[4] 蔡自兴. 智能控制原理与应用[M]. 北京:清华大学出版社,2007.
Innovation in the Course of Computer Vision
HAN Hong, JIAO Li-cheng
(School of Electronic Engineering, Xidian University, Xi’an 710071, China)
[关键词] 物流企业; 自动化; 算法
[中图分类号] F252; TP39 [文献标识码] A [文章编号] 1673 - 0194(2013)06- 0058- 03
0 引 言
随着物流业被列入我国十大行业振兴计划,物流业已经成为我国经济发展的不可缺少的重要组成部分。物流业是我国经济运行的基础,是推动国民经济发展的重要支柱性产业之一。随着国家持续加强和改善宏观调控政策,物流业发展环境和条件不断改善,物流业保持了较快的增长速度。但由于中国物流业起步较晚,存在物流成本较高、管理落后等问题,离一体化、信息化的物流业还有一定差距。中国物流业只有应用现代物流的理念,采用先进的信息技术与运作方式,才能应对拥有技术、资金和管理优势的外国企业的竞争。实现传统物流业向现代物流业的转变,也是物流业自身结构调整和产业升级的需要,是整个国民经济发展的必然要求。我国经济要集约式发展,必然需要推进现代物流。现代物流的根本宗旨是降低物流成本、提高物流效率、满足客户需求,其中信息化是现代物流的核心。随着信息技术的不断更新和物流企业自身的发展,使得新兴的信息业务与传统物流业务之间相互介入,模糊了新兴信息技术及业务与传统物流业务的界限,从而模糊了物流业的产业属性和产业界限, 即发生了产业融合现象。产业融合是由于技术进步和放松管制的原因,发生在产业边界和交叉处的技术融合,在经过不同产业或行业之间的业务、组织、管理和市场的资源整合后,改变了原有产业产品和市场需求的特征,导致产业的企业之间竞争合作关系发生改变,从而最终造成产业界限的模糊化甚至重划产业界限。
产业融合促进了传统产业创新, 进而推进产业结构优化与产业发展,即产生创新性优化效应。物流信息化的重要性已经引起国内很多学者的重视,并纷纷提出相应的观点和建议。马健(2005)认为物流企业将在建立呼叫中心、应用系统领域和网络计算机领域出现信息化融合的趋势,并提出物流企业应采取的战略。邓小瑜(2011)等从技术融合、产品融合、业务融合、产业衍生4个层面阐述了物流业如何进行信息化建设。物流业与信息业的融合包含通过融合信息技术提高来增强企业竞争力和将信息业务增加到物流服务中形成新的业务2个方面。
视频摄像头在日常生活中非常普遍,但是利用率较低,大部分监控系统都是提供视频数据的线性存储,成为事后证据查找的有效手段。近年来,随着计算机视觉的发展,很多学者开始研究视频理解,尤其是针对视频信息检测与识别技术,建立有效的算法,实现底层图像处理技术与高层视频内容分析之间的关联,从而推动了计算机视觉在物流领域的应用,提高物流企业的竞争力。
1 计算机视觉的相关知识
1.1 计算机视觉的概念
20世纪80年代初,Marr从信息处理的角度,提出了第一个比较完善的计算机系统视觉框架。计算机视觉是指利用计算机模拟人眼的视觉功能,对图片或视频进行采集、加工、处理和识别,从中提取三维景物的形态和运动信息,解决物流、工业、商业等领域产品图像自动检测识别问题,提高检测识别效率和自动化程度。计算机视觉自动识别技术作为一门交叉学科,近年来受到各相关行业的高度重视。计算机视觉的处理流程为:摄像机图像采集图像处理计算机帧存储、图像识别控制逻辑显示器显示。
1.2 亮度要求
基于计算机视觉的硬件环境中,亮度是非常重要的因素。在计算机视觉中亮度的作用是突出物体的重要特征或使物体本身可见,而弱化物体其他不需要的特征或物体所处的背景。如果物体太亮或太暗,都会影响对物体的处理。
彩色物体反射光谱的某些部分,吸收其他部分。因此开发人员可以利用这个特点来提高某些物体的可视度。开发人员可以利用颜色之间的对比增强某种颜色或抑制其相反的颜色。例如,如果一个红色的物体在一个绿色背景中则应该加强红色,这时可使用红色照明。这样红色的物体会显得明亮,同时会变暗绿色的对象。
LED是目前用于计算机视觉的主要照明技术,相比白炽灯、日光灯等使用时间短、亮度逐渐减弱的特点,LED灯的寿命超过100万小时,而且耗电小,产生热量少。
1.3 计算机和摄像机的接口
常用的计算机和摄像机接口包括IEEE 1394、Ethernet、USB2.0 and Gigabit Ethernet等。
1.4 RGB介绍
RGB 颜色空间是实际应用最多的一个颜色空间,在使用计算机进行图像处理时,数字图像一般用RGB 空间存储和表示,分3个通道:红(Red)、绿(Green)和蓝(Blue),分别反映了颜色在某个通道的亮度值。3种原色光不同比例混合即使得人得到不同颜色的感知,这就是RGB颜色空间的由来。RGB 空间中每种颜色都能用三维空间中的一个点来表示。
2 计算机视觉在物流领域的优势
随着物流业的迅速发展,计算机视觉在条形码识别、运动物流跟踪方面逐渐得到应用。与传统方法相比,计算机视觉应用在物流领域的优势为以下方面。
2.1 灵活、低成本
物流系统中一般采用传感器来收集相关信息,但是传感器的位置是固定的,如果需要多方位的信息,必须同时需要多个传感器才能完成。利用计算机视觉摄像机和计算机来完成,只需要通过程序的设置和一台摄像机就可实现多方位信息的收集。
2.2 高效、准确
在一些人眼难以满足要求的场合,或不适于人工工作的环境下,用计算机视觉来代替人工视觉可以提高生产效率、信息的准确率。
3 计算机视觉在流水线中多方位跟踪计数的算法
物流企业在流水线产品的计数方法目前主要采用传感器,而利用摄像机所提供的视频信息可以实现多方位的跟踪。计算机视觉是一个集成系统,图像分析的时间有限,算法必须简单有效。本文采用的物流流水线视频图像如图1所示。图中红色矩形表示流水线中传输的物品,绿色区域为流水线中的物品处理区域。
系统会在视频图像中设计①、②、③、④四个计数区域,在物品进行相关处理前进行计数。计数方法为将每帧图像变为黑白图,图像中的红色变为白色,其余都变为黑色。当每幅图像中的红线部分中的白色像素超过一定阈值时,认为物体撞线,如图2所示,这时确定有需要计数的物品通过,可以开始计数。
3.1 主要算法
3.2 算法的运行结果
OpenCV是Intel公司开发的开源计算机视觉库。它提供了几百个C/C++函数,实现了计算机视觉领域中大部分最常用的算法。利用Intel开发的开源视觉库Intel OpenCV和VC6.0将上述算法转换为对应的源代码,可实现4个区域的物品计数。
3.3 算法的评价
该算法利用计算机视觉技术实现了物流流水线上的多方位计数,提高物流企业的信息化水平,节约了资金。算法简单,运行速度快,完全可以满足物流企业的实际需求。
4 结论与建议
本文所提出的算法实现了计算机视觉技术在物流企业的应用,为信息产业和物流业的融合提供了新的思路。但信息产业与物流产业的融合并不意味着引入信息技术后物流业的竞争力一定能提高。Berry(1995)指出了企业可以从6个方面来利用技术手段来提高竞争力,根据Berry的建议和我国物流业的实际情况,本文认为从以下几个方面来考虑如何通过与信息技术的融合提高物流企业的竞争力。
4.1 要有一个战略性的全局行动纲领
技术只是一种手段,使用技术的目的是为了企业发展服务,应符合全局发展的需要。因此物流企业高层管理者应该参与技术战略的制定,保证技术战略与全局战略一致,并有CIO(首席信息官)监控具体执行情况。而不应该盲目使用一些新技术或进行信息改革,造成企业不必要的损失。
4.2 解决主要问题
物流业作为服务行业其最终目的是为客户服务,使用信息技术的有效性应建立在为客户解决实际问题的基础上。因此信息产业与物流业的融合应体现在为客户提供更多的便利,或提供增值服务的基础上。
4.3 使用物流公共信息平台和建立物流信息系统,保证系统有效运转
通过现代物流公共信息平台的建设,企业可以及时获得需求信息,政府可获得物流业相关的调控和管理的宏观信息,实现互联互通。通过企业流程再造,利用含有CRM(客户关系管理)等模块的ERP系统,采用EDI(电子数据交换系统)、GPS、条形码、无线射频技术等先进技术,建立真正适应企业发展的符合现有服务模式的管理信息系统。
4.4 创新型物流人才的引进和培养
物流企业在自身提高业务流程和信息化水平的同时,还应注重创新型人才的引进和培养,特别是有国际大型物流企业管理和技术经验的复合型人才。
主要参考文献
[1] L Leonard,Berry. On Great Service:A Framework for Action[M]. New York NY:The Free Press,1995.
关键词:数字图像处理;测距;聚焦;频域
中图分类号:TP391.41 文献标识码:A 文章编号:2095-1302(2012)09-0016-03
Images ranging method based on frequency domain analysis
ZHU Xue-yi
(School of Microelectronics and Solid-State Electronics, University of Electronic Science and Technology, Chengdu 610054, China)
Abstract: Using digital image processing theories and methods, the digital image pre-processing mode, the target graphic detection and the ranging model construction are studied and analyzed. Combined with a ranging scheme of single camera, a focusing ranging technique based on frequency domain analysis is given to process images captured by the monocular camera and calculate the distance from target detection image to the camera based on frequency domain image signals. The technique saves lots of complex hardware and reduces the demands of digital image processing, which has the advantages of high ranging precision and fast processing speed.
Keywords: digital image processing; ranging; focusing; frequency domain
0 引 言
视觉是人类观察世界、认知世界的重要功能手段,人类感知外部世界主要通过视觉、触觉、听觉和嗅觉等感觉器官,其中80%的信息是由视觉获取的。计算机视觉就是人类利用计算机实现人的视觉功能,从而对客观世界三维场景进行感知、识别和理解。计算机视觉是一个相当新而且发展迅速的研究领域。
在对生物视觉系统的研究中,人们早就注意到,几乎所有具有视觉功能的生物都有两只眼睛。用两只眼睛同时观察物体,会有深度或远近的感觉,我们称之为视差。因此,在计算机视觉系统中,也常用两台或多台摄像机从两个或多个视点去观察同一场景,从而获得在不同视角下的一组图像,然后通过同一场景点在不同图像中的视差,推断出场景中目标物体的空间几何形状和位置,这种方法称为立体视觉。它是计算机视觉的一个重要分支,也是计算机视觉的核心研究内容之一。
视频和图像是对物质世界客观事物的形象而生动的描述,是最直接且具体的信息表达形式之一,是人类最重要的信息载体。随着科技的日益发展,人们需要一种更加先进快捷的工作方式,另外,人们对工作环境和工作条件也提出了更新、更高的要求,视频测距系统便在这种背景下应运而生。
视觉测距技术的发展对于距离测量有重要的意义。在基于数字图像处理技术的视觉测距系统中,使用单个CCD(Charge Couple Device)摄像机的系统称为单目摄像系统,而同时使用两台摄像机对同一景物进行摄像,并运用计算机分析两幅图像来确定物体的三维状况的系统称为双目摄像系统。双目摄像系统测量精度高,但计算速度较慢,成本较高。而单目摄像系统方法则比较简洁、快速,因此,本文对采用单目摄像系统检测目标物的测距方法进行研究。
1 测距技术在国内外的研究现状
目前,国内外对视觉测距技术的研究仍在不断的进行之中,还并没有形成国际统一的标准模式,各种数字图像处理技术和算法之间孰优孰劣仍在不断的探讨和比较中。当前,国内外的研究机构主要研究的测距技术包括超声波测距技术、微波雷达测距技术、激光雷达测距技术和视觉测距技术。
1.1 激光雷达测距
激光雷达测距具有测量时间短、量程长、精度高等特点,但激光雷达在恶劣天气环境下或逆光状态下的测距准确性降低,另外,其造价、耗能、对人眼安全等因素也对其进一步应用有一定影响。
1.2 超声波测距
超声波是指振动频率在20 kHz以上的机械波,具有声波传输的基本物理特性。超声波测距是根据超声波反射时间来计算与前方车辆之间的距离。超声波测距原理比较简单,成本低,但超声波的传输速度受天气影响较大,不同天气条件下的传输速度不同。
【关键词】计算机视觉;数字色彩;感性认知
一、色彩的视觉生理机制与计算机色彩设置的关系
眼睛是人类的视觉器官,视觉系统就像一架摄相机,具有较完善的光学系统及各种使眼球转动并调节光学装置的肌肉组织。光线透过眼的折光系统到达视网膜,并在视网膜中形成物像,同时兴奋视网膜的感光细胞,然后,信息沿视神经传导到大脑皮质的视觉中枢产生视觉。实现阅读的第一反应区域处于大脑后方的枕叶皮层(视觉皮层),人类的视觉系统自动对视觉输入构建结构,并在神经系统层面上感知形状、图形、物体。
视觉能够感受到物体细节,通常称为视觉视敏度,也就是对所观察的实物细节或图像细节的辨别能力,具体量化起来就是能分辨出平面上的两个点的能力。人眼的分辨能力是有限的,在一定距离、一定对比度和一定亮度的条件下,人眼只能区分出小到一定程度的点,如果点更小,就无法看清。以光学色彩为基础的计算机显示器,荧屏上的数字色彩是由许多红、绿、蓝紫三原光小色点构成,以不同比例的混合得出自然界的各种颜色。在各种颜色的反射光快速地先后刺激或同时刺激人眼过程中,显示器色光点过于细小,超出人眼能够分辨的视敏度,待传到人眼中识别时,视觉不能识别全部微妙变化的色彩波段,视觉对相似的色彩归纳在一起,光在人眼中留下的印象在视觉中混合,将信息传入大脑皮层,印象由人的视觉器官完成视觉混合。色彩混合后明度是被混合色的平均明度,混合效果近看色彩丰富,远看色调统一。
电脑显示器工作时的正常显示状态是根据人的视觉明视而设计的,开机工作状态下,感知显示图像的始终是视锥细胞。视觉明视中感受相当光照水平和颜色刺激的视锥细胞中含有感红色素、感绿色素和感蓝色素,三类视椎细胞分别对红绿蓝色(RGB)光敏感。这意味着,人类的色觉与计算机显示器类似,人们感知世界的视觉状态基本处于视觉明视,通过红绿蓝色像素探测形成多种颜色,使人在视觉明视中感知到真实的色彩。
二、计算机视觉色彩感知中的敏感源
在适当的条件下,视觉对光的强度具有敏感性。眼睛对暗适应越久,对光的反应越敏感。视觉对光强度(明度)感受存在一段适合阈值。强度阈值内可以读取色彩,而在强度的阈值以外,人眼只能看出光亮却看不出颜色,明度过高分辨不出颜色。计算机显示亮度的设置是参考视觉感受亮度的共性阈值而设计的,适合阈值范围内,视觉可以读取计算机显示器中色彩。
视觉对光波长的敏感性不同于对光强度的敏感性。视网膜的不同部位对色调的敏感性是不同的。视网膜中央凹能分辨各种颜色,从中央凹到边缘部分,对颜色的辨别能力逐渐减弱,先丧失红、绿色的感受性,最后黄、蓝色的感受性也丧失,成了全色盲。在整个光谱上,人眼能分辨出大约150种不同的颜色(光波),但人对光波(颜色)的辨别感受能力因不同波长而不一样。
在视觉感知计算机色彩过程中色彩认知心理的共性经验可以产生敏感源。色彩认知心理来源于生活共性经验的理性“归纳”。视觉生理机制的共同特征使色彩视觉感知存在基本相同的生理基础。色彩的直接心理效应来自色彩的物理光刺激对人的生理发生的直接影响,视觉生理及视觉心理等方面的共性特征使人们在色彩视觉意象存在相似的感受。视觉感知过程中,以往的认知结构对现有的认知过程的影响,生活经验影响人的认知心理变化过程,心理之间的相互联系、相互制约,使人类认知过程相近的模式。著名的认知心理学家布鲁纳认为,在人们认知的过程中,必须考虑到通过视觉感官对客观联系的色彩信息进行组织,结合视觉经验感知新的客观事物,用归纳方法能找出事物的共性,“感知”出相互联系的客观事物中相近的东西。
色彩心理共性源于“经验色”。人类可以通过本能的眼睛或是肢体触探物质本身的微妙变化感知生活,不断产生认知“经验”。在历史和风俗的影响下,色彩所蕴藏的深层意义来至生活经历的联想,视觉色彩通过联想链来理解传播信息。在生活实践中,不同的色彩刺激结合识别色彩的习惯与经验,形成明显的情绪感,产生不同的情绪反射,使人既能感觉积极兴奋,也能使人消沉或感伤,其影响最明显的是色相。纯度的关系也很大,高纯度色有兴奋感,低纯度色有沉静感。明度也可以表现情绪,暖色系中高明度、高纯度的色彩呈兴奋感,低明度、低纯度的色彩呈沉静感。利用色彩视觉心理经验有利于完成认知任务,对于实际生活具有很强的指导性,这些“经验”向我们明确地肯定了色彩对人心理的影响具有共性。
色彩心理共性源于人们学习和推理。在认知过程中人类情感普遍交流的同时产生相互认同,不断找到与周围的环境现象结合的个人经验。知识学习积累物质的色彩、材料、形状、物理的空间、运动与时间等认知共性,这些共通的经验,可以在大量事实研究中归纳出一些自然规律,诠释事物,形成可以指导和影响社会发展的观点。
三、计算机数字色彩设计
人们在各自分隔的世界里共同生活,色彩视觉感知受人的经历、记忆力、看法和视觉灵敏度等各种因素的影响,但相近的生活习性,相似的生活经验,使人们会采用相近的方式理解色彩。感性色彩的科学设计可以满足计算机视觉的准确性,提高网络平台交互速度,促进经济,满足视觉风尚,帮助高效实现计算机交互。人类共通的视觉经验,产生感知色彩的一般规律,可以归纳出以下计算机数字色彩设计法则。
(1)经验影响感知,应用色彩隐藏的寓意引导,尽可能与图像结合表达。例如,每人看云和水滴会联想熟知的图形,看火会联想到红橙色的激动与热辣。人们能快速识别图像,而且触发相关信息回忆。使用经验图标,一般人们不需要学习,就能识别所提示的意思。
(2)看到和选择比回忆和输入要容易。为用户提供色彩鲜明的选项,在颜色之外使用其它提示,让它们从中选择,而不是强迫用户回忆选项再告诉电脑。
(3)使用缩略图紧凑地描绘全尺寸的图像。缩略图能让人一次性看很多选项,熟悉的图形内容会引起注意,方便选择。使用独特的色彩,用饱和度、亮度及色相区分内容。
(4)避免使用色盲人无法区分的颜色(例如,色盲人可以识别白色和不同深浅的绿色地图)。
(5)将强烈的对抗色分开(强烈的对抗色使人产生难受的闪烁感)。
(6)利用色彩引导边界视力,提供低分辨的线索,引导眼球运动。对视觉选择性感知,边界视野中的暗色和静止物体经常不被注意到,边界视线中物体的运动通常会被察觉。例如,出错提示在点击电脑按键位置1-2厘米边界视力以外,出错提示将不被看到。
(7)物体之间的相对距离会影响人们感知它们是否及如何组织在一起。(互相靠近物体看起来为一组)。例如,计算机图形设计,拉近距离或分组框和分割线隔开,减少用户视觉凌乱。相似物体视觉归属于一组,色彩中的类似色可以归属成一组。
(8)视觉倾向于感知连续的形式而不是离散的碎片。例如,形间断,但色彩相同,视觉自动连续成完整图形。例如,计算机音量滑动条范围的色彩连续,滑动条手柄连续整体感知(灰色地、红色条)。
(9)人们倾向于分解复杂的场景来降低复杂度,视觉自动组织并解析数据,简化数据。例如,图计算机图形中应用此原理,平面色彩显示三维物体和复杂的二维图形解析为三维场景(假空间错视)。