首页 > 文章中心 > 计算机视觉技术原理

计算机视觉技术原理

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机视觉技术原理范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

计算机视觉技术原理

计算机视觉技术原理范文第1篇

1、引言

随着经济的迅猛发展,汽车的迅速普及,根据社会对汽车产业的要求,车辆的各方面指标都受到人们越来越多地关注,汽车涂装过程中的瑕疵直接影响汽车的外观质量,因此如何在生产过程中利用计算机视觉检测技术检测出并及时修补汽车涂装过程中产生的瑕疵就成了首要的任务[1]。本文的研究内容是首先了解计算机视觉检测系统的工作原理,汽车涂装瑕疵的种类,然后结合两者的特点,应用计算机视觉检测系统检测汽车涂装瑕疵。该研究的价值在于两方面:①对于汽车生产的自动化和过程自动化,计算机视觉是现实真正意义的自动的基础和一种重要的质量控制的手段;②对于汽车涂装瑕疵的修补可以提高其修补的精度。

2、汽车涂装瑕疵的计算机视觉检测系统

汽车涂装瑕疵检测系统主要包括照明系统、图像采集卡、CCD摄像机、计算机以及软件处理等几个主要部分[2]。综合计算机视觉检测系统的构成和线结构光测量的原理,基于计算机视觉的汽车涂装瑕疵的检测系统大致是这样构成的:将线结构光投射到被测物上,所形成的光斑作为传感信号,用CCD摄像机采集光斑图像,采集到的图像信号被传输到计算机,根据图像处理和计算机视觉检测系统的处理产生处理结果,返回到涂装生产线,对车身的涂装进行修正,从而提高产品质量。汽车涂装瑕疵的视觉检测系统如图1所示[3]。

3、计算机视觉检测

计算机视觉是计算机对图像进行自动处理并报告“图像中有什么”的过程,也就是说它识别图像中的内容。图像中的内容往往是某些机器零件,而处理的目标不仅要能对机器零件定位,还要能对其进行检验。计算机视觉系统基本原理:机器视觉系统通常采用CCD相机摄取图像,将其转化为数字信号,再采用先进的计算机硬件与软件技术对图像数字信号进行处理,从而得到所需要的各种目标图像特征值,并在此基础上实现模式识别、坐标计算、灰度分布图等多种功能。计算机视觉系统能够根据其检测结果快速地显示图像、输出数据、指令,执行机构可以配合其完成指令的实施。计算机视觉系统主要由图像获取、图像分析和处理、输出显示或控制三个功能模块组成[4]。视觉检测按其所处理的数据类型可分为二值图像、灰度图像、彩色图像和深度图像的视觉检测。另外,还有X射线检测、超声波检测和红外线检测。一个完整视觉检测系统包括:图像采集、图像分割、零件识别、模型匹配和决策判断。Newman[5]等描述了利用深度图像进行零件检测的AVI系统,具有一定的代表性。一个典型的AVI系统如图2所示。

4、汽车涂装瑕疵的检测算法

由于汽车涂膜中一些缺陷的边界比较模糊,例如:气泡、爆裂气泡孔、气泡针孔、抽缩等等。边缘处灰度变化很小,直接用传统的微分边缘检测算法无法有效的检测出来。所以对缺陷模糊边缘的检测成为了算法的关键[6]。本文介绍了基于线结构光的边缘检测方法。汽车涂装表面被光源投射器发出的线结构光照射,反射出的图像被CCD摄像机所接收传输到计算机视觉检测系统中。若涂装表面没有瑕疵,则产生图3的图像。若涂装表面有瑕疵,则产生图4的图像[7]。

计算机视觉技术原理范文第2篇

关键词:OpenCV;计算机视觉技术;三维模拟技术

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)30-0137-02

21世纪是国际计算机技术高度发展的时代,人们生活中的每个角落都可以看到计算机技术的身影,尤其是现代计算机视觉技术和图像处理功能发展更加迅猛,各技术分支也逐渐趋于成熟。计算机视觉技术主要指的就是利用智能计算机系统来代替人类的眼睛对现实三维世界进行辨识和理解,整个过程均是计算机自我学习的过程,而随着这项技术研究的不断深入,其不再仅仅包含计算机技术科学,同时还涉猎了包括生理学、神经学、物理学、应用数学等多门学科,为人类科技的进步提供了有效的动力。

1 计算机对视频中运动物体检测的原理概述

在现代计算机技术基础下,对视频当中的运动物体检测原理主要包括两种,分别是从微观和宏观的角度出发。其中宏观检测技术指的是当计算机截取了视频中的某一个图像,其以整幅图像为对象进行检测;微观检测技术是指在截取图像后,根据实际需求对某一区域内的图像内容进行检测。在计算机视觉技术实际应用时,其第一步就是对图像的采集,第二步是对已经采集的图像进行预分析处理,如果采用宏观检测技术则对图像整体进行分析;如果采用微观检测技术则首先将图像进行分割,然后对分割后各图像内容中出现的运动物体影像进行分析。在图像数据获取过程中应用的是背景差分法,这一技术主要是将背景和运动物体进行分离提取,以获取没有背景图像的运动物体影像数据。还可以利用帧间差分法,这种方法主要是对一个视频图像的逐帧画面进行差别比较,从而获得各帧图像上的差值,而将这些差值帧图结合起来就是一个物体在计算机视觉下的运动轨迹。现代研究者更倾向于将背景和帧间差分法进行结合运用,这样可以获得无背景下的运动物体轨迹,进而提升计算机视觉系统捕捉数据的准确性。

2 OpenCV的应用概述

OpenCV是现代计算机视觉技术当中具有开源性的视觉库,其最早是由俄罗斯Intel分公司所研发,不仅高效,而且具有兼容的优势。同时与传统IPL图像处理系统相比,OpenCV所处理的图像数据等级更高,例如在对运动物体进行特征跟踪、目标分割、运动轨迹分析以及三维模型重建等方面都有着巨大的优势。

OpenCV本身编辑的源代码是开放式的,编写过程简洁且方便,并且程序中大多数函数已经通过了汇编的最优化,使其能够更加高效地被应用。在使用OpenCV的摄像机标定模块已经为用户设计了实用性较强的接口,并且能够支持Windows界面的操作平台,使得这一技术的操作更加简便。这一技术本身操作简便,对于编程人员和检验人员个人技能素质要求并不高,视觉技术系统研发人员可以利用简便的操作来检验其设想是否能够实现,这就使得现代计算机视觉技术开发团队能够形成更好的协作研发关系,进一步提升技术研究效率。目前已知OpenCV编程系统在航空航天定位、卫星地图绘制、工厂大规模生产视觉检测等方面得到了广泛的应用,同时对于无人飞行器的视觉捕捉技术也有极大的帮助。最为重要的是OpenCV编程语言的兼容性较强,编程人员可以根据自己的意愿对源代码进行披露,并且国内也已经形成了规模较大的交流社区,给更多同行业者提供答疑解惑的场所,进一步扩大了OpenCV的应用范围。

3 基于OpenCV的计算机视觉技术

3.1 基于OpenCV下的运动物体检测技术

在常规运动物体检测技术下,均是直接通过图像背景和运动物体的区分来实现运动物体的捕捉。而基于OpenCV下的运动物体检测技术则不仅能够针对于图像背景的分离实现运动物体的观察,还可通过物体本身特定的信息来进行检测,主要包括形状、轮廓以及颜色等。这样就能够实现在复杂的背景当中将特定的运动物体完整抽离出来。其基本流程包括:首先,对影像数据当中某一时间点的图像进行捕捉,然后对这一视频图像的格式进行转化;其次,对转化格式后的视频图像进行早期处理,并将运动物体和复杂的背景区分开,降低周围各环境因素对运动物体主体图像的影响;第三,根据完成提取后的运动物体图像进行辨识,然后再从视频当中捕捉拥有相同特征的物体,并对该物体进行跟踪识别。而这一过程的实质则在于先利用图像捕捉技术对画面进行截取,然后同时利用背景差分法和帧间差分法对图像进行分割,逐帧地将运动物体完成提取出来,以供计算机进行视觉跟踪处理。

3.2 基于OpenCV的图像预处理技术

一般情况下,计算机视觉处理技术应用的环境情况较为复杂,大多数应用环境当中均有光照的变化,并且部分计算机视觉处理设备还需要在露天环境下进行工作,此时周围环境中的风、温度、光照、气候以及运动物体数量等对视频图像的采集均有着极大的影响。环境因素会使图像采集的质量大幅度降低,同时图像当中的噪点问题也难以避免,而噪点是视觉捕捉和图像处理当中最大的影响因素。因此,在基于OpenCV下的计算机视觉技术在捕捉视频图像之后先对其进行预处理,然后再由系统对运动物体进行分离、检测和跟踪。一般的预处理过程主要包括平滑度滤波、图像填充、背景实时更新等。

1)图像的平滑度滤波预处理技术

由于在实际计算机视觉捕捉过程中图像噪点是难以避免的问题,以此在对图像中运动物体进行检测前,应该相对这些噪点进行预处理,降低环境噪声对图像的影响。图像的平滑度滤波处理共分为两种方式,分别为线性和非线性。其中线性处理方式就是通过计算机处理设备的简单运算,对图像当中的噪点进行直接清除,但这一技术使用后会造成截获图像模糊不清的情况,因此仅对噪点较少的图像采用该处理方式;非线性滤波处理则是利用复杂的图像处理运算,将截获图像当中的噪点无限缩小,使其不对图像整体造成影响,并且可以有效保证图像的局部调整,但这种处理方式在运算时速度没有线性滤波处理快,因此需应用在噪点较多,图像信息较复杂的处理当中。

2)图像的填充预处理技术

这一处理技术在使用过程中运算速度较慢,主要是由于其需要对逐帧的图像均进行处理,也包括两种处理方式,分别为边缘填充和腐蚀膨胀处理。其中边缘填充处理主要指的是在确定运动物体之后,利用计算机系统自身的边缘检测处理技术,对物体的轮廓进行辨识,并利用形态学上的漫水填充方式对运动物体周围的噪点进行颜色填充,减小其对画面整体元素的影响。而腐蚀膨胀处理与边缘填充处理原理相类似,但这种处理技术主要是针对于噪点进行腐蚀和膨胀,使其在画面当中所占比例扩大,但对运动物体本身不造成影响,这使运动物体和噪点之间的差异就会更加明显,就可以将噪点的影响降到最低,但这种处理方法的效果和摄像机本身的性能、质量等有着密切的关联。

3)背景的实时更新预处理技术

在进行运动物体和背景分离过程中,计算机系统需要对图像上的背景元素进行辨识,并对其开展初始化处理,这样就能够为后期实时背景图像的差异进行凸显,以增加前景图像的效果,降低噪点对图像的影响。在运用这一技术时,首先要先对第一帧的图像进行确定,并将第一帧图像当中的背景图像元素进行辨识,然后在后期图像更新和运动物体检测过程中对背景进行实时更新处理。在更新的过程中其流程主要包括:首先,系统要对所读取的画面进行有效的判断,了解该图像是否为第一帧;其次,将Opencv处理的图像转变为单通道灰度值;第三,对转变后的图像进行高斯平滑度滤波处理,将图像当中的噪点进行去除;第四,采用形态学噪点填充技术对图像当中的噪点进行二次处理,以获得所需要更新的背景图像。

3.3 前景运动物体的提取技术

在计算机视觉技术进行运动物体的检测时,只有有效保障检测流程的准确度,才能够有效保障对前景运动物体的跟踪效果。其主要分为两大步骤,其一是对二值化后的图像数据进行分割处理;其二是在图像分析前对其进行充分的填充处理,保证前景图数据的完整性。同时,在前景图像提取的过程中也分为多个步骤,其包括:首先,对所提出的前景图像和背景图像进行差分处理;其次,将差分处理后的图像二值化处理;第三,对背景当中前景物体的轮廓或边缘进行辨识,根据前景图像的轮廓对其进行填充。由于在实际操作过程中,摄像头所处环境的变化较大,并且会在不同场所内的不同角度捕捉画面,因此就需要在前景图像提取时有效提高背景图像实时更新的效果。

利用阀值二值化的分割方式能够有效将前景图像和背景图像分离开,从而使目标运动物体能够呈现独立化,并且阀值分割方式开展前要相对每个像素点进行确定,判断其是否位于灰度值的范围内。而将该图像的像素灰度和阀值进行对比后会出现两种结果,分别是灰度值低于或高于阀值。在实际应用过程中,有效确定图像的分割阀值T,就能够降低环境当中光照因素对图像质量的影响。

4 计算机视觉技术当中的三维重建技术

1)三维重建的视觉系统

计算机视觉技术在对图像进行捕捉时可以视为是对大量的图像信息进行处理,从摄像机的视觉角度出发,其所输入的图像一般为二维属性,但输出的信息确是三维数据,而这种三维空间数据能够提升对运动物体所处空间位置、距离等描述的准确性。在三维重建视觉系统工作过程中,其相对基本的图像数据框架进行确定,然后利用一个坐标点建立2.5D图像数据,即以此点为视角能够观察到的图像数据,再将2.5D图像数据进行整合从而建立三维图像。

2)双目视觉系统

当人体利用双眼在不同角度、同一时间内观察同一个物体时,就可以利用算法来测量该物体和人体之间的距离,而这种方法也被称为双目立体感,其应用的原理主要是人体视觉差所带来的影响。同时利用两台摄像机对同一图像从不同角度进行观察,就能够获得人体双目观察后的效果,因此这一三维重建技术也被称为“双目视觉系统”。两台不同的摄像机即可代表人体双眼,其对图像进行逐帧捕获,但由于角度不同和环境影响因素的差异,因此造成了图像差异,必须对其捕捉的图像进行预处理。

3)三维重构算法

在计算机视觉技术中对于视频流的采集主要依靠的是彩色摄像机、红外摄像机、红外接收摄像头等设备。还可以利用微软所提供的Kinect设备,在进行运动物体检测前能够对NUI进行初始化处理,将系统内函数的参数设定为用户信息深度图、彩图、骨骼追踪图等数据。在使用Kinect设备对视频流进行打开时,其可以遵循三个步骤,其一是彩色和深度数据的处理;其二是根据数据的索引添加颜色信息,并将其引入到深度图数据当中;其三是骨骼追踪数据。

5 结束语

计算机视觉捕捉技术是现代计算机应用当中较为先进的内容,其应用范围较广,对于运动物体的捕捉准确度较高,能够有效推进现代计算机模拟技术的发展。

参考文献:

[1] 张海科.基于Opencv的人手识别与跟踪定位技术研究与实现[D].昆明: 云南大学,2013.

计算机视觉技术原理范文第3篇

关键词 疲劳驾驶 人眼、人脸 嘴巴 专利

中图分号:C18 文献标识码:A

0引言

造成交通事故的原因25%-30%产生于疲劳驾驶,因此疲劳驾驶已成为诱发交通事故的重要因素。国内外专家和学者针对疲劳驾驶的检测开展了大量的研究工作,目前研究的重心主要集中在基于计算机视觉的疲劳驾驶检测,因此对基于计算机视觉的疲劳驾驶检测的相关专利进行分析尤为必要。

1基于计算机视觉的疲劳驾驶检测专利申请数据分析

1.1全球专利申请量趋势

从图1可以看出,基于计算机视觉的疲劳驾驶检测专利申请量从1990-2001年间处于技术研发初期,专利申请量相对较少。从2002年开始该领域的专利申请量逐渐呈现持续增长趋势,并在2014年达到最大值153件。由此可知,随着疲劳驾驶的增多,人们对疲劳驾驶的检测也越来越重视,相应的研究也正不断增加。基于此,在今后的一段时间内,相关的专利申请量有望继续保持。

1.2专利申请产出地区分布

目前各领域的专利申请量主要集中在中国、美国、韩国、日本和欧洲,通过对该领域在中国、美国、韩国、日本和欧洲的专利申请量进行统计分析发现,中国的申请量以48%的占比雄居第一,其他几个地区的申请量相差不大,具体如图2所示。

1.3在华专利申请量变化趋势

图3为1990年至2014年基于计算机视觉的疲劳驾驶检测在华的申请量变化趋势图,由该图可以看出,1990-2002年是技术的萌芽期,在2003年以后申请量才呈现逐年增长的趋势,并且在2012年-2014年将均维持在较高的申请量。因此,该领域国内虽然起步较晚,但是最近几年申请量相对其他地区却具有压制性的优势。

1.4在华主要申请人分析

图4展示了在华主要申请人的申请量份额,主要以科研院所和大型汽车企业为主,其中吉利汽车公司以领先优势排名第一。

2主要技术分支的专利申请分析

基于计算机视觉的疲劳驾驶检测的主要技术分支有:基于人眼的驾驶疲劳检测、基于人脸的驾驶疲劳检测、基于嘴巴的疲劳检测。下面从三个技术分支的发展概况、三个技术分支的主要工作原理及重点专利等方面进行分析。

2.1全球专利申请主要技术分支的申请量趋势图

由图6可知,近年来基于人眼和人脸的驾驶疲劳检测的申请量呈现较快增长,申请量也较基于嘴巴的疲劳检测的申请量大,体现了该领域近年来的发展趋势,并体现出基于人眼和人脸的驾驶疲劳检测的技术分支发展已较为成熟。三个技术分支在2006年之前,申请量的差别不大且数量均较小,显示出在2006年以前三个分支的区别并不明显,发展也较为缓慢,这说明基于计算机视觉的疲劳驾驶检测也是近10年才兴起的一项技术,它依赖于图像处理技术的发展水平。

2.2在华专利申请主要技术分支的申请量趋势图

由图7可知,三个技术分支在2006年以前均只有零星的申请量,这与该领域在全球的发展情况相符合,基于人眼的疲劳驾驶检测在华申请量自2006年以来呈现稳步增长,且近年来申请量最大。基于人脸的疲劳驾驶检测申请量虽小于基于人眼的疲劳驾驶检测,但近年来的申请量也呈现出稳步增长的势头。然而,基于嘴巴的疲劳驾驶检测虽有增长趋势,但申请量一直都较小。由此可知,在国内疲劳驾驶的检测主要是采用人眼检测和人脸检测,这两个分支是国内的研究的热门,也是今后国内在该领域的发展趋势。

3结语

通过对基于计算机视觉的疲劳驾驶检测专利的申请量的总体分析,以及基于人眼、基于人脸、基于嘴巴三个技术分支的申请量趋势分析可知,基于计算机视觉的疲劳驾驶检测在近10年取得了较快发展,这与计算机图像处理技术的发展密不可分;同时,科研院所作为该领域研究的主体,应加强与中小企业的合作。国内疲劳驾驶的检测研究主要集中在人眼检测和人脸检测,这两个分支是国内的研究的热门,同时,基于人眼的疲劳检测其发展方向明确,后续发展将集中在眼睛定位算法的研究上,并且定位精度将越来越高,越来越满足实际的要求。

参考文献

[1] 朱淑亮.基于视频图像分析与信息融合的驾驶员疲劳检测技术研究[J].济南:山东大学,2011.

[2] 刘学.基于人脸图像分析的疲劳驾驶检测方法研究[J].南京:南京航空航天大学,2012.

[3] 张灵聪,王正国,朱佩芳,等.汽车驾驶疲劳研究综述[J].人类工效学,2003.

计算机视觉技术原理范文第4篇

【关键词】株高 HALCON 双目视觉 误差修正

1 引言

计算机视觉技术是近几年来发展较快的信息处理技术,随着图像处理技术的专业化、计算机硬件成本的降低和速度的提高,计算机视觉的应用已变得越来越广泛,其中不乏在农业中的应用。

株高是植物生长指标的重要参数,是一个物种争夺阳光的能力的主要决定因素[1]。对于作物来讲,株高参数是作物产量预估不可或缺的参数。

然而对于具体的利用机器视觉方法直接测量株高的研究还是比较少的,本文就是利用HALCON软件,采用双目计算机视觉方法来实现株高的测量。

2 双目视觉原理

双目视觉的基本原理是从两个视点观察同一景物,获取不同视角下的两幅图像,然后根据三角测量原理计算不同图像对应像素间的视差(disparity ),获取景物的三维信息,从而实现场景三维重构。

根据两个摄像机位姿的不同,双目视觉有多种模式,常用的有双目横向模式,双目横向会聚模式以及双目纵向模式(也称双目轴向模式)。

为了增加测量精度,基线一般不能太小,但基线长度也不可太长,否则,由于物体各部分相互遮挡,两个摄像机可能不能同时观察到目标点。

图1是会聚双目成像中的视差原理图。图中给出两镜头连线所在平面(XZ平面),两镜头中心间的距离(即基线)是B,两光轴在XZ平面相交于(0,0,Z)点,交角为(未知)。现在来看如果已知像平面坐标点(x1, y1)和(x2, y2 ),如何求取世界点W的坐标(X,Y,Z)。

根据相似三角形的关系可以很明显得出: (2.1)

(2.2)

(2.3)

其中r为从(任一)镜头中心到两系统会聚点的距离(未知)。将式(2.2)和(2.3)联立, 可得:

(2.4)

上式把物体和像平面的距离Z与视差d直接联系起来,若想求解式(2.4),除视差d外,还需要知道x1和x2本身。另外,由图1可以得到:

(2.5)

代入式(2.2)或(2.3)可得:

代入式(2.2)或(2.3)可得:

(2.6)

现实测量中,两相机的光轴与世界坐标Z轴的夹角不可能相等,不过即便如此,也只会引入几个待确定的三角函数,而这些三角函数在相机标定时即可确定。

3 测量过程

实现该测量过程包括如下几个功能模块:图像获取、摄像机标定、特征提取、立体匹配与三维信息恢复、后处理。本实验采用是分比率为960×720的双摄像头。被测区域大小约为56cm×42cm,所以采用的标定板应为被测区域1/3大小的HALCON专用的200mm标定板。标定数为24×2张图片。利用HALCON自带的标定助手,可以轻松实现单目标定。

双目标定时,需要有15张以上左右相机相同时刻拍摄的标定板的图片。再利用for循环,find_caltab函数,find_marks_and_pose函数以及binocular_calibration函数,可以实现双目标定。将标定过程中,获得的摄像机的内参以及两个摄像机相对位置关系作参数传递给函数gen_binocular_rectification_map,可以很好地实现双目视觉校正的目的,得到两幅校正后的图像,还能得到校正后虚拟立体视觉系统中两个摄像机的内参和外参。

不同种类的植物其株高定义不同,测量方式也不尽相同。本文研究的株高只针对直立型的,是指从植株根部露出土壤部分到植株最高处的株高。

先利用gen_binocular_rectification_map函数为map_image函数提供控制参数,再通过map_image函数对采集到的图像做校正处理,利用threshold函数,fill_up_shape函数以及select等函数找出校正后图像中植株的最低和最高点,利用intersect_lines_of_sight函数,可获得植株最低点和最高点的真实三维坐标,最后通过几何运算得到双目测量结果。

我们在图像采集时就应该考虑到,摄像头应该稍微带一点俯拍的角度,保证左右两幅图像上最高处均为现实坐标中的最高处。切忌俯拍角度不可太大,否则由于拍摄角度而引起的像差会很大,对结果将会有很大的影响。

经过以上几步骤得到的三维坐标,常因各种原因而存在一定的误差,需要进行误差校正。我们对已知高度的对象进行了测量,得出结果如表1:

通过上述数据得出的修正关系如下:

y=-0.0002x2+1.0699x (3.1)

其相关系数R2=0.9993

4 实验结果

我们对三种植物进行了测量得出的结果如下:

从测量结果中可以看出,修正后相对误差控制在2%之内,可以接受。误差引入的原因可能如下:

1、标定板的选择决定了标定精度。一定要选用高精度的标定板,且标定板的大小应约为测量范围1/3大小。

2、相机是图像获取的根本,高质量的图像离不开高分辨率相机,但是高分比率,高解析度的相机又会带来成本上的提升。本文中,对于390.0mm左右的对象,1个像素的误差可以带入约0.4mm的实际误差。

3、本文所采用的算法只能针对比较理想,比较直的植株,算法的不断优化,才能不断减少误差,提高精度。

5 结语

本文介绍了一种基于HALCON的,利用双目视觉测量株高的方法。对于直立型植物,通过对立体匹配与三维信息恢复结果的误差修正,其株高测量相对误差不超过2%,方法具有一定的可借鉴性。

参考文献

[1]章毓晋.计算机视觉教程 [M].北京: 人民邮电出版社,2011.

作者简介

郝慧鹏(1988-),男,内蒙古乌兰察布人,硕士研究生,主要研究方向为计算机视觉技术在农作物检测上的应用。

指导老师

田跃(1956-),男,北京人,北京科技大学数理学院物理系教授,北京市弱磁检测及应用工程技术研究中心副主任。

作者单位

计算机视觉技术原理范文第5篇

【关键词】平面测量技术;铅球项目;成绩测量

0 引言

随着计算机处理能力的提高和传感器技术的发展,近年来基于视频图像处理的计算机视觉技术已成为图像处理领域的研究热点,该技术在众多的领域中都有十分广泛的应用[1]。

视觉是人类认识世界、观察世界的重要手段。人类从外界获取的信息量约有 75%来自视觉系统,这表明视觉信息量十分巨大以及人类对视觉信息有较高的利用率。人类利用视觉的过程可看作是一个从感觉到知觉的复杂过程,即从感受到的对三维世界的投影图像到依据投影图像去认知三维世界的内容和含义[2]。

计算机视觉技术是指利用计算机实现人的视觉功能,既对客观世界的三维场景的识别、感知和理解。该技术包括是仿生学方法及工程方法,仿生学方法是模仿人类视觉功能的结构及原理,建立相应的处理系统,完成类似的工作和功能;工程方法是从分析人类视觉系统着手,并采用任何现有的可行手段实现人类视觉系统的功能[3],该方法的特点是只关心系统的输入和输出。计算机视觉的主要研究目标是建成计算机视觉系统,完成各种视觉功能。也就是说,即要能借助各种视觉传感器(如 CMOS 摄像器件、CCD等)获取现实世界的图像,而感知和恢复 3D 环境中物体的几何性质、运动情况、姿态结构、相互位置等,并且要对客观场景进行识别、解释、描述、进而做出决断。目前,计算机视觉技术在体育运动中也得到了广泛的应用,利用该技术不仅可以从不同的视角观察运动员的动作,而且能将运动员速度、加速度、所在位置等数据进行量化处理,使体育训练及比赛摆脱依靠传统经验分析及判别的状态,从而进入科学化、数字化的状态,而且还可以完成竞技体育项目的成绩测试[4-5]。

在测试项目中铅球成绩的测量仍采用皮尺丈量法。这种方法存在着三个方面的缺陷,一是皮尺本身具有弹性以及易折叠特性,二是受场地的凹凸不平,三是人为因素影响较大。由于这三方面的作用, 故在铅球成绩的测量精确度受到极大的限制。针对这一问题本课题提出了一种基于同视场(铅球场地)测量地平面坐标的单摄像机模型[6-7]。该模型利用透视投影几何关系,对摄像机内部参数进行标定,然后,建立相应的网格匹配数学模型,通过单目CCD摄像机像面坐标,测量铅球落点的地平面坐标[8]。成功的解决了铅球着点测量在双目视觉交汇组合测量存在的死角影响系统的测量范围的问题,另外,单目视觉测量系统也避免了双目视觉系统存在对应特征点匹配问题。

1 平面测量原理

图1 铅球的2D场景坐标系

铅球场地是一个扇形区域(如图1)。假设建立一个如图1的2D场景坐标系,首先要做的事是要确定场地上指定点的真实坐标与采集到的图片的指定点象素坐标之间的对应关系,即要找到这两种坐标系之间的转换关系。而这种转换关系可以用平面测量的相关技术获得。在计算机视觉中,所谓的平面测量,就是从图像中获得2D场景信息。在实际的测量中,我们可以通过在图像上标定一定数量的坐标点来确定图像中场地指定点的象素坐标和真实世界中的指定点的现实坐标之间的单应矩阵。

我们获取一幅2D场景S的图像I,通过S与I之间的N(N>=4)对对应点,就可以确定它们之间的单应矩阵H。

令:

H=h■,h■,h■=h■,h■,h■h■,h■,h■h■,h■,h■(1)

在H的九个元素中,有八个独立比率,即一个单应有八个自由度变量,一个常数1。因此,在H中,往往设置h■=1。

令(x■,y■)∈I,x■■,y■■∈S为一对对应点,i=1,2,…N。由每一对对应点,根据图像与场景之间的单应关系,我们可以得到两个线性方程:

其中,h是矩阵H的向量形式,

于是我们可以得到2N个方程,写成矩阵形式为:

AH=0(3)

其中

因此,要求得8个参数的单应矩阵,至少需要4个对应点。在实际的测量中,为了提高精度,每个模板平面上提供的对应点数目都会超过4个。

当N>4时,我们可以用奇异值分解法(SVD)[14]求最小二乘解h。

求得单应矩阵后,利用公式(2),就可以计算出图像上指定点对应的真实坐标值,从而计算出铅球投掷的距离。

2 实验结果与分析

表1

2.1 实验结论(下转第38页)

(上接第21页)经实际测量的6个标定点(如图1)的坐标分别为A(700,0)、B(900,0)、C(1100,0)、D(570,407)、E(733,523)、F(895,639) 。为了测试本文提出的测量模型,在反复测量铅球投掷实验中选取了典型的10个测试样本,其中铅球落点10个。

2.2 误差分析

从表1中我们可以看到人工测量值和系统测量值有一定的误差,分析误差产生的原因有如下几种:

1)数字 CCD 镜头的光学性能引起的误差,如焦距、畸变和光学中心误差等通过摄像机内部参数校正来解决。

2)摄像机的支架及底座一定要有足够的稳定性和刚度,在视频图像获取过程中应保证摄像机的相对位置稳定不动,由意外情况所造成的误差在计算中应予以剔除。

3)环境的变化将对测量结果产生影响,因此测量中要及时修正背景图像。

4)人工测量本身就会与真实值产生一定的误差。

3 总结

本论文首先介绍了课题背景,对单目视觉测量的研究现状和测量建模在国内外的研究现状进行了分析和归纳,同时分析了视频图像处理技术在体育项目应用现状,将基于单目视频图像处理技术的铅球成绩测量作为切入点,对数字图像处理技术在田径运动中应用的关键技术进行了研究。结合铅球场地的特点,提出一种基于视频图像的铅球测量方法,并通过实际应用证明了该方法的可行性。

【参考文献】

[1]Criminisi A,Reid I,Zisserman A. A plane measuring device[J].Image and VisionComputing,1999,17(8), 625-634.

[2]Lorenzo Bruzzone, Diego Fernàndez Prieto. Automatic Analysis of the Difference Image for Unsupervised Change Detection[J]. IEEE Transactions on Geoscience and Remote Sensing,2000,5,38(3).

[3]L Sajó, Z Ruttkay, A Fazekas. Turk-2, a multi-modal chess player[J]. International Journal of Human-Computer Studies,2011,7,69(7-8):483-495.

[4]Lichtenberg, D.B., Wills, J.G., Maximizing the range of the shot-put[J]. American Journal of Physics,1978,46:546-549.

[5]Maheras, A.V.. The relationship between the angle of release and the velocity of release in the shot-put, and the application of a theoretical model to estimate the optimum angle of release (throwing)[D].University of Kansas., 1995.

[6]Antonio Plaza, Jon Atli Benediktsson, Joseph W. Boardman. Recent advances in techniques for hyperspectral image processing[J]. Remote Sensing of Environment,2009,9,113(1):S110-S112.