首页 > 文章中心 > 计算机视觉研究方向

计算机视觉研究方向

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机视觉研究方向范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

计算机视觉研究方向

计算机视觉研究方向范文第1篇

在我国市场经济不断发展的盛况下,我国科技发展水平也紧随其后,成为世界上的科技强国之一。在计算机水平的不断提高下,计算机视觉技术应运而生。其中,计算机视觉技术被应用与各个领域,并在各个领域都得到广泛有效的应用,比如军事领域、医疗领域、工业领域等。本文针对计算机视觉技术在交通领域中的应用进行分析。

【关键词】计算机视觉 交通领域 探究

近年来,随着科技水平的提高,计算机视觉技术逐渐被人们熟知并广泛应用。相较于其他传感器来说,视觉能获得更多的信息。因此,在我国交通领域中,也对计算机视觉技术进行研究完善,将计算机视觉技术应用在交通领域各个方面中,并取得了显著的成效。

1 计算机视觉的概述及基本体系结构

1.1 计算机视觉概述

通过使用计算机和相关设备,对生物视觉进行模拟的方式,就是计算机视觉。对采集到的图片或视频进行相应的技术处理,从而获得相应的三维信息场景,是计算机视觉的主要任务。

计算机视觉是一门学问,它就如何通过计算机和照相机的运用,使人们获得被拍摄对象的数据与信息所需等问题进行研究。简单的说,就是让计算机通过人们给其安装上的“大脑”和“眼睛”,对周围环境进行感知。

计算机视觉是一门综合性学科,在各个领域都有所作为,已经吸引了各个领域的研究者对其研究。同时,计算机视觉也是科学领域中一个具有重要挑战性的研究。

1.2 计算机视觉领域基本体系结构

提出第一个较为完善的视觉系统框架的是Marr,他从信息处理系统角度出发,结合图像处理、心理物理学等多领域的研究成果,提出被计算机视觉工作者基本接受的计算机视觉系统框架。在此基础上,研究者们针对视觉系统框架的各个角度、各个阶段、各个功能进行分析研究,得出了计算机视觉系统的基本体系结构,如图1。

2 计算机视觉在交通领域的应用

2.1 牌照识别

车辆的唯一身份是车辆牌照。在检测违规车辆、稽查被盗车辆和管理停车场工作中,车辆牌照的有效识别与检测具有重要的作用和应用价值。然而在实际应用工作中,虽然车牌识别技术相对成熟,但是由于受到拍摄角度、光照、天气等因素的影响,车牌识别技术仍需改善。车牌定位技术、车牌字符识别技术和车牌字符分割技术是组成车牌识别技术的重要部分。

2.2 车辆检测

目前,城市交通路口处红绿灯的间隔时间是固定不变的,但是受交通路口的位置不同、时间不同的影响,每个交通路口的交通流量也是持续变化的。此外,对于某些交通区域来说,公共资源的配备,比如交通警察、交通车辆的数量是有限的。如果能根据计算机视觉技术,对交通路口的不同时间、不同位置的交通情况进行分析计算,并对交通流量进行预测,有利于为交通警察缩短出警时间、为交通路口的红绿灯根据实际情况设置动态变化等技术提供支持。

2.3 统计公交乘客人数

城市公共交通的核心内容是城市公交调度问题,一个城市如何合理的解决公交调度问题,是缓解城市运力和运量矛盾,缓解城市交通紧张的有效措施。城市公交调度问题,为公交公司与乘客的平衡利益,为公交公司的经济利益和社会效益的提高做出了巨大的贡献。由于在不同的地域、不同的时间,公交客流会存在不均衡性,高峰时段的公交乘客过多,平峰时段的公交乘客过少,造成了公交调度不均衡问题,使有限资源浪费严重。在计算机视觉智能公交系统中,自动乘客计数技术是其关键技术。自动乘客计数技术,是对乘客上下车的时间和地点自动收集的最有效的技术之一。根据其收集到的数据,从时间和地点两方面对客流分析,为城市公交调度进行合理的安排。

2.4 对车道偏离程度和驾驶员工作状态判断

交通事故的发生率随着车辆数量的增加而增加。引发交通事故的重要因素之一就是驾驶员疲劳驾驶。据相关数据显示,因车道偏离导致的交通事故在40%以上。其中,驾驶员的疲劳驾驶就是导致车道偏离的主要原因。针对此种现象,为减少交通事故的发生,计算机视觉中车道偏离预警系统被研究开发并被广泛应用。针对驾驶员眨眼频率,利用计算机视觉对驾驶员面部进行图像处理和分析,再根据疲劳驾驶关注度与眨眼频率的关系,对驾驶员的工作状态进行判断。此外,根据道路识别技术,对车辆行驶状态进行检测,也是判断驾驶员工作状态的方法之一。这两种方法,是目前基于计算机视觉的基础上,检测驾驶员疲劳状态的有效方法。

2.5 路面破损检测

最常见的路面损坏方式就是裂缝。利用计算机视觉,及时发现路面破损情况,并在其裂缝程度严重之前进行修补,有利于节省维护成本,也避免出现路面坍塌,车辆凹陷的情况发生。利用计算机视觉进行路面检测,相较于之前人工视觉检测相比,有效提高了视觉检测的效率,增强了自动化程度,提高了安全性,为市民的出行安全带来了更高保障。

3 结论

本文从计算机视觉的概述,及计算机视觉基本体系结构,和计算机视觉在交通领域中的应用三面进行分析,可见计算机视觉在交通领域中的广泛应用,在交通领域中应用的有效性、显著性,以此可得计算机视觉在现展过程中的重要性。随着计算机视觉技术的越来越成熟,交通领域的检测管理一定会加严格,更加安全。

参考文献

[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2015(06).

[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2015(04).

[3]李钊称.主动测距技术在计算机数据分析中的作用探析[J].计算机应用,2015(08).

[4]马良红.三维物体影像的摄取与分析[J].中国公路学报,2014(05).

[5]朱学君,沈睿.关于计算机视觉在交通领域中的探讨[J].信息通信,2013(01):123.

[6]王大勇.关于计算机视觉在交通领域中的应用分析[J].科技与企业,2013(01):115.

作者简介

夏栋(1988-),男,湖北省孝感市人。现为同济大学软件学院在读硕士。研究方向为计算机视觉。

计算机视觉研究方向范文第2篇

摘要:研究基于计算机视觉的实时动态手势识别技术,并利用OpenCV计算机视觉库在VS2010平台上设计一个基于该技术在多媒体教学中PPT演示控制方面的应用。首先,利用背景差分法进行手势检测,在背景更新的基础上,通过背景差分图和颜色直方图的反投影图来检测运动手势区域,可以达到较为满意的实时运动手势检测效果;其次,采用基于颜色直方图的粒子跟踪算法进行手势跟踪,基本能满足跟踪的实时性;最后,在手势识别阶段,采用基于Hu不变矩的轮廓匹配算法,得到较好的手势识别效果;使用六种手势,来实现演示文稿中的控制应用。

关键词:计算机视觉;背景差分;粒子跟踪;手势识别;Hu矩

中图分类号:TP391.41文献标识码:A

1引言

随着计算机软硬件技术的发展,人机交互已经由过去的鼠标、键盘方式逐渐向更加灵活生动的语音、姿势等新颖交互方式发展。由于基于视觉方式具有便捷和开销低等优点,因此,利用计算机视觉技术来使计算机理解用户的命令,从而做出控制动作,这一领域的研究得到越来越多的重视。其中,人的手势作为日常生活中最为广泛使用的一种交流方式;因此,国内外许多研究机构开始对手势识别技术进行研究,并已经取得了一些阶段性的成果。较早的有:Freeman和Roth等人提出的基于方向直方图的手势识别系统;国内的高文教授等人于1994年提出了一种静态复杂背景手势目标的捕获与识别。经过二三十年的发展,

人们对运动目标检测及跟踪进行了大量深入的研究:美国MIT实验室通过提取左右手质心的运动轨迹以及手势形状特征参数,结合语法规则识别40个美国手语,准确率达到97%;另外,Microsoft Korea的HyeonKyu Lee,采用HMM的阈值模型,识别9种动态手势命令,平均识别率高达98.19%;国内的任海兵提出了基于DTW的手势识别算法,该算法能准确识别12种手势。

现在,基于视觉的手势识别技术更多的是应用在娱乐、游戏方面,比如微软前段时间推出的Xbox360游戏机体的体感外设Kinect及多款相配套的体感游戏,玩家可以通过手势在游戏中进行操作和互动,使得人机互动娱乐进入了一个新纪元。与此同时,还没有比较成熟的手势识别技术应用在现代教学系统中。因此,本文的研究重点是基于视觉的实时手势识别技术在多媒体教学演示控制中的应用。在基于视觉的手势识别研究中,需要解决的问题主要有两个:一是实时检测运动手势的信息,二是识别运动手势的信息并做出响应。对运动手势检测,本文采用背景差分结合改进颜色直方图特征的运动检测方法[1];对运动手势跟踪,本文采用粒子滤波算法[2]结合改进颜色直方图信息的方法;手势识别阶段,本文采用了基于Hu不变矩特征[3]的轮廓匹配算法[4];本文研究基于计算机视觉的手势识别系统,实现了在播放控制中运用手势进行开始、翻页、退出等功能,极大的提高了课堂教学的灵活性。

2手势检测

实时视频图像中的运动手势检测所需要完成的任务是:能够快且准的检测出手势在实时图像中的主要位置,并且能将位置所在的特定区域作为后续跟踪、识别的感兴趣区域。手势检测算法的好坏,直接影响整个系统的跟踪以及识别的效果。

目前,运动目标检测[5]的算法比较常用的有三种方法:光流法、帧间差分法和背景差分法。本文考虑实现环境为固定摄像头采集实时视频图像,背景基本不动,因此采用背景差分结合改进颜色直方图信息的运动检测方法。

2.1背景差分法

本文研究中,选取摄像头启动后的前10帧图像的平均作为最初的背景图像,把以后的实时序列图像当前帧和背景图像相减,进行背景消去。可以得到,运动手势区域的像素点的差分值比较大,背景区域的像素点的差分值比较小。另外,由于真实场景中的背景会因光线等外部条件产生微小的变化,长期的误差积累会造成最后得不到理想的手势区域,因此背景需要进行实时更新,从而能及时反映当前帧的背景图像,背景更新[6]的公式如下:

背景更新操作以后,对当前帧进行背景差分,大于阈值th1的图像点即为运动手势区域的点,并将得到的运动手势区域图像进行二值化操作,公式如下:

3手势跟踪

现在常用的一些跟踪算法主要有:卡尔曼预测算法、粒子滤波算法、均值偏移算法以及Camshift跟踪算法等。考虑到卡尔曼预测算法和均值偏移算法等都是线性跟踪算法,不能很好的应对目标运动的随机性,本文采用了粒子滤波算法。

3.1粒子滤波算法原理

粒子滤波法是指通过用一组带有权值的随机样本,以及基于这些样本的估算来表示动态系统的后验概率密度。当样本很大的时候,这种估计就等同于后验概率密度。这些样本就称为“粒子”。假设在t=0时刻每个粒子都有一个解,每个解与真实解都有一定的相似度,这个相似度可以表示为权重,随着时间的增加,相似度越大的粒子权重越大,而相似度越小的粒子权重就越小,最后趋于0,从而找到真实解(如图2)。

3.2基于改进颜色直方图信息的粒子跟踪

视频图像跟踪方面,目标的运动模型主要表现为目标位置、速度随时间改变的状态转移过程,目标的观测模型主要表现为每帧图像中运动目标的特征(如颜色、轮廓等)与真实目标的相似度的似然过程。在粒子滤波算法中,运动模型可以称为粒子传播或者粒子采样,它是一种随机过程[11]。粒子在经过传播以后,状态会发生改变,但权值没有跟着改变,这就需要系统的观测模型对当前粒子的状态进行计算从而更新粒子的权值。本文的研究中,观测值由目标区域的颜色直方图决定。

基于颜色直方图信息的粒子滤波就是将图像颜色特征的相似度作为粒子滤波算法要求解的后验概率,利用巴氏距离(Bhattacharyya)来计算相似度,得到粒子的权重。巴氏系数[12]如公式(9):

4.2识别算法过程

本文研究中,首先建立手势模板库,然后通过实时提取手势帧,经过前面第2部分的结合改进颜色直方图信息的手势检测,然后再经过形态学处理之后,得到效果良好手势区域的二值图,再用轮廓提取及跟踪来得到手势的轮廓图,然后计算其7Hu矩特征,最后运用欧氏距离将其与模板库中定义的手势进行特征匹配,完成手势识别。

轮廓提取就是要掏空内部的点:如果其八个相邻的点都是黑色,则可以判定为内部点,然后删除改点。

轮廓跟踪方法:首先找出轮廓中最左下方的点作为搜索的起点,然后按照一定规则来搜索手势轮廓上的其他像素点。由于轮廓是连续的,因此每个轮廓上的点的位置都可以用其前一个点的所张的角度来表示。研究中采用如下跟踪准则,第一个点开始定义搜索方向为左上,如果左上方的点是黑点,则它也是轮廓上的点;如果不是,那么顺时针旋转,直到找到第一个黑点,即轮廓上的下一个点。继续同样的方法搜索,直到返回最初的起点,搜索结束。

下图是轮廓跟踪算法[15]的示意图,搜索方向用箭头表示。

5系统实现

本文的系统是在微软的VS2010平台上,使用C++语言进行软件开发,在图像处理相关方面是基于计算机视觉库(OpenCV)进行研究的。程序界面如下图:

左边底层区的按钮可以观察实时手势跟踪和识别效果的功能(如图4和图7)。

手势识别的结果可以定义成一个变量,不同

的识别结果对应的变量值不同,然后根据变量值调用不同的API接口函数,这样就可以实现实时手势识别技术在演示控制中的应用。本文研究在控制部分挑选了六种手势,分别控制PPT播放中的开始、退出、上下翻页、跳转首末页等功能。手势命令定义如下:手势4控制开始播放;手势3控制退出播放;手势1控制跳转首页;手势2为跳转尾页;手势10为向下翻页页;手势5控制向前翻页。对电脑中某一PPT进行实际的播放控制(列举其中4个手势的控制状态),效果如下:

1)识别手势4,开始播放:

2)识别手势10,向下翻页:

3)识别手势1,跳转到首页:

4)识别手势3,退出:

系统通过笔记本自带30W像素的摄像头,采用DirectShow技术进行实时视频的获取,图像尺寸是320*240,fps可以达到30-60帧/秒,可以很好的满足实时性的要求。

6结语

本文通过研究设计了一个基于视觉的手势识别技术在演示控制中的应用系统,可以看出背景差分结合颜色直方图的运动检测可以得到较好的手势区域效果;采用的基于颜色直方图的粒子跟踪也能基本实现实时跟踪的任务;在识别过程中,基于Hu不变矩的轮廓匹配算法具有很好的鲁棒性,可以得到较好手势识别效果;在应用阶段,使用手势来完成控制命令,基本实现了在播放控制中的应用。

同时,仍存在一些问题:对于光照和人脸微小晃动等外部因素引起的噪声,只能降低而无法消除,这对于手势跟踪与识别的效果还是有一定的影响,在应用时会产生一定的误操作。这些问题仍需继续研究,才能使得基于视觉的手势识别技术得到更成熟的应用。

参考文献

[1]吴晓阳.基于OpenCV的运动目标检测与跟踪[D].杭州:浙江大学,2008.

[2]CHO J U, JIN S H, PHAM X D. Object tracking circuit using particle filter with multiple features [C] / / SICE-ICASE: International Joint Conference. Las Vegas: IEEE, 2006: 1431-1436.

[3]甘志杰.基于Hu矩和支持向量机的静态手势识别及应用[D].青岛:青岛科技大学,2008.

[4]华斌,夏利娜.基于中值滤波和Hu矩向量的手语识别[J].计算机工程与设计,2011,32(2): 615- 618.

[5]伏思华,张小虎.基于序列图像的运动目标实时检测方法[J].光学术,2004,30(2): 215- 217.

[6]LINDEBERC T. Scale-space theory: a basic tool for analyzing structures at different scales [J]. Joumal of Applied Statistics. 1994, 21(2):224-270.

[7]于华平.视频序列中的手势检测与跟踪[D].南宁:广西大学,2010.

[8]QIN WEN, PENG QICONG. An improved particle filter algorithm based on neural network for visual tracking [C] / / International Conference on Communications, Circuits and Systems. Las Vegas: IEEE, 2007:765-768.

[9]龚翔. 基于粒子滤波的视觉跟踪算法研究[D]. 南京:南京理工大学,2009.

[10]YU JIAXIA, LIU WENJING, YANG Y. Improved particle filter algorithms based on partial systematic resambling [C]/ /IEEE International Conference on Intelligent Computing and Intelligent Systems. Las Vegas: IEEE, 2010: 483-487.

[11]朱志宇.粒子滤波算法及其应用[M].北京:北京科学出版社,2010.

[12]FAZLI S, POUR H M, BOUZARI H. Particle filter based object tracking with sift and color feature [C] / / Second International Conference on Machine Vision. Las Vegas: IEEE, 2009:89-93.

[13]侯一明,郭雷,伦向敏,等.运动背景下基于粒子滤波的目标跟踪[J].计算机工程与应用,2007,43(8): 62- 64.

计算机视觉研究方向范文第3篇

关键词:计算机;交通监管系统;视觉

中图分类号:TP277

近年来,道路交通安全问题因公路交通事业的快速发展而受到越来多关注。据2002年世界银行统计,全球平均每年死于道路交通事故高达117万人。而在中国,据2008年公安部交通管理局公布的数据显示,全国道路交通事故多达265204起,死亡人数为73484人。

全国道路交通事故防御工作随公路里程、机动车保有量、道路交通流量、驾驶人数的增加成递增趋势。而通过必要的技术手段构建交通安全保障机制,降低交通事故是重中之重。若要好的为基础的交通违规行为检测技术的不断更新,市场上已出现了自动检测与记录的商业化产品,能实时记录出闯红灯、违规超车、违规停车、超速、逆行等违规行为。然而,我国高速交通监控体系仍比较落后,大多在交叉路口设置电子警察系统以此检测车辆闯红灯的违规行为。交通管理部门并不能对出现违规行为的车辆进行及时的交通管制和处理,概括来说管理与检测仍处于管理误区与盲目状态。针对该现象,文本研究了基于计算机的交通监管系统设计与实现。

1 智能交通管理系统简介

ITS系统,该系统综合先进的现代计算机网络技术、信息电子通讯技术、现代信息技术以及自动控制技术等,并将其在整个交通运输管理体系进行有效的运用,为此建立起一种实时、有效、准确、范围广的全方位发挥作用的交通运输控制体系和综合管理系统。近几年人流、车流随着城市发展而猛增,交通职能部门对更加智能的交通管理系统的需求越来越急迫。所以,ITS成为21世纪地面交通管理、运输科技、运营的主要研究方向,带领着交通运输一场伟大的变革。北美、西欧、日本自上世纪80年代末就开始竞相发展智能运输系统,并制定相应的开发计划加以实施,而发展中国家也开始对ITS系统的全面研究与开发。

2 认识基于计算机视觉的智能交通监控系统

2.1 计算机视觉技术

所谓计算机视觉,理解为使用可替代人眼的高清摄影机设备或其他现代高清电子影像摄录装备进行观察,实现对目标的追踪定位、图像识别、模拟数据测量等,并对采集的视觉数据信息送达远端计算机服务器,通过计算机服务器的信号图形图像处理技术对视频数据信息进行进一步加工,实现三维重现现实情景的计算机观察呈现技术。

2.2 智能交通监测系统

通过使用现有的、先进的计算机智能化、视觉化、信息化科技对国内各大路况交通运输实施监测,为工作于交通运输人员呈现数据信息的自动化采集、分析、处理等的智能化服务,且该交通管理系统存在一定自作能力和指挥能力,即为智能交通系统。随着道路、车辆的飞速发展,人民生活水平及国民生产总值的不断提高,智能交通系统,在国内外受到越来越多的青睐。近几年,各道路关键路段、路口随着道路监控机制的普遍建立,也都基本完成了视频监控。

2.3 基于计算机视觉的智能交通监控机制

根据前面2.1对计算机视觉技术和2.2对智能化交通监控系统概念的解析与理解,可总结出以计算机视觉为基础的智能化交通监控机制,其是通过现代高端计算机对视觉信息收集、提取、处理、分析等技术,实现对城市道路交通信息的实时监控、视频数据的收集、信息分析处理,并对城市交通状况使用智能交通机制状况,并通过视频影像引导车辆行驶,以此降低或避免各种各样交通事故发生的智能化交通监控机制。

3 构建以计算机视觉为基础的智能交通监控机制及配套措施

3.1 基于计算机视觉的智能交通监控机制的构建

监控指挥系统、实时交通信息收集系统、高质量信息传输系统是基于计算机视觉的智能交通监控的三大系统。实时交通信息收集系统由多套信息收集装置组成,通过这些信息采集装置实时监控不同位置交通现状。实时交通信息收集系统不仅能进行路段监控与实时交通信息采集的工作,还能将收集数据信息,经由高质量信息传输系统实施输送,或在服务器中存储已处理的信息;一个中央数据库与一个中央服务器是高质量信息存储传输系统核心部分,其中中央数据库对获取到的实时交通路况信息进行存储。而为了便于工作者能通过界面对中央数据库实施提取、查询、查看等操作,因此该界面就由中央服务器来提供,此外该服务器还能将已处理的实时路况数据通过高质量的传输系统输送到监控指挥机制,达到对各路段的交通进行管制、部署及指挥的目的。

3.2 专业技术人员的储备

以计算机视觉技术为基础的智能交通监控机制是一个庞大的系统,具有突出点的优点,该系统集自动化、信息化、智能化为一体,只有专业的技术人才才能使该系统高效工作,因此开展培训储备相关技术人员至关重要。实时交通信息借助于先进的高清装置的正常采集工作,所以储备一批针对高清装置安装、检测、调试及故障修复的技术人员极为重要。现代基于计算机视觉的智能交通监控机制虽然本身具有一定的图形图像分析及处理能力,然而有些工作人是永远被替代的,所以培养储备一批专业的图形图像处理技术人员也是重要的。储备服务器维护技术工,每天以计算机视觉技术为基础的智能交通监控机制都会获取大量的监控信息数据,然而只有大型的服务器才能存储这些数据,可想而知一旦服务器瘫痪就会引发整个机制的崩溃,造成严重的后果,因此专业服务器维护工作者的储备与培养也尤为重要。基于计算机视觉技术的智能交通监控机制并不能取代交通指挥员,其仅是用来采集实时交通信息的系统,仅为了协助交通指挥员监管及疏导城市交通,因此要求储备一批高素质、高质量的交通指挥员也极为必要。

3.3 交通知识的宣传

大城市的交通问题,并不是依靠单纯的开发先进的计算机视觉智能交通监控系统就能处理解决,也不是单单要求市政建设增加公交数量、增铺几条公路或增开通几条地铁就能解决的,以上这些仅是辅助方法。关键在于开展交通知识的宣传与教育工作,强化驾驶员的素质,倡导不酒驾、不逆行、不超速、限号行驶等,自觉遵守道路交通规则,提倡公交地铁出行,减少私家车辆行驶,齐心协力共同打造和谐的交通环境。

3.4 获取政府支持

市政建设的主要问题之一即是交通问题,政府的支持是万万不可缺失的。由于构建以计算机视觉技术为基础的智能交通管制机制,涉及面广,包括道路勘测、先进装置的引进、专业技术人员的储备、装备组织安装与调试、后期维护等等多方面,这些都需要投入大量的人力、财力、物力,而对于任何一个单位、部门或几个市政部门来说都无法独自承担,由此可知政府的大力支持是必不可少的,以政府的力量为媒介,将各部门进行协调、协作,只有这样才能构建成较健全的交通监控体系。

4 结束语

道路交通杂、乱是国内城市交通最突出的特点之一,对于我国的交通事业来说进行行人识别势在必行。而我国对于行人识别的研究仍处于起步阶段,还较落后。且基于计算机的交通监管系统设计较为复杂,涵盖点较多,因此本文仅对设计进行简要介绍,希望达到抛砖引玉的效果。

参考文献:

[1]康晓丽.无线网络技术在交通管理中的应用[J].科技情报开发与经济,2011(21).

[2]钟振,赖顺桥,肖熠琳,张沛强.RFID车辆智能管理系统[J].机电工程技术,2011(02).

[3]文军.视频监控系统软件现状与技术分析[J].金卡工程,2007(08).

[4]张玉风.简述视频监控系统的发展历程[J].铁道通信信号工程技术,2006(06).

[5]马伏花,朱青.基于射频识别技术的车辆自动识别系统的实现[J].中国仪器仪表,2006(11).

计算机视觉研究方向范文第4篇

摘要:针对集成芯片制造中对定位、校准的高精度、实时性要求,提出了用机器视觉技术解决芯片基板定位的方法,通过对几种模板匹配算法的研究,采用基于OpenCV的图像分析技术实现了对集成芯片基板的准确定位,解决了传统机械定位精度低、速度慢的问题。

关键词:机器视觉;开放源代码计算机视觉类库;集成芯片基板;模板匹配

中图分类号:TP39文献标识码:A

The Positioning Technology of Intergrated Chip Strip Based on OpenCV

LIU Hun-hai, HU Peng-hao,XIE Hu

(School of Instrument Science and Opto-electronics Engineering ,

HeFei University of Technology ,Hefei 230009 ,China)

Abstract: Because of the high requirement of position and speed in the process of integrated chips, A position method of integrated chip strip based on machine vision was proposed in this paper. By researching several template match algorithms, the accurate positioning of intergrated chip strip is implemented by using image processing technology based on OpenCV, and low precision and slow speed problem of traditional method is solved.

Keywords:machine vision; OpenCV; integrated chip strip; template match

引言

随着现代半导体器件向微型化、集成化和高可靠性方向的发展,芯片生产和制造设备也朝着高速、高精度、智能化的全自动化的方向发展。机器视觉在芯片生产过程中扮演着越来越重要的角色,其中最为广泛的应用是定位。

上海技美电子科技有限公司是一家生产集成芯片基板(如图1)贴膜机的厂家,贴膜工序主要是将芯片贴在一层特殊的膜上,为下一步打断芯片引线做好准备,而为了提高切割效率,通常将三块基板一起,但这样存在相对位置的偏差。针对传统的光电式传感器定位精度低、速度慢的缺点,开发了基于OpenCV的视觉定位系统,系统结构如图2所示。当机械手臂将基板搬运到薄膜上之前,通过该系统,对基板进行定位,然后将结果反馈到控制单元进行调整。

系统使用的CCD相机是型号为XC-ES50CE的SONY相机,有效像素为752×582,图像采集卡使用图1集成芯片基板

的是比利时Euresys公司的产品,型号为Picolo Pro2。在整个系统中,最为关键的问题就是模板匹配。

1 基于灰度的模板匹配方法

本文主要比较了几种基于灰度的图像匹配算法:SSDA算法,金字塔算法,NCC算法等。

模板匹配的基本原理是通过相关函数的计算来找到它和被搜索图的坐标位置[1-2]。如图3所示,设模板T(n×m像素点)叠放在搜索图S上移动,模板覆盖下的那块搜索图为子图 Sij,i,j为这块子图的左上角像点在S图中的坐标。比较T和Sij的内容,若两者一致,则T和S之差为零。测度方法:

1.1 SSDA算法

序贯相似性检测算法(即SSDA算法)是对传统模板匹配算法的改进。SSDA算法计算子图像和模板图像之间的差值,求和时不需要计算所有像素,而是随机抽取某几点像素,只要其和超过设定的阈值,则说明当前位置不匹配,进行下个位置的计算。

但是该算法本身没有抗干扰性,如果在外界有噪声的情况下,算法的精确度不高[3]。

1.2 金字塔算法

金字塔算法也叫分层算法,是直接基于人眼的视觉特点,先粗后细地观看事物,步骤如下:

(1) 预处理。首先对模板和搜索图进行分层预处理。通过每2×2=4个像素平均为一个像素构成二级图像,然后将此图像再用同样的方法处理后得到一个分辨率更低的图像。如此反复,我们可以得到K个处理后的图像。

(2) 先粗后细的匹配。先从低分辨率的图像Sk和TK开始进行匹配运算,找到粗匹配位置(xK,yK),然后在较高分辨率的图像Sk-1和Tk-1上的粗匹配位置进行搜索,如此下去,一直到最高分辨率的SO和TO上找到匹配位置为止。

1.3 NCC算法

NCC算法就是归一化互相关匹配算法,是一个经典的匹配算法,它是通过计算模板图像和待匹配图像的互相关值来决定匹配的程度,方法如下:

这种算法简单,适用于尺寸较小的图像匹配,且具有很强的抗白噪声能力,在灰度变化及几何畸变不大的情况下精度很高[3]。

2 基于OpenCV的模板匹配程序的 实现

2.1 程序流程及其实现

程序的流程如图4所示,实验采用的算法是NCC算法,函数完成比较后,通过使用cvMinMaxLoc找全局最大值,然后将匹配结果在原图的对应位置标记出来(如图5所示)。

程序实现主要利用OpenCV函数库中的cvMatchTemplate函数[4],通过滑动过整个待匹配图像,用指定的NCC算法比较模板图像与待匹配图像尺寸为 w×h 的重叠区域,并且将比较结果保存起来。

2.2 OpenCV简介

开放源代码的计算机视觉类库OpenCV(Intel Open Source Computer Vision Library)由英特尔公司位于俄罗斯的研究实验室所基于IPL(Intel Image Processing Library)开发,并与之兼容。具有良好的独立性、跨平台性、功能强大、处理速度快等特点[5]。

3 实验数据

采用的是一张640×484的原图,以及一张64×74的模板图,实验用电脑CPU为IntelCeleron

C PU420 1.6GHz ,内存为1G。经过实验得出,匹配的平均时间为100.128ms,且能找到准确位置,能够满足厂家提出的2,000个/小时的技术要求。

4 结 论

综上所述,利用OpenCV开发的模板匹配程序,拥有匹配准确、执行效率较高等特点,对于个别处理器还进行了优化,适用于对实时性要求不太高的场合,能够满足该企业芯片基板的定位要求,目前该系统已在企业运行。

参考文献

[1] 张广军,机器视觉[M],科技出版社,2005: 7-03-014717-0.

[2] Kenneth R.Castleman,Digital Image Processing,Prentice Hall,1995:0132114674.

[3] 刘锦峰,图像模板匹配快速算法研究[D].湖南长沙:中南大学,2007.

[4] IntelOpen Source Computer Vision Library Reference Manuals[EB/0L].2001.12.

[5] Intel Open Source Computer Vision Library HTML Reference.2003.2.

[6] 黎松,平西建,丁益洪.开放源代码的计算机视觉类库OpenCV的应用[J],计算机应用与软件. 2005,22(8):134-136.

[7] 吕学刚,于明,刘翠响.数字图像处理与计算机视觉编程的有力工具-IPL和OpenCV[J].现代计算机,2002,147:69-71.

计算机视觉研究方向范文第5篇

关键词:视觉注视;移动端;数据集;行为推测

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)01-0254-03

Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.

Key words: visual gaze; mobile end; data set; behavior conjecture

1 概述

伴S着计算机软硬件性能和互联网技术的迅猛发展,大规模的并行计算技术突飞猛进,不断地发展使各种现有技术变得越来越成熟,同时机器学习和计算机视觉领域也都得到了飞速发展。视觉技术的发展变得越来越重要,并且可以应用到实际生活中的很多方面。人类大量的视觉信息现在可以利用计算机来辅助处理,并完成相关的一些工作。相对于生物信息识别技术这一计算机视觉领域的热点技术来说,也已广泛应用于日常生活中[1]。比如指纹识别器,人脸考勤器等平时在许多地方可以经常见到,还有居民家用的摄像头智能报警系统以及近期炒得火热的运用支付宝进行刷脸而完成的支付技术等,这些都是运用了生物信息识别技术。现实中的种种迹象已经表明运用生物信息识别的计算机技术已渐渐的渗透到人们的日常生活中并成为不可或缺的组成部分。时下发展较快也比较常见的生物特征有视网膜、指纹、人脸和人眼等。这些生物信息比如人脸具有个体差异性和自身稳定性特点,从用户的角度来看该特征具有便携和低侵入等一些优点。而人眼作为人脸中最显著的特征,又是人们获取外界信息最直接最方便的途径。都说眼是心灵的窗户,因为眼睛中蕴含着表情、意图等多种信息。因此,眼睛注视的行为预测受到了国内外众多学者的广泛关注,同时在生物信息识别领域中也具有重要的研究意义[2]。

2 注视预测问题

2.1 问题的背景

在心理、认知和用户交互研究中的注视跟踪最近已朝向移动解决方案发展,因为它们使得可以直接评估用户在自然环境中的视觉注意。 除了注意,注视还可以提供关于用户的动作和意图的信息:用户正在做什么以及接下来将做什么。然而,在自然状态下非结构化的任务中注视行为是相当复杂的,并且不能使用在受控的实验室环境中创建的模型来得到令人满意的解释。自然条件下和实验室环境有着很大的不同。为了演化在自然环境中对注视行为的推断,需要一种更加整体的方法,将从认知科学到机器学习的许多学科结合在一起[3]。

从人机交互技术到医学诊断到心理学研究再到计算机视觉,眼睛注视跟踪在许多领域都有应用。注视是外部可观察的人类视觉注意的指标,许多人试图记录它。对于眼睛视线方面的研究可以追溯到十八世纪后期。而现如今已经存在各种解决方案(其中许多是商业化的),但是所有的解决方案都具有以下一个或多个方面的问题:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在现实中的自然条件下,这些因素对实际的应用会造成一些障碍影响,使得眼睛注视跟踪不能成为任何具有合理的相机(例如,智能手机或网络摄像头)的人应该可以使用的普及技术。如何才能使得这种技术普及并且得到应用,提出了一种解决方案。

2.2问题的提出

研究中首先要解决的就是用户的约束问题,也就是自然条件下使用过程中所受到的各种限制问题。到目前为止,基于注视数据推断用户动作的研究受到许多的限制,特别是在自然环境中。限制因素可能包括可用的商业解决方案的昂贵性,其专有性和封闭性以及缺乏实时交互能力等方面。目前的注视跟踪系统,只是尽量在移动设置中设置各种条件进行补救。商业化定制化的解决方案都有其独自的闭合性质,因此阻碍了注视跟踪算法的发展,并且使得不同方法之间的客观比较变得不可能[4]。此外,注视是一种复杂的现象,涉及认知过程的相互作用。这些过程在设置计算上的建模是非常困难的,尤其是涉及一些未知因素,使得构建实验设置成为一个很大的挑战。此外,来自跟踪实验的数据因为其商业化的原因很少共享,即使共享数据很大部分也是有其独立的实验条件。这些方面的问题都阻碍了跨学科方法在分析和利用注视数据和实验的相关研究与发展。

2.3 解决问题的研究方向

对基于注视的推断的个体贡献通常保持孤立,不能形成更大的整体以促进对注视动作行为的研究。随着这方面的技术发展和应用,最近出现了一些开源的解决方案。虽然在不同的应用和用户界面中使用注视已经相当有限,但是移动注视跟踪的新颖应用开始出现并得到了很快的发展。然而使用移动注视跟踪来推断用户动作的问题是高度多学科的,需要深入理解各个研究领域,包括人眼的功能,数学建模,计算机视觉,机器学习,信息技术,认知过程,用户交互以及心理学。任何一个研究员或甚至任何研究小组都不可能拥有所有研究领域的专家,因此需要相互的协作共同推进技术的发展[5]。

目前的研究主要是从以下几个方面进行:

1)研究移动注视跟踪的认知方面,例如增强对任务中的注视行为的理解或识别不同任务的特征和阶段;

2)开发用于从注视数据推断用户动作的计算方法,诸如应用机器学习用于行为推断,优选地实时地;

3)增强用于改善移动注视跟踪方法和性能的技术软件/硬件解决方案,并使得设备更容易访问;

4)发现注视数据在自然环境和虚拟和增强现实应用中的潜在用途,以及定义任务,其中注视可以是用户动作的有用的预测器。

3 解决方案

首先选择移动端进行研究,因为目前比较普遍的移动设备比如智能手机、平板电脑都有自己可靠的工作系统,且不需要外部附件。移动设备相对于其他平台具有以下优势:

1)使用的广泛性。据估计,到2019年,世界上超过三分之一的人口拥有智能手机,远远超过台式机/笔记本电脑用户;

2)软硬件技术升级的采用率较高。大部分的移动设备具有允许使用拥有计算复杂数据方法的实时的最新软硬件;

3)移动设备上相机的大量使用已经导致相机技术的快速开发和部署;

4)相机相对于屏幕的固定位置减少了未知参数的数量,潜在地允许开发高精度的校准跟踪应用。

3.1 注视类型分析

注视估计方法可以分为基于模型或基于外观[6]。基于模型的方法使用眼睛的几何模型,并且可以被细分为基于角膜反射和基于形状的方法。另一方面,基于形状的方法从观察到的眼睛形状观察注视方向。这些方法倾向于具有低的图像质量和可变的照明条件。基于外观的方法直接使用眼睛作为输入,并可能在低分辨率图像上工作。相比基于模型的方法,基于外观的方法被认为需要更大量的用户特定的训练数据。通过使用深度学习和大规模数据不必依赖于视觉,以实现准确的无校准注视估计。这种方案提出建立一个基于外观的数据模型,而不使用任何手工设计的功能,例如头部姿势或眼球中心位置。

3.2 技术方案

深度学习的最近成功在计算机视觉的各种领域中是显而易见的,但是它对改善眼睛跟踪性能的影响还是相当有限。因为深度学习是需要大量的数据作为支持,而视线追踪这方面的数据集还比较少,普通的研究所得到的稻菁比较有限,最大的数据集通常只是具有50个受试者左右,由于缺乏大规模数据的可用性,因此发展比较缓慢。因而提出了使用深度学习进行研究的一套方案,就是构造大规模的数据集。利用网络资源构造一个大规模的基于移动的眼动跟踪数据集,它包含来自各种背景的大量的受试者,在可变照明条件和不受限制的头部运动下记录[7]。运用现有的智能算法得到一个可以进行卷积神经网络学习端到端的注视预测的后台决策网络。不依赖任何预先存在的系统,不需要头部姿态估计或其他手动设计的特征用于预测。使用只有双眼和脸部的特征训练网络,在这个领域的性能优于现有的眼睛跟踪方法。虽然现在的决策网络在精度方面实现了很先进的性能,但是数据输入的大小和参数的数量使得难以在移动设备上实时使用。 为了解决这个问题,需要培养学习得到一个更小更快的网络,在移动设备上实现实时性能,使得精度损失进一步降低。

3.3 大规模数据集

为了达到这一方案的预测效果,首先要进行的是数据集的建立。网络上相关的研究中有许多公开的注视数据集[8]。总结对比这些相关的数据集,分析出有些早期的数据集不包含显著性的头部姿势变化或具有粗略的注视点采样密度。需要对这些数据进行筛选,使得到的数据具有随机分布特点。虽然一些现代数据集遵循类似的方法,但它们的规模(尤其是参与者的数量)相当有限。大多数现有的眼动追踪数据集已经由邀请实验室参与者的研究人员收集,这一过程导致数据缺乏变化,并且成本高且效率不高。因此需要大量的进行数据收集和筛选分析。大规模数据可以通过卷积神经网络有效地识别人脸(他们的眼睛)上的细粒度差异,从而做出准确的预测。

收集眼动跟踪数据应该注意的方面:

1)可扩展性。数据应该是自然条件下的使得用户具有灵活性;

2)可靠性。运用现有的智能移动设备真实的应用图像而非设计处理过的图像;

3)变异性。尽量使数据具有较大的变异性,使得模型更加稳健,适应各种环境下的操作。

4 结束语

文章介绍了一种针对移动设备的用户注视行为推测解决方案。首先建立一个大规模眼动跟踪数据集,收集大量的注视数据。大型数据集的重要性,以及具有大量各种数据以能够训练用于眼睛跟踪的鲁棒模型。然后,训练得到一个深层卷积神经网络,用于预测注视。通过仔细的评估,利用深度学习可以鲁棒地预测注视,达到一个较好的水平。此外,虽然眼睛跟踪已经存在了几个世纪,相信这种新方案的策略可以作为下一代眼动跟踪解决方案的关键基准。希望能通过这方面的研究,使人机交互得到更好的发展。

参考文献:

[1] 崔耀 视控人机交互系统技术研究与实现[D].西安,西安电子科技大学,2013.

[2] 迟健男, 王志良, 张闯.视线追踪[M].北京: 机械工业出版社, 2011.

[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.

[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/

6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.

[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.

[6] 杨彩霞.基于近红外光源的非接触式视线跟踪技术研究 [D].山东:山东大学,2012.