首页 > 文章中心 > 计算机视觉感知技术

计算机视觉感知技术

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机视觉感知技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

计算机视觉感知技术

计算机视觉感知技术范文第1篇

关键词:数字摄影测量 计算机视觉 多目立体视觉 影像匹配

引言

摄影测量学是一门古老的学科,若从1839年摄影术的发明算起,摄影测量学已有170多年的历史,而被普遍认为摄影测量学真正起点的是1851―1859年“交会摄影测量”的提出。在这漫长的发展过程中,摄影测量学经历了模拟法、解析法和数字化三个阶段。模拟摄影测量和解析摄影测量分别是以立体摄影测量的发明和计算机的发明为标志,因此很大程度上,计算机的发展决定了摄影测量学的发展。在解析摄影测量中,计算机用于大规模的空中三角测量、区域网平差、数字测图,还用于计算共线方程,在解析测图仪中起着控制相片盘的实时运动,交会空间点位的作用。而出现在数字摄影测量阶段的数字摄影测量工作站(digital photogrammetry workstation,DPW)就是一台计算机+各种功能的摄影测量软件。如果说从模拟摄影测量到解析摄影测量的发展是一次技术的进步,那么从解析摄影测量到数字摄影测量的发展则是一场技术的革命。数字摄影测量与模拟、解析摄影测量的最大区别在于:它处理的是数字影像而不再是模拟相片,更为重要的是它开始并将不断深入地利用计算机替代作业员的眼睛。[1-2]毫无疑问,摄影测量进入数字摄影测量时代已经与计算机视觉紧密联系在一起了[2]。

计算机视觉是一个相对年轻而又发展迅速的领域。其目标是使计算机具有通过二维图像认知三维环境信息的能力,这种能力将不仅使机器能感知三维环境中物体的几何信息,包括它的形状、位置、姿态、运动等,而且能对它们进行描述、存储、识别与理解[3]。数字摄影测量具有类似的目标,也面临着相同的基本问题。数字摄影测量学涉及多个学科,如图像处理、模式识别以及计算机图形学等。由于它与计算机视觉的联系十分紧密,有些专家将其看做是计算机视觉的分支。

数字摄影测量的发展已经借鉴了许多计算机视觉的研究成果[4]。数字摄影测量发展导致了实时摄影测量的出现,所谓实时摄影测量是指利用多台CCD数字摄影机对目标进行影像获取,并直接输入计算机系统中,在实时软件的帮助下,立刻获得和提取需要的信息,并用来控制对目标的操作[1]。在立体观测的过程中,其主要利用计算机视觉方法实现计算机代替人眼。随着数码相机技术的发展和应用,数字近景摄影测量已经成为必然趋势。近景摄影测量是利用近距离摄影取得的影像信息,研究物体大小形状和时空位置的一门新技术,它是一种基于数字信息和数字影像技术的数据获取手段。量测型的计算机视觉与数字近景摄影测量的学科交叉将会在计算机视觉中形成一个新的分支――摄影测量的计算机视觉,但是它不应仅仅局限于地学信息[2]。

1. 计算机视觉与数字摄影测量的差异

1.1 目的不同导致二者的坐标系和基本公式不同

摄影测量的基本任务是严格建立相片获取瞬间所存在的像点与对应物点之间的几何关系,最终实现利用摄影片上的影像信息测制各种比例尺地形图,建立地形数据库,为各种地理信息系统建立或更新提供基础数据。因此,它是在测绘领域内发展起来的一门学科。

而计算机视觉领域的突出特点是其多样性与不完善性。计算机视觉的主要任务是通过对采集的图片或视频进行处理以获得相应场景的三维信息,因此直到计算机的性能提高到足以处理大规模数据时它才得到正式的关注和发展,而这些发展往往起源于其他不同领域的需要。比如在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合,常用计算机来替代人工视觉。

由于摄影测量是测绘地形图的重要手段之一,为了测绘某一地区而摄影的所有影像,必须建立统一的坐标系。而计算机视觉是研究怎样用计算机模拟人的眼睛,因此它是以眼睛(摄影机中心)与光轴构成的坐标系为准。因此,摄影测量与计算机视觉目的不同,导致它们对物体与影像之间关系的描述也不同。

1.2 二者处理流程不同

2. 可用于数字摄影测量领域的计算机视觉理论――立体视觉

2.1 立体视觉

立体视觉是计算机视觉中的一个重要分支,一直是计算机视觉研究的重点和热点之一,在20多年的发展过程中,逐渐形成了自己的方法和理论。立体视觉的基本原理是从两个(或多个)视点观察同一景物,以获取在不同视角下的感知图像,通过三角测量原理计算像像素间的位置偏差(即视差)来获取景物的三维信息,这一过程与人类视觉的立体感知过程是类似的。一个完整的立体视觉系统通常可分为图像获取、摄像机定标、特征提取、影像匹配、深度确定及内插等6个大部分[5]。其中影像匹配是立体视觉中最重要也是最困难的问题,也是计算机视觉和数字摄影测量的核心问题。

2.2 影像匹配

立体视觉的最终目的是为了恢复景物可视表面的完整信息。当空间三维场景被投影为二维图像时,同一景物在不同视点下的图像会有很大不同,而且场景中的诸多因素,如光照条件,景物几何形状和物理特性、噪声干扰和畸变以及摄像机特性等,都被综合成单一的图像中的灰度值。因此,要准确地对包含了如此之多不利因素的图像进行无歧义的匹配,显然是十分困难的。

在摄影测量中最基本的过程之一就是在两幅或者更多幅的重叠影像中识别并定位同名点,以产生立体影像。在模拟摄影测量和解析摄影测量中,同名点的识别是通过人工操作方式完成的;而在数字摄影测量中则利用计算机代替人工解决同名点识别的问题,即采用影像匹配的方法。

2.3 多目立体视觉

根据单张相片只能确定地面某个点的方向,不能确定地面点的三维空间位置,而有了立体像对则可构成与地面相似的立体模型,解求地面点的空间位置。双目立体视觉由不同位置的两台或者一台摄像机(CCD)经过移动或旋转拍摄同一幅场景,就像人有了两只眼睛,才能看三维立体景观一样,然后通过计算空间点在两幅图像中的视差,获得该点的三维坐标值。现在的数字摄影测量中的立体像对技术通常是在一条基线上进行的,但是由于采用计算机匹配替代人眼测定影像同名像对时存在大量的误匹配,使自动匹配的结果很不可靠。其存在的问题主要是,对存在特殊结构的景物,如平坦、缺乏纹理细节、周期性的重复特征等易产生假匹配;在摄像机基线距离增大时,遮挡严重,能重建的空间点减少。为了解决这些问题,降低双目匹配的难度,自1986年以来出现了三目立体视觉系统,即采用3个摄像机同时摄取空间景物,通过利用第三目图像提供的信息来消除匹配的歧义性[5]。采用“多目立体视觉技术”可以利用摄影测量的空中三角测量原理,对多度重叠点进行“多方向的前方交会”,既能较有效地解决随机的误匹配问题,同时又能增加交会角,提高高程测量的精度[2]。这项技术的应用,将很大程度地解决自动匹配结果的不可靠性,提高数字摄影测量系统的准确性。

计算机视觉感知技术范文第2篇

关键词:计算机视觉技术;食品工业;分级;图像处理

中图分类号: TS207 文献标识码:A

随着微型个人计算机应用的越来越广泛,以及计算机在综合学科中应用的深入研究,现如今在工农业、军事国防、医学卫生等众多领域的使用和研究方面计算机视觉技术都起到了至关重要的作用,为了节省人力、降低成本、减少误差,该项技术在食品企业、科研院所、检测机构中的应用更加普遍。如今,在农产品药物残留检测、水果重量分级、等级筛选、质量监管等方面计算机视觉技术有众多应用。

1 计算机视觉技术概述

计算机视觉技术是利用计算机、摄像机、图像卡以及相关处理技术来模拟人的视觉,用以识别、感知和认识我们生活的世界[1]。该技术是模拟识别人工智能、心理物理学、图像处理、计算机科学及神经生物学等多领域的综合学科。计算机视觉技术用摄像机模拟人眼,用计算机模拟大脑,用计算机程序和算法来模拟人对事物的认识和思考,替代人类完成程序为其设定的工作。该技术由多个相关的图像处理系统组成,主要包括光源提供系统、图像提取系统、计算机数据运算系统等。原理是:首先通过摄像机获得所需要的图像信息,然后利用信号转换将获得的图像信息转变为数字图像以便计算机正确识别[2]。随着科学技术的发展,计算机技术在各个领域得到广泛应用,计算机视觉技术不仅在代替人类视觉上取得了重大成就,而且在很多具体工作方便超越了人的视觉功能。计算机视觉计算有如此快速的发展,是因为与人类的视觉相比该技术具有以下显著优势[3]。

1.1 自动化程度高

计算机视觉可以实现对农产品的多个外形和内在品质指标进行同时检测分析,可以进行整体识别、增强对目标识别的准确性。

1.2 实现无损检测

由于计算机视觉技术对农产品的识别是通过扫描、摄像,而不需要直接接触,可以减少对所检测食品的伤害。

1.3 稳定的检测精度

设计的运行程序确定后,计算机视觉技术的识别功能就会具有统一的识别标准,具有稳定的检测精度,避免了人工识别和检测时主观因素所造成的差异。

2 计算机视觉技术在食品检测中的应用

20世纪70年代初,学者开始研究计算机视觉技术在食品工业中的应用,近几十年电子技术得到快速发展,计算机视觉技术也越来越成熟。国内外学者在研究计算机视觉技术在食品工业中的应用方面主要集中在该技术对果蔬的外部形态(如形状、重量、外观损伤、色泽等)的识别、内部无损检测等方面。国内有关计算机视觉技术在食品业中的应用研究起始于90年代,比国外发达国家晚多达20a,但是发展很快。

2.1 计算机视觉技术在果蔬分级中的应用研究

计算机视觉技术在食品检测中的应用研究相当广泛,从外部直径、成熟度的检测到内部腐烂程度的检测都有研究。韩伟等[4]采用分割水果的拍摄图像和新的计算机算法计算水果的半径,进而得出果蔬的最大直径。研究表明,该算法不仅降低了计算量而且提高了计算精度,此方法用于水果分级的误差不超过2mm,高于国际水果分级标准所规定的5mm分类标准差,可在工业生产中很好应用。李庆中[5]也利用图像的缺陷分割算法研究了计算机视觉技术在苹果检测与分级中的应用,结果表明此算法能快速、有效地分割出苹果的表面缺陷。孙洪胜等[6]以苹果色泽特征比率的变化规律为理论基础,结合模糊聚类知识利用计算机视觉技术来检测苹果缺陷域,检测不仅快速而且结果精确。刘禾等[7]通过研究认为苹果的表面缺陷可以利用计算机视觉技术进行检测,计算机视觉技术还可以将苹果按照检测结果进行分级,把检测过的苹果分成裂果、刺伤果、碰伤果和虫伤果等类别。梨的果梗是否存在是梨类分级的重要特征之一,应义斌等[8]通过计算机视觉技术、图像处理技术、傅立叶描述子的方法来描述和识别果形以及有无果柄,其识别率达到90%。杨秀坤等[9]综合运用计算机视觉技术、遗传算法、多层前馈神经网络系统,实现了具有精确度高、灵活性强和速度快等优点的苹果成熟度自动判别。陈育彦等[10]采用半导体激光技术、计算机视觉技术和图像分析技术相结合的方法检测苹果表面的机械损伤和果实内部的腐烂情况,初步验证了计算机视觉技术检测苹果表面的损伤和内部腐烂是可行的。冯斌等[11]通过计算机视觉技术对水果图像的边缘进行检测,然后确定水果的大小用以水果分级。试验表明,该方法比传统的检测方法速度快、准确率高,适用于计算机视觉的实时检测。朱伟[12]在模糊颜色的基础上,分析西红柿损伤部分和完好部分模糊颜色的差别,用分割方法对西红柿的缺陷进行分割,结果显示准确率高达96%。曹乐平等[13]人研究了温州蜜柑的果皮颜色与果实可滴定酸含量以及糖分含量之间的相关性,然而根据相关性,样品检测的正确识别率分别只有约74%和67%。刘刚等[14]从垂直和水平两个方向获取苹果的图像,并通过计算机自动分析图像数据,对苹果的外径、体积、以及圆形度等参数进行处理,与人工检测相比,计算机视觉技术具有检测效率高,检测标准统一性好等优点。Blasco. J [15]通过计算机视觉技术分析柑橘果皮的缺陷,进而对其在线分级,正确率约为95%。赵广华等[16]人综合计算机视觉识别系统、输送转换系统、输送翻转系统、差速匀果系统和分选系统,研制出一款适于实时监测、品质动态的智能分级系统,能够很好地实现苹果分级。王江枫等[17]建立了芒果重量与摄影图像的相互关系,应用计算机视觉技术检测桂香芒果和紫花芒果的重量和果面损伤,按重量分级其准确率均为92%,按果面损伤分级的准确率分别为76%和80%。

2.2 计算机视觉技术在禽蛋检测中的应用研究

禽蛋企业在生产过程中,产品的分级、品质检测主要采用人工方法,不仅需要大量的物力人力,而且存在劳动强度大、人为误差大、工作效率低等缺点,计算机视觉技术可以很好的解决这类产品工业生产中存在的困扰。欧阳静怡等[18]利用计算机视觉技术来检测鸡蛋蛋壳裂纹,利用摄像机获取鸡蛋图像后,采用fisher、同态滤波和BET算法等优化后的图像处理技术,获得裂纹形状并判断,试验结果表明,计算机视觉技术对鸡蛋蛋壳裂纹的检测准确率高达98%。汪俊德等[19]以计算机视觉技术为基础,设计出一套双黄鸡蛋检测系统。该系统获取蛋黄指数、蛋黄特征和蛋形尺寸等特征,和设计的数学模型对比来实现双黄鸡蛋的检测和识别,检测准确率高达95%。郑丽敏等[20]人通过高分辨率的数字摄像头获取鸡蛋图像,根据图像特征建立数学模型来预测鸡蛋的新鲜度和贮藏期,结果表明,计算机视觉技术对鸡蛋的新鲜度、贮藏期进行预测的结果准确率为94%。潘磊庆等[21]通过计算机视觉技术和声学响应信息技术相结合的方法检测裂纹鸡蛋,其检测准确率达到98%。Mertens K等[22]人基于计算机视觉技术研发了鸡蛋的分级检测系统,该系统识别带污渍鸡蛋的正确率高达99%。

2.3 计算机视觉技术在检测食品中微生物含量中的应用研究

计算机技术和图像处理技术在综合学科中的应用得到快速发展,在微生物快速检测中的应用也越来越多,主要是针对微生物微菌落的处理。食品工业中计算机视觉技术在微生物检测方面的研究和应用以研究单个细胞为主,并在个体细胞的研究上取得了一定的进展。殷涌光等[23]以颜色特征分辨技术为基础,设计了一套应用计算机视觉技术快速定量检测食品中大肠杆菌的系统,该系统检测结果与传统方法的检测结果具有很好的相关性,但与传统方法相比,可以节省5d时间,检测时间在18h以内,并且能够有效提高产品品质。Lawless等[24]人等时间段测定培养基上的细胞密度,然后通过计算机技术建立时间和细胞密度之间的动态关联,利用该关联可以预测和自动检测微生物的生长情况,如通过计算机控制自动定量采集检测对象,然后分析菌落的边缘形态,根据菌落的边缘形态计算机可以显示被检测菌落的具置,并且根据动态关联计算机视觉系统可以同时处理多个不同的样品。郭培源等[25]人对计算机视觉技术用于猪肉的分级进行了研究,结果显示计算机视觉技术在识别猪肉表面微生物数量上与国标方法检测的结果显著相关,该技术可以有效地计算微生物的数量。Bayraktar. B等[26]人采用计算机视觉技术、光散射技术(BARDOT)和模式识别技术相结合的方法来快速检测李斯特菌,在获取该菌菌落中的形态特征有对图像进行分析处理达到对该菌的分类识别。殷涌光等[27]人综合利用计算机视觉、活体染色、人工神经网络、图像处理等技术,用分辨率为520万像素的数字摄像机拍摄细菌内部的染色效果,并结合新的图像处理算法,对细菌形态学的8个特征参数进行检测,检测结果与传统检测结果显著相关(相关系数R=0.9987),和传统检测方法相比该方法具有操作简单、快速、结果准确、适合现场快速检测等特点。鲁静[28]和刘侃[29]利用显微镜和图像采集仪器,获取乳制品的扫描图像,然后微生物的图像特征,识别出微生物数量,并以此作为衡量乳制品质量是否达标的依据,并对产品进行分级。

2.4计算机视觉技术在其他食品产业中的应用研究

里红杰等[30]通过提取贝类和虾类等海产品的形状、尺寸、纹理、颜色等外形特征,对照数学模型,采用数字图像处理技术、计算机识别技术实现了对贝类和虾类等海产品的无损检测和自动化分类、分级和质量评估,并通过实例详细阐述了该技术的实现方法,证实了此项技术的有效性。计算机视觉技术还可以检验玉米粒形和玉米种子质量、识别玉米品种和玉米田间杂草[31]。晁德起等[32]通过x射线照射获取毛叶枣的透视图像后,运用计算机视觉技术对图像进行分析评估,毛叶枣可食率的评估结果与运用物理方法测得的结果平均误差仅为1.47%,因此得出结论:计算机视觉技术可以应用于毛叶枣的自动分级。Gokmen,V等通用对薯片制作过程中图像像素的变化来研究薯片的褐变率,通过分析特色参数来研究薯片中丙烯酰胺的含量和褐变率也关系,结果显示两项参数相关性为0.989,从而可以应用计算机视觉技术来预测加热食品中丙烯酰胺的含量,该方法可以在加热食品行业中得到广泛应用。韩仲志等人拍摄和扫描11类花生籽粒,每类100颗不同等级的花生籽粒的正反面图像,利用计算机视觉技术对花生内部和外部采集图像,并通过图像对其外在品质和内在品质进行分析,并建立相应的数学模型,该技术在对待检样品进行分级检测时的正确率高达92%。另外,郭培源等人以国家标准为依据,通过数字摄像技术获取猪肉的细菌菌斑面积、脂肪细胞数、颜色特征值以及氨气等品质指标来实现猪肉新鲜程度的分级辨认。

3 展望

新技术的研究与应用必然伴随着坎坷,从70年代初计算机视觉技术在食品工业中进行应用开始,就遇到了很多问题。计算机视觉技术在食品工业中的研究及应用主要存在以下几方面的问题。

3.1 检测指标有限

计算机视觉技术在检测食品单一指标或者以一个指标作为分级标准进行分级时具有理想效果,但以同一食品的多个指标共同作为分级标准进行检测分级,则分级结果误差较大。例如,Davenel等通过计算机视觉对苹果的大小、重量、外观损伤进行分析,但研究结果显示,系统会把花粤和果梗标记为缺陷,还由于苹果表面碰压伤等缺陷情况复杂,造成分级误差很大,分级正确率只有69%。Nozer等以计算机视觉为主要技术手段,获取水果的图像,进而通过分析图像来确定水果的形状、大小、颜色和重量,并进行分级,其正确率仅为85.1%。

3.2 兼容性差

计算机视觉技术针对单一种类的果蔬分级检测效果显著,但是同一套系统和设备很难用于其他种类的果蔬,甚至同一种类不同品种的农产品也很难公用一套计算机视觉设备。Reyerzwiggelaar等利用计算机视觉检查杏和桃的损伤程度,发现其检测桃子的准确率显著高于杏的。Majumdar.S等利用计算机视觉技术区分不同种类的麦粒,小麦、燕麦、大麦的识别正确率有明显差异。

3.3 检测性能受环境制约

现阶段的计算机视觉技术和配套的数学模型适用于简单的环境,在复杂环境下工作时会产生较大的误差。Plebe等利用计算机视觉技术对果树上的水果进行识别定位,但研究发现由于光照条件以及周边环境的影响,水果的识别和定位精度不高,不能满足实际生产的需要。

综上所述,可看出国内外学者对计算机视觉技术在食品工业中的应用进行了大量的研究,有些研究从单一方面入手,有些研究综合了多个学科,在研究和应用的过程中,取得了较大的经济效益,也遇到了很多问题,在新的形势下,计算机视觉技术和数码拍摄、图像处理、人工神经网络,数学模型建设、微生物快速计量等高新技术相融合的综合技术逐渐成为了各个领域学者的研究热点,以计算机视觉为基础的综合技术也将在食品工业中发挥更加重要的作用。

参考文献

[1] 宁纪锋,龙满生,何东健.农业领域中的计算机视觉研究[J].计算机与农业,2001(01):1-3.

[2] 李峥.基于计算机视觉的蔬菜颜色检测系统研究[D].吉林:吉林大学,2004.

[3] 曾爱群.基于计算机视觉与神经网络的芒果等级分类研究[D].桂林:桂林工学院,2008.

[4] 韩伟,曾庆山.基于计算机视觉的水果直径检测方法的研究[J].中国农机化,2011(05):25-29.

[5] 李庆中.苹果自动分级中计算机视觉信息快速获取与处理技术的研究[D].北京:中国农业大学,2000.

[6] 孙洪胜,李宇鹏,王成,等.基于计算机视觉的苹果在线高效检测与分级系统[J].仪表技术与传感器,2011(06):62-65.

[7] 刘禾,汀慰华.水果果形判别人工神经网络专家系统的研究[J].农业工程学报,1996,12(0l):171-176.

[8] 应义斌,景寒松,马俊福.用计算机视觉进行黄花梨果梗识别的新方法[J].农业工程学报,1998,14(02):221-225.

[9] 杨秀坤,陈晓光,马成林,等.用遗传神经网络方法进行苹果颜色白动检测的研究[J].农业工程学报,1997,13(02):193-176.

[10] 陈育彦,屠康,柴丽月,等.基于激光图像分析的苹果表面损伤和内部腐烂检测[J].农业机械学报,2009,40(07):133-137.

[11] 冯斌,汪憋华.基于计算机视觉的水果大小检测方法[J].农业机械学报,2003,34(01):73-75.

[12] 朱伟,曹其新.基于模糊彩色聚类方法的西红柿缺陷分割[J].农业工程学报,2003,19(03):133-136.

[13] 曹乐平,温芝元,沈陆明.基于色调分形维数的柑橘糖度和有效酸度检测[J].农业机械学报,2009,41(03):143-148.

[14] 刘刚,王立香,柳兆君.基于计算机视觉的苹果质量检测[J].安徽农业科学,2012,40(08):5014-5016.

[15] Blasco J,Aleixos N,Molto puter vision detection of peel defects in citrus by means of a region oriented segmentation algorithm[J].Journal of Food Engineering,2007,81(03):535-543.

[16] 赵广华,飞,陆奎荣,等.智能化苹果品质实时分选系统[J].中国科技信息.

[17] 王江枫,罗锡文,洪添胜,等.计算机视觉技术在芒果重量及果面坏损检测中的应用[J].农业工程学报,1998(12):186-189.

[18] 欧阳静怡,刘木华.基于计算机视觉的鸡蛋裂纹检测方法研究[J].农机化研究,2012(03):91-93.

[19] 汪俊德,郑丽敏,徐桂云,等.基于计算机视觉技术的双黄鸡蛋检测系统研究[J].农机化研究,2012(09):195-199.

[20] 郑丽敏,杨旭,徐桂云,等.基于计算机视觉的鸡蛋新鲜度无损检测[J].农业工程学报,2009,25(03):335-339.

[21] 潘磊庆,屠康,詹歌,等.基于计算机视觉和声学响应信息融合的鸡蛋裂纹检测[J].农业工程学报,2010,26(11):332-337.

[22] Mertens K,De Ketelaere B,Kamers B,et al.Dirt detection on brown eggs by means of colorcomputer vision[J]. Poultry Science,2005,84(10):1653-1659.

[23] 殷涌光,丁筠.基于计算机视觉的食品中大肠杆菌快速定量检测[J].吉林大学学报(工学版),2009,39(02):344-348.

[24] Lawless C,Wilkinson DJ,Young A,et al.Colonyzer: automated quantification of micro-organism growth characteristics on solid agar[J].BMC Bioinformatics,2010(08):38-44.

[25] 郭培源,毕松,袁芳.猪肉新鲜度智能检测分级系统研究[J].食品科学,2010,31(15):68-72.

[26] Bayraktar B,Banada PP,Hirleman ED,et al.Feature extraction from light-scatter patterns of Listeria colonies for identification and classification [J].Journal of Biomedical Optics,2006,11(03):34- 36.

[27] 殷涌光,丁筠.基于计算机视觉的蔬菜中活菌总数的快速检测[J].农业工程学报,2009,25(07):249-254.

[28] 鲁静.乳品微生物自动检测系统的设计[J].湖北第二师范学院学报,2010,27(08):115-117.

[29] 刘侃.鲜奶含菌量快速检测系统[D].华中科技大学,2008.

[30] 里红杰,陶学恒,于晓强.计算机视觉技术在海产品质量评估中的应用[J].食品与机械,2012,28(04):154-156.

计算机视觉感知技术范文第3篇

关键词:数字图像处理;测距;聚焦;频域

中图分类号:TP391.41 文献标识码:A 文章编号:2095-1302(2012)09-0016-03

Images ranging method based on frequency domain analysis

ZHU Xue-yi

(School of Microelectronics and Solid-State Electronics, University of Electronic Science and Technology, Chengdu 610054, China)

Abstract: Using digital image processing theories and methods, the digital image pre-processing mode, the target graphic detection and the ranging model construction are studied and analyzed. Combined with a ranging scheme of single camera, a focusing ranging technique based on frequency domain analysis is given to process images captured by the monocular camera and calculate the distance from target detection image to the camera based on frequency domain image signals. The technique saves lots of complex hardware and reduces the demands of digital image processing, which has the advantages of high ranging precision and fast processing speed.

Keywords: digital image processing; ranging; focusing; frequency domain

0 引 言

视觉是人类观察世界、认知世界的重要功能手段,人类感知外部世界主要通过视觉、触觉、听觉和嗅觉等感觉器官,其中80%的信息是由视觉获取的。计算机视觉就是人类利用计算机实现人的视觉功能,从而对客观世界三维场景进行感知、识别和理解。计算机视觉是一个相当新而且发展迅速的研究领域。

在对生物视觉系统的研究中,人们早就注意到,几乎所有具有视觉功能的生物都有两只眼睛。用两只眼睛同时观察物体,会有深度或远近的感觉,我们称之为视差。因此,在计算机视觉系统中,也常用两台或多台摄像机从两个或多个视点去观察同一场景,从而获得在不同视角下的一组图像,然后通过同一场景点在不同图像中的视差,推断出场景中目标物体的空间几何形状和位置,这种方法称为立体视觉。它是计算机视觉的一个重要分支,也是计算机视觉的核心研究内容之一。

视频和图像是对物质世界客观事物的形象而生动的描述,是最直接且具体的信息表达形式之一,是人类最重要的信息载体。随着科技的日益发展,人们需要一种更加先进快捷的工作方式,另外,人们对工作环境和工作条件也提出了更新、更高的要求,视频测距系统便在这种背景下应运而生。

视觉测距技术的发展对于距离测量有重要的意义。在基于数字图像处理技术的视觉测距系统中,使用单个CCD(Charge Couple Device)摄像机的系统称为单目摄像系统,而同时使用两台摄像机对同一景物进行摄像,并运用计算机分析两幅图像来确定物体的三维状况的系统称为双目摄像系统。双目摄像系统测量精度高,但计算速度较慢,成本较高。而单目摄像系统方法则比较简洁、快速,因此,本文对采用单目摄像系统检测目标物的测距方法进行研究。

1 测距技术在国内外的研究现状

目前,国内外对视觉测距技术的研究仍在不断的进行之中,还并没有形成国际统一的标准模式,各种数字图像处理技术和算法之间孰优孰劣仍在不断的探讨和比较中。当前,国内外的研究机构主要研究的测距技术包括超声波测距技术、微波雷达测距技术、激光雷达测距技术和视觉测距技术。

1.1 激光雷达测距

激光雷达测距具有测量时间短、量程长、精度高等特点,但激光雷达在恶劣天气环境下或逆光状态下的测距准确性降低,另外,其造价、耗能、对人眼安全等因素也对其进一步应用有一定影响。

1.2 超声波测距

超声波是指振动频率在20 kHz以上的机械波,具有声波传输的基本物理特性。超声波测距是根据超声波反射时间来计算与前方车辆之间的距离。超声波测距原理比较简单,成本低,但超声波的传输速度受天气影响较大,不同天气条件下的传输速度不同。

计算机视觉感知技术范文第4篇

最近几年,自动驾驶成为当下最为热门的科技领域之一,许多企业纷纷将目光转向该领域,诸如谷歌、百度、英特尔、Uber、丰田、本田、福特等科技和车企巨头都在该领域有相关研究。在国内,除了高举无人车大旗的百度,许多创业公司也在研究自动驾驶技术,图森互联即其中之一。

9月19日,国内计算机视觉与人工智能创业企业图森互联宣布,他们研发的计算机视觉与深度学习算法在全球最权威、最具影响力的自动驾驶算法公开排行榜KITTI和Cityscapes评测数据集上均获得世界第一。仅KITTI数据集中,图森互联获得目标检测三个单项、目标追踪两个单项、道路分割四个单项,共计九个单项的全部世界第一。

那么,在当前,自动驾驶技术究竟有哪些等级?市面上的自动驾驶技术都有哪些阵营?产品落地情况又如何?基于这些问题,《汽车观察》记者对有着十年并行和分布式运算研究经历、曾是淡马锡国家实验室研究员、现为图森互联联合创始人的南洋理工大学博士郝佳男进行了独家采访。以下为部分采访实录:

《汽车观察》:图森做自动驾驶技术项目的初衷是什么,单纯就是看到了这块的市场需求与前景吗?

郝佳男:首先,图森是做图像识别SaaS起家,在技术上有一定的积累,自动驾驶所用到的计算机视觉感知技术和图像识别SaaS在很多方面是同源的;另外,对于自动驾驶,特别是主要基于视觉传感器的自动驾驶,有很高的技术壁垒,图森能够很好地发挥自己的长处;第三,运营车辆对自动驾驶和无人驾驶存在较大的需求,因为自动驾驶和无人驾驶可以极大地减少这些运营车辆企业的人力成本和潜在的安全风险,而且无人车可以持续运营,这对企业来说是生产效率的飞跃。

《汽车观察》:目前,在国际上自动驾驶技术分为几个等级?图森的自动驾驶技术又是几级的技术?在国内外算是一个什么水平?

郝佳男:目前自动驾驶有L1-L5五个等级,L5是人们最期待的完全无人驾驶水平,众人熟知的谷歌无人驾驶在目前只能算是L4级水平。图森的主要目标是通过低成本传感器实现可靠的L3级别无人驾驶。

目前行业内的标杆是以色列的Mobileye。但目前Mobileye量产的芯片依然使用传统非深度学习算法,因此在一些特定场景中(如车侧面、非常见车型等)会出现错误。最近Tesla发生的车毁人亡事故就一个例子。图森的技术方案基于深度学习构建,能够实现更可靠的性能。

《汽车观察》:目前的自动驾驶技术有哪几类?它们的本质区别在哪里?分别有哪些优势?

郝佳男:目前,市面上共有两种解决方案:一种是计算机视觉为主、毫米波雷达为辅的低价解决方案;另一种是激光雷达为主、以摄像头为辅的高价解决方案。

以谷歌和百度为代表的是以激光雷达为主、摄像头为辅的高价解决方案,成本在50万以上。比如Google的无人驾驶车辆,在这个技术路线中,车辆完全由人工智能来驾驶,可以将车辆的方向盘、油门和刹车去掉,同时,为了增加技术的可靠性,Google无人驾驶汽车以激光雷达为核心,一个64线的激光雷达成本在7万美元左右,整体解决方案较贵。另外,激光雷达的硬件可靠性一般,也很难达到车规需求。但是这两家上市企业出于市值管理的考虑,在这方面不计成本。对他们来说,新技术所能达到的程度带来的新闻和公关效力,会大幅地抬高股价。但这种成本过高的技术,在商业化应用时会比较困难。

而选择低价解决方案更容易被车厂、受众所接受。以特斯拉、奔驰、沃尔沃等车厂为代表的渐进型自动驾驶,即先从辅助驾驶开始做起,在特定场景、或是特定的封闭结构化路段适用,做出紧急刹车、自适应巡航、车道保持、自动泊车等动作,后续涉入高度自动驾驶,即除了结构化路段外,还能在非结构化道路上自动驾驶。

图森就属于低价解决方案,即选择低成本的硬件(毫米波雷达、视觉传感器、高性能SoC),配合计算机视觉算法来降低总成本。传感器承担的精度要求降下来,那么对算法的要求就比较高了。

《汽车观察》:目前的自动驾驶技术是如何实现自动驾驶的?能实现到怎样程度的自动驾驶?

郝佳男:自动驾驶系统使用了多种传感器来感知,其中可视为广义“视觉”的有超声波雷达、毫米波雷达、激光雷达(LiDAR)和摄像头等。毫米波雷达和激光雷达承担了主要的中长距测距和环境感知,而摄像头主要用于交通信号灯、车辆、行人等物体的识别。

摄像头拍到的视频其实也是由一帧帧图像形成。拍下来是一回事,通过计算得出图像里的行人、车辆、信号灯等结构化数据则是另一回事。在过去,这被视为不可想象的任务。但深度学习的发展让基于视觉的感知技术获得了大幅度提升,基于视觉的环境感知变得可行了。

《汽车观察》:目前,市面上的自动驾驶技术在产品化的情况如何?有没有落地的产品正在运营?

郝佳男:对于整个自动驾驶行业来说,产品化需要漫长的时间,可能需要2-3年的时间。图森主要还是为主机厂和Tier1(一级零部件供应商)提供以摄像头为主、配合毫米波雷达和视觉芯片的、低成本的自动驾驶解决方案。

《汽车观察》:自长安的无人驾驶路试后,国家开始出台相关禁止自动驾驶路试的政策,这样一来,整个研发自动驾驶技术的企业又该如何测试自己的技术?如何看待国家有关自动驾驶这方面的政策?

计算机视觉感知技术范文第5篇

提起数字媒体,人们通常会想到传媒行业,其实数字媒体的应用绝不局限于传媒。随着宽带网络的普及,人们在日常业务处理过程中,正面对越来越丰富的网上媒体和内容,包括各种视频、音频、文本、图像等。下面,就让我们跟着诸位数字媒体方面的专家一起来分享这个缤纷的世界。

三维几何建模与形状表示

北京大学视觉与听觉信息处理国家重点实验室主任教育部长江学者奖励计划特聘教授 查红彬

精彩问答

在背景比较复杂、有干扰的情况下模型检索的效果怎么样?

在模型检索的时候并没有考虑背景,因为这是做模型检索比较容易的部分。模型检索一般是没有背景的,但也可以做,但是要推广到背景比较复杂的物体上识别可能有很大的问题,因为这时候匹配不仅仅是局部匹配,而是两个子集和子集的匹配问题,到目前为止,我们只是做没有背景的模型检索。

为什么要重新谈论三维形状表示问题?在多媒体信息处理领域里面,有两个比较重要的方向,这也是计算机科学技术领域里两个重要的方向,一个是计算机视觉,一个是计算机图形学。计算机视觉是从图像中通过识别或重建处理,得到一个对对象物的描述。反过来说图形学,是对一个对象和场景的描述,通过绘制和动画生成图像和视频。它们从处理过程来说是逆过程,这两个领域之间有密切的关联。

我们现在考虑计算机三维建模或模型的描述,考虑的不仅仅是计算机视觉或计算机图形学所包含的内容。这里面简单列举一下,比如基于模型的三维物体识别和场景识别,这两个应该是典型的计算机视觉里面考虑的应用。除了这以外还可以用模型干别的事情,比如绘制,还包括基于这样模型的设计、变形、动画等等。除了两个单独研究的应用之外,还要想怎么把两者结合起来,把虚拟和真实的东西无缝连接到一起,这些都牵涉到三维模型。

我们考虑的三维模型跟以前相比,应用领域大了很多,要达到这个要求,对模型的表达、形状的表达也都有了更高的要求。

怎样找到一些更新更有效地表达形式来符合这些要求呢?这里有四个方面,现在能不能建立一个形状空间,把考虑的对象完整地在形状空间里面表达出来。第二点就是针对形状的特性,表达要具有柔性,对象物的表面不都是连续的,也有一些非连续性和不规律性,这些特性怎样能够进行柔性处理。第三个是需要一些描述是局部性的,另外一些要求描述是整体性的,这两者之间如何有一个很好的结合方法。第四是在大量的计算当中,包括变形和动画中有很多编辑的工具,所以我们要求对现在的形状表达有一些比较高的要求。

在计算机视觉里面有一个老大难就是识别,已有模型,但是眼前看到的是一部分三维数据,怎么用这部分数据和模型数据匹配来识别它呢?这就牵涉到局部匹配,我们要解决局部匹配需要什么描述?我们要有一个模型,从大量的数据中建立一个模型库,并从中抽取很多特征,把这些特征进行组织。这里面牵涉三个比较大的问题,第一个是形状空间怎么构造,没有很好的特征表达或整理的形式,后面的匹配以及其他的工作就很难做。第二个是怎么定义基于这种特征的相似度。第三个是怎样在形状空间当中搜索到最优的匹配。

针对这些问题我们最近一两年做了一些工作,最近提出一个广义形状分布(Generalized Shape Distributions)描述方式,主要目的有两点,能不能在三维形状表示过程当中,找到一些最关键的描述指令,并从中找到相互关系,把整体和局部结合起来。如果把之间的关系描述出来,就能把局部结构性的信息用整体观点加进去,这两件工作就是我们做这件事情的主要目的。

在形状描述问题上,我们还有很多工作要做,除了局部、整体描述之外,我们要想办法把他们结合到一起。今后几年要用更多的模式识别的办法,来解决面临的图形学或虚拟现实和计算机视觉当中的很多问题。

生活中的计算机视觉

香港中文大学信息工程系终身教授

微软亚洲研究院视觉计算组负责人 汤晓欧

精彩问答

微软亚洲研究院视觉计算组在原创思想这一块,引领下一个方向有没有什么考虑,您谈到很多对人们日常生活影响很大的应用,但是在背后的更深层的考虑,更新的创意在哪里呢?

我们的研究者都很年轻,我本人也才工作七年的时间,很多的算法已经发展这么多年了,所以在开始的时候比较容易想出来的方法,现在已经很难有那么多的原创内容。我们的工作是去找一些非常原创的内容,有的是理论上的,有的是新的发明,这可以有很大的影响。

图像通过闪光灯的分割,前景和背景深度差会不会影响分割效果,距离会不会影响分割效果呢?

我们这个通过闪光灯对图像进行分割的技术,会一定程度上受到光的强度和距离的影响。

我们主要的研究领域包括计算机视觉、模式识别、图像处理和视频处理。下面就为大家介绍几个比较典型的应用。

如何将图片的前景和后景分离?我们现在照两张图片,一张打闪光灯,一张没有打闪光灯,这样拍出来的照片背景没有变化,但前景变化很厉害。在开闪光灯的情况下拍的照片,前景和后景可以利用一些技术很容易地分开来。

把一个图片的前景切割出来放入另一张图后,那剩下的图片缺一块的怎么办呢?如何修复剩下的图片呢?在例举的图片上,大家可以看到不同的区域,我们可以由一个算法,从其他的地方借过来,再贴上去,经过这样的处理后,图像基本上和原来没有太大的区别。

如此的修修补补又有什么用呢?比如说,你对这张图像不是很满意,你可以把图片上不喜欢的部分划出来,然后利用一些技术将划出来的空白部分填上。更有用的地方在于,你照了不想被别人看到的照片后,除了删除,你多了一个选择。你可以把不想让别人看到的照片部分去掉,并利用一些算法把空白的地方填补上,而且让别人看不出来。

现在大家的电脑上都会有很多照片,怎么快速地浏览这些照片呢?我们可以把这些图像都放在一个屏幕上,可屏幕毕竟有限,怎么才能把照片放得更多一些呢?我们现在做的是可以随机把照片放到桌面上,但是电脑会对每张照片上的重要信息进行筛选,在放尽可能多的照片的同时,让每张照片上最重要的信息不被遮掩,而且均匀地分布在桌面上。这样大家看起来就更清楚了。这个算法就是怎么让所有图像均匀分布,同时把所有背景都要盖上。我们可以对图像进行各种处理,同时我们也可以利用一些技术知道别人有没有处理图像,对图像有没有做过手脚。

现在我们来说说视频方面。比如说抖动很厉害的图像,怎么把物体移到中间?一个办法是把除移动图像外的公共部分切出来,但是移动越大,公共部分就会越来越小,更好的办法是用一些技术把空处填上。

现在MSN的功能已经越来越丰富。比如说一段电影,你看到一件比较中意的衣服,只要你把鼠标移动衣服的覆盖范围,你就能很清楚地知道这件衣服的品牌及价格。如果你把鼠标在那件衣服上轻点,电脑就会直接跳转到这个衣服的相关网站。

你在视频聊天的时候如果不想让对方看到你所处的环境,你就可以很轻松地把背景模糊掉。如果大家对自己的长相不是那么有信心,我们可以帮你改变一下你的长相。为自己添一幅酷酷的墨镜,换上一个性感的大嘴巴,这些都能轻而易举地完成。

多媒体传感器网络

北京邮电大学教授、博士生导师

智能通信软件与多媒体北京市重点实验室主任 马华东

传感器研究是IT非常热门的话题, 首先我为大家介绍一下多媒体传感器网络的基本概念。从早期的巨型机到今天的小型机,生物芯片尺寸越来越小,但是效率越来越高;网络设备联网和数据交换的需求越来越大,设备之间的传输量也越来越大;从信息处理的角度来看,内容逐渐占据了主导地位,由数据为中心转到以内容处理为中心。这三方面的演化是今天讨论多媒体传感器的背景。

传感器网络是一组传感器节点,由组织方式协作地感知采集和处理感知对象的信息,它的基本特点是造价低、能量敏感、通信能力有限、计算能力弱、动态变化。现在的需求是要求通信能力越来越强,计算能力应付节点的处理的要求。

右图是目前主流的传感器节点的配置,从配置来讲还是比较低的,现在信息处理侧重压力、温度、光、震动等简单的数据或者是标量数据。人类获取信息80%是视觉信息,10%左右是听觉信息,也就是说90%左右的信息是多媒体信息。传感器网络就是对音频、视频信息获取后提供给使用者,使其对环境信息有一个全方位的了解,对传感器网络的应用是非常广泛的。

从网络的结构来讲,基本结构和原来传感器网络差别不是很大,这里面强调增加音频、视频获取处理,网络传输整个过程的各个环节,同时这里面最好可以交互。有了这个概念以后,深入分析一下主要特点,首先是网络能力的增强,这样一个传感器网络应该集信息的采集、处理传输、转发、能量供应等方面,除了传统的标量数据,音频、视频的图像数据,都可以进行采集处理。

现在多媒体传感器网络目前有哪些问题呢?从需求来看,现在网络是异构的信息,媒体信息的格式,种类很多,并且差异非常大,数据量比较大,特别是音频、视频信息,格式比较复杂。这些信息传输过程中需要高速实时地传输,对网络传输速率也提出了比较高的要求。媒体信息的安全问题,也是网络需要考虑的,还有服务质量的问题。针对这些需求,我们可以看到,通信资源和计算资源这两者之间存在非常大的矛盾,或者非常大的鸿沟,如何解决这两者之间的差距就是我们研究的问题所在。

最后谈一下多媒体传感器网络研究的挑战,首先是节点的芯片设计,这是基础,这里面需要采用多种技术,包括软硬件协同设计的技术,各种技术结合,降低成本、能耗、体积、提高运算速度和可靠性。第二是三维场景的覆盖问题,方向性传感模型是一个简单的二维图形,实际上是三维图形监测,这是一个三维场景方向的问题,研究这个就复杂多了。还有一个问题是服务质量保证问题,在新的网络当中服务质量体系是什么样,也是研究的方向。再一个是信息处理,为了使网络传输数据量比较快,能不能在节点做信息处理的计算。当然信息的安全也比较重要,用这些节点获取多媒体信息怎么保证安全的质量,使应该看到的人看到这些信息,不应该看到的人看不到这些信息。

在多媒体传感器网络中,我们还是做了一些工作,和一些同行学者也有一些交流,这里面也有一些质疑,说多媒体传感网络和原来传感器网络设计初衷是不是吻合的,原来没有想让它处理这么多信息,原来体积比较小,加上这些信息以后,无疑使它的体积增大,这里面和初衷之间是不是有矛盾,传感器网络研究有没有必要性,如果有必要性可行不可行,这都是我们目前研究的问题。