首页 > 文章中心 > 计算机视觉理论

计算机视觉理论

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机视觉理论范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

计算机视觉理论

计算机视觉理论范文第1篇

摘 要 预算管理是医院财务管理工作的重要内容之一。从公立医院内部环境看,预算是医院年度财务收支计划,是全体员工努力工作的目标,但目前医院全面预算管理状况仍不理想。本文分析了医院全面预算管理存在的问题并探讨了相应的解决对策。

关键词 医院 预算管理 现状 对策

一、预算管理的概念及作用

预算管理是医院根据事业发展目标和工作任务,对未来一定期间内经营活动的规模、结构进行预测,编制数字形式的事业发展计划,以指导和控制经营活动达到医院事业发展目标的内部控制活动或过程的总称。著名管理学教授戴维·奥利认为,全面预算管理是为数不多的能把组织所有关键问题融于同一体系的管理控制方法之一。预算是高绩效的管理工具,为实现内部管理及控制机制,其在数据科学加工的基础上与医院治理结构相适应,涉及医院内部各个管理层次的权利和责任安排,具有全局性。通过全面预算管理可以统一经营理念,明确奋斗目标,激发管理动力,确保医院核心竞争能力的提升。

二、医院全面预算管理现状

随着部门预算改革的不断深入,预算的完整性、公开性、公平性、效率性特点日益突出。新《医院财务制度》于2010年12月28日公布,其在第二章中明确提出医院要建立健全全面预算管理体系,为医院实施全面预算管理提供了制度性指南。然而在实际工作中,全面预算管理的实施效果尚不够理想,医院在实施过程中还存在一些亟待克服的问题。

(一)预算管理缺乏全员参与意识

部分医院高级管理层认为编制全面预算是财务部门的职责, 临床、医技科室和职能部门科室并没有参与到编制过程中,科室工作计划与医院预算没有直接关系,预算编制结果缺乏全员认同感。而全面预算编制目的则主要为了申请财政补助和完成上级主管部门布置的预算任务,没有将预算管理提升为医院综合的、全局性的管理行为,预算管理在医院经营管理中得不到高度重视。

(二)高级管理层全面预算管理意识淡薄

目前,部分医院高级管理人员由医疗专业人员转入,缺乏相应的财务及经营管理知识,实际工作中主观随意性很大,常常不根据预算统筹安排日常财务工作。由此造成医院财务管理缺乏计划性,有限的资金得不到充分利用,资源得不到合理配置,预算执行没有反馈及考评措施,经营管理显得混乱无序。

(三)预算编制方法不科学

全面预算编制的方法主要有固定预算、弹性预算、滚动预算、零基预算和概率预算等。部分医院为简化预算,往往只选择最简单的方法进行编制,但由于各种预算方法均存在一定缺陷,只用单一编制方法编制预算会致使预算编制的科学性和实用性大打折扣。如目前大部分医院基本上采用“基数法”编制预算, 即根据去年的基数加本年增减因数来确定年度的预算收支规模,这样编制出来的预算往往会成为空头支票。

(四)预算执行过程中财务管理职能弱化

目前部分医院预算约束力弱化,财务会计人员缺乏对预算的刚性监督机制。财务部门对经费的管理常常是事后核算,对经费收支的考核也只停留在表面平衡上,在预算执行过程中缺乏合理、有效的控制、分析和调整。预算事前无论证,事后无评价,造成资金使用效率低下。

三、医院预算管理改进对策

(一)全面搜集信息,保障预算编制结果的真实性

一套较完善的预算方案建立在对医院整体业务内容的全面理解、综合预期基础上。因此,在组织架构确立的条件下,预算编制的基础是信息搜集。预算编制者不仅要掌握财务数字信息还要掌握非财务信息,例如院内及院外环境信息等,以此保证预算编制所需数据的精确性及编制结果的科学性、合理性、真实性、可行性。

(二)全员参与预算编制,调动全体员工的积极性

预算管理不是数据的简单罗列,而是一种与医院治理结构相适应,涉及医院内部各个管理层次的权利和责任安排;是一种全过程、全方位、全员性的管理。临床、医技科室和职能部门科室管理人员在科室中既是学科带头人,又是科室管理者,在医院管理结构中处于承上启下的中间环节,肩负着科室和医院发展建设的双重重任。可以确切的说,预算编制没有科室的参与就会成为无本之木,空中楼阁。如果预算编制的成果得不到全体员工的认同,就难以适应复杂多变的医疗经营环境。高级管理层应当合理梳理预算编制流程,让广大员工了解医院的发展目标,以此调动员工的工作积极性。

(三)建立预算管理组织架构

全面预算管理作为一种管理控制系统, 需要有相应的组织架构才能得以顺利实施。健全预算管理组织体系是保证全面预算控制有效运行的基础。预算组织架构包括:预算管理委员会、预算编制机构、预算编制与协调、预算监控与协调、预算反馈组织等。其中预算管理委员会是预算的综合审定机构,是医院内部全面预算管理的最高权力机构。预算编制机构由财务部门领导,负责预算的编制、审定、协调、调整和反馈。 预算执行组织是预算执行过程中的责任单位, 医院内部的预算执行组织是指各临床医技科室、职能部门等各责任中心。预算管理组织架构能在医院预算管理过程中有效地积聚新的资源,同时协调好部门与部门之间的关系,人员与任务间的关系,使管理的各个层次明确自己应有的权力和应承担的责任,保证预算的有效执行。

(四)加强培训,提高预算管理人员专业素养

预算管理人员的专业素养必须与全面预算管理的要求相适应,医院管理层应充分认识到提高全面预算管理人员水平的必要性和重要性。应对单位财会人员现状开展调研,制定具体的培训计划,采取“走出去、拉进来”的形式,有针对性地开展多种形式的培训活动,不断提高单位会计人员的全面预算管理水平,使医院全面预算管理实施更加有效。

计算机视觉理论范文第2篇

(1)课程内容方面:工程应用价值较小的内容居多;具备工程应用价值的方法,如基于结构光的3D信息获取,在课程内容中却极少出现。

(2)课程定位方面:现有课程体系中未能体现最新研究成果,而掌握世界最新工程应用成果是卓越工程师的基本要求之一。

(3)教学形式方面:传统计算机视觉课程侧重基本原理,尽管范例教学被引入到课堂教学中,在一定程度上帮助学生理解,但卓越工程师培养目标是培养学生解决实际工程问题的能力。针对卓越工程师培养目标,以及目前计算机视觉课程中存在的问题,本文提出工程应用导向型的课程内容、面向最新成果的课程定位、理论实例化与工程实践化的教学形式,以培养具有扎实理论基础及工程实践能力的卓越工程师。

1工程应用导向型的课程内容传统计算机视觉课程围绕Marr理论框架展开教学,其中部分原理仅在理想状态或若干假设下成立,不能直接运用到工程实践中。近年来已具备工程应用基础的原理及方法,在传统课程内容中较少出现,如已在工业测量、视频监控、游戏娱乐等领域中应用的主动式三维数据获取方法等。我们对工程应用价值高的课程内容,增加课时,充分讲解其原理及算法,并进行工程实例分析;对工程应用价值较低内容,压缩课时,以介绍方法原理为主。例如,在教授3D信息获取部分时,课时主要投入到工程应用价值较大的内容,如立体视觉、运动恢复结构、基于结构光的3D信息获取等;而对于基于阴影的景物恢复等缺乏应用基础的内容主要介绍其基本原理,并引导学生进行其工程应用的可行性分析,培养学生缜密的思维习惯,训练学生辩证的分析能力。

2面向最新成果的课程定位计算机视觉近十年来发展迅速,新方法和新理论层出不穷,在现有课程体系中未能得以体现。跟进世界最新成果是卓越工程师的基本要求之一,因此计算机视觉课程定位应当面向国际最新成果。为实现这一目标,我们主要从以下两方面入手。

(1)选用涵盖最新成果的教材。我们在教学中加入国际最新科研成果及应用范例,在教材选取上采用2010年RichardSzeliski教授所著《Computervision:algorithmsandapplications》作为参考教材。该书是RichardSzeliski教授在多年MIT执教经验及微软多年计算机视觉领域工作经验基础上所著,涵盖计算机视觉领域的主要科研成果及应用范例,参考文献最新引用至2010年。这是目前最新的计算机视觉著作之一,条理清晰,深入浅出,特点在于对计算机视觉的基本原理介绍非常详尽,算法应用紧跟国际前沿。

(2)强化学生调研及自学能力。“授之以鱼”,不如“授之以渔”。在教授学生的同时,更重要的是培养学生调研、跟踪、学习并分析国际最新科研及工程应用成果的能力。为强化学生的知识结构,培养学生跟踪国际前沿的能力,我们在教学中加入10%的课外学时,指导每位学生完成最近三年本领域的国际最新文献调研及工程应用新技术调研,并撰写相关调研论文。同时,设置2学时课内学时,让每位学生介绍调研成果,并进行课堂讨论。在调研基础上,选择相关算法进行了实验证明,进一步强化学习成果。实践证明,由于学生能够根据自己的兴趣,选择本领域感兴趣的课题进行深入调研,极大地调动了学生的积极性,强化了学生调研、跟踪、学习并分析国际最新科研及工程应用成果的能力。

3工程实践化的教学形式我们在教学中提出工程实践化的教学形式,即以人类视觉功能为背景,由相应工程实例引出相关理论,并最终将理论运用到工程实例中的算法和方法传授给学生。

计算机视觉理论范文第3篇

关键词:计算机视觉技术;食品工业;分级;图像处理

中图分类号: TS207 文献标识码:A

随着微型个人计算机应用的越来越广泛,以及计算机在综合学科中应用的深入研究,现如今在工农业、军事国防、医学卫生等众多领域的使用和研究方面计算机视觉技术都起到了至关重要的作用,为了节省人力、降低成本、减少误差,该项技术在食品企业、科研院所、检测机构中的应用更加普遍。如今,在农产品药物残留检测、水果重量分级、等级筛选、质量监管等方面计算机视觉技术有众多应用。

1 计算机视觉技术概述

计算机视觉技术是利用计算机、摄像机、图像卡以及相关处理技术来模拟人的视觉,用以识别、感知和认识我们生活的世界[1]。该技术是模拟识别人工智能、心理物理学、图像处理、计算机科学及神经生物学等多领域的综合学科。计算机视觉技术用摄像机模拟人眼,用计算机模拟大脑,用计算机程序和算法来模拟人对事物的认识和思考,替代人类完成程序为其设定的工作。该技术由多个相关的图像处理系统组成,主要包括光源提供系统、图像提取系统、计算机数据运算系统等。原理是:首先通过摄像机获得所需要的图像信息,然后利用信号转换将获得的图像信息转变为数字图像以便计算机正确识别[2]。随着科学技术的发展,计算机技术在各个领域得到广泛应用,计算机视觉技术不仅在代替人类视觉上取得了重大成就,而且在很多具体工作方便超越了人的视觉功能。计算机视觉计算有如此快速的发展,是因为与人类的视觉相比该技术具有以下显著优势[3]。

1.1 自动化程度高

计算机视觉可以实现对农产品的多个外形和内在品质指标进行同时检测分析,可以进行整体识别、增强对目标识别的准确性。

1.2 实现无损检测

由于计算机视觉技术对农产品的识别是通过扫描、摄像,而不需要直接接触,可以减少对所检测食品的伤害。

1.3 稳定的检测精度

设计的运行程序确定后,计算机视觉技术的识别功能就会具有统一的识别标准,具有稳定的检测精度,避免了人工识别和检测时主观因素所造成的差异。

2 计算机视觉技术在食品检测中的应用

20世纪70年代初,学者开始研究计算机视觉技术在食品工业中的应用,近几十年电子技术得到快速发展,计算机视觉技术也越来越成熟。国内外学者在研究计算机视觉技术在食品工业中的应用方面主要集中在该技术对果蔬的外部形态(如形状、重量、外观损伤、色泽等)的识别、内部无损检测等方面。国内有关计算机视觉技术在食品业中的应用研究起始于90年代,比国外发达国家晚多达20a,但是发展很快。

2.1 计算机视觉技术在果蔬分级中的应用研究

计算机视觉技术在食品检测中的应用研究相当广泛,从外部直径、成熟度的检测到内部腐烂程度的检测都有研究。韩伟等[4]采用分割水果的拍摄图像和新的计算机算法计算水果的半径,进而得出果蔬的最大直径。研究表明,该算法不仅降低了计算量而且提高了计算精度,此方法用于水果分级的误差不超过2mm,高于国际水果分级标准所规定的5mm分类标准差,可在工业生产中很好应用。李庆中[5]也利用图像的缺陷分割算法研究了计算机视觉技术在苹果检测与分级中的应用,结果表明此算法能快速、有效地分割出苹果的表面缺陷。孙洪胜等[6]以苹果色泽特征比率的变化规律为理论基础,结合模糊聚类知识利用计算机视觉技术来检测苹果缺陷域,检测不仅快速而且结果精确。刘禾等[7]通过研究认为苹果的表面缺陷可以利用计算机视觉技术进行检测,计算机视觉技术还可以将苹果按照检测结果进行分级,把检测过的苹果分成裂果、刺伤果、碰伤果和虫伤果等类别。梨的果梗是否存在是梨类分级的重要特征之一,应义斌等[8]通过计算机视觉技术、图像处理技术、傅立叶描述子的方法来描述和识别果形以及有无果柄,其识别率达到90%。杨秀坤等[9]综合运用计算机视觉技术、遗传算法、多层前馈神经网络系统,实现了具有精确度高、灵活性强和速度快等优点的苹果成熟度自动判别。陈育彦等[10]采用半导体激光技术、计算机视觉技术和图像分析技术相结合的方法检测苹果表面的机械损伤和果实内部的腐烂情况,初步验证了计算机视觉技术检测苹果表面的损伤和内部腐烂是可行的。冯斌等[11]通过计算机视觉技术对水果图像的边缘进行检测,然后确定水果的大小用以水果分级。试验表明,该方法比传统的检测方法速度快、准确率高,适用于计算机视觉的实时检测。朱伟[12]在模糊颜色的基础上,分析西红柿损伤部分和完好部分模糊颜色的差别,用分割方法对西红柿的缺陷进行分割,结果显示准确率高达96%。曹乐平等[13]人研究了温州蜜柑的果皮颜色与果实可滴定酸含量以及糖分含量之间的相关性,然而根据相关性,样品检测的正确识别率分别只有约74%和67%。刘刚等[14]从垂直和水平两个方向获取苹果的图像,并通过计算机自动分析图像数据,对苹果的外径、体积、以及圆形度等参数进行处理,与人工检测相比,计算机视觉技术具有检测效率高,检测标准统一性好等优点。Blasco. J [15]通过计算机视觉技术分析柑橘果皮的缺陷,进而对其在线分级,正确率约为95%。赵广华等[16]人综合计算机视觉识别系统、输送转换系统、输送翻转系统、差速匀果系统和分选系统,研制出一款适于实时监测、品质动态的智能分级系统,能够很好地实现苹果分级。王江枫等[17]建立了芒果重量与摄影图像的相互关系,应用计算机视觉技术检测桂香芒果和紫花芒果的重量和果面损伤,按重量分级其准确率均为92%,按果面损伤分级的准确率分别为76%和80%。

2.2 计算机视觉技术在禽蛋检测中的应用研究

禽蛋企业在生产过程中,产品的分级、品质检测主要采用人工方法,不仅需要大量的物力人力,而且存在劳动强度大、人为误差大、工作效率低等缺点,计算机视觉技术可以很好的解决这类产品工业生产中存在的困扰。欧阳静怡等[18]利用计算机视觉技术来检测鸡蛋蛋壳裂纹,利用摄像机获取鸡蛋图像后,采用fisher、同态滤波和BET算法等优化后的图像处理技术,获得裂纹形状并判断,试验结果表明,计算机视觉技术对鸡蛋蛋壳裂纹的检测准确率高达98%。汪俊德等[19]以计算机视觉技术为基础,设计出一套双黄鸡蛋检测系统。该系统获取蛋黄指数、蛋黄特征和蛋形尺寸等特征,和设计的数学模型对比来实现双黄鸡蛋的检测和识别,检测准确率高达95%。郑丽敏等[20]人通过高分辨率的数字摄像头获取鸡蛋图像,根据图像特征建立数学模型来预测鸡蛋的新鲜度和贮藏期,结果表明,计算机视觉技术对鸡蛋的新鲜度、贮藏期进行预测的结果准确率为94%。潘磊庆等[21]通过计算机视觉技术和声学响应信息技术相结合的方法检测裂纹鸡蛋,其检测准确率达到98%。Mertens K等[22]人基于计算机视觉技术研发了鸡蛋的分级检测系统,该系统识别带污渍鸡蛋的正确率高达99%。

2.3 计算机视觉技术在检测食品中微生物含量中的应用研究

计算机技术和图像处理技术在综合学科中的应用得到快速发展,在微生物快速检测中的应用也越来越多,主要是针对微生物微菌落的处理。食品工业中计算机视觉技术在微生物检测方面的研究和应用以研究单个细胞为主,并在个体细胞的研究上取得了一定的进展。殷涌光等[23]以颜色特征分辨技术为基础,设计了一套应用计算机视觉技术快速定量检测食品中大肠杆菌的系统,该系统检测结果与传统方法的检测结果具有很好的相关性,但与传统方法相比,可以节省5d时间,检测时间在18h以内,并且能够有效提高产品品质。Lawless等[24]人等时间段测定培养基上的细胞密度,然后通过计算机技术建立时间和细胞密度之间的动态关联,利用该关联可以预测和自动检测微生物的生长情况,如通过计算机控制自动定量采集检测对象,然后分析菌落的边缘形态,根据菌落的边缘形态计算机可以显示被检测菌落的具置,并且根据动态关联计算机视觉系统可以同时处理多个不同的样品。郭培源等[25]人对计算机视觉技术用于猪肉的分级进行了研究,结果显示计算机视觉技术在识别猪肉表面微生物数量上与国标方法检测的结果显著相关,该技术可以有效地计算微生物的数量。Bayraktar. B等[26]人采用计算机视觉技术、光散射技术(BARDOT)和模式识别技术相结合的方法来快速检测李斯特菌,在获取该菌菌落中的形态特征有对图像进行分析处理达到对该菌的分类识别。殷涌光等[27]人综合利用计算机视觉、活体染色、人工神经网络、图像处理等技术,用分辨率为520万像素的数字摄像机拍摄细菌内部的染色效果,并结合新的图像处理算法,对细菌形态学的8个特征参数进行检测,检测结果与传统检测结果显著相关(相关系数R=0.9987),和传统检测方法相比该方法具有操作简单、快速、结果准确、适合现场快速检测等特点。鲁静[28]和刘侃[29]利用显微镜和图像采集仪器,获取乳制品的扫描图像,然后微生物的图像特征,识别出微生物数量,并以此作为衡量乳制品质量是否达标的依据,并对产品进行分级。

2.4计算机视觉技术在其他食品产业中的应用研究

里红杰等[30]通过提取贝类和虾类等海产品的形状、尺寸、纹理、颜色等外形特征,对照数学模型,采用数字图像处理技术、计算机识别技术实现了对贝类和虾类等海产品的无损检测和自动化分类、分级和质量评估,并通过实例详细阐述了该技术的实现方法,证实了此项技术的有效性。计算机视觉技术还可以检验玉米粒形和玉米种子质量、识别玉米品种和玉米田间杂草[31]。晁德起等[32]通过x射线照射获取毛叶枣的透视图像后,运用计算机视觉技术对图像进行分析评估,毛叶枣可食率的评估结果与运用物理方法测得的结果平均误差仅为1.47%,因此得出结论:计算机视觉技术可以应用于毛叶枣的自动分级。Gokmen,V等通用对薯片制作过程中图像像素的变化来研究薯片的褐变率,通过分析特色参数来研究薯片中丙烯酰胺的含量和褐变率也关系,结果显示两项参数相关性为0.989,从而可以应用计算机视觉技术来预测加热食品中丙烯酰胺的含量,该方法可以在加热食品行业中得到广泛应用。韩仲志等人拍摄和扫描11类花生籽粒,每类100颗不同等级的花生籽粒的正反面图像,利用计算机视觉技术对花生内部和外部采集图像,并通过图像对其外在品质和内在品质进行分析,并建立相应的数学模型,该技术在对待检样品进行分级检测时的正确率高达92%。另外,郭培源等人以国家标准为依据,通过数字摄像技术获取猪肉的细菌菌斑面积、脂肪细胞数、颜色特征值以及氨气等品质指标来实现猪肉新鲜程度的分级辨认。

3 展望

新技术的研究与应用必然伴随着坎坷,从70年代初计算机视觉技术在食品工业中进行应用开始,就遇到了很多问题。计算机视觉技术在食品工业中的研究及应用主要存在以下几方面的问题。

3.1 检测指标有限

计算机视觉技术在检测食品单一指标或者以一个指标作为分级标准进行分级时具有理想效果,但以同一食品的多个指标共同作为分级标准进行检测分级,则分级结果误差较大。例如,Davenel等通过计算机视觉对苹果的大小、重量、外观损伤进行分析,但研究结果显示,系统会把花粤和果梗标记为缺陷,还由于苹果表面碰压伤等缺陷情况复杂,造成分级误差很大,分级正确率只有69%。Nozer等以计算机视觉为主要技术手段,获取水果的图像,进而通过分析图像来确定水果的形状、大小、颜色和重量,并进行分级,其正确率仅为85.1%。

3.2 兼容性差

计算机视觉技术针对单一种类的果蔬分级检测效果显著,但是同一套系统和设备很难用于其他种类的果蔬,甚至同一种类不同品种的农产品也很难公用一套计算机视觉设备。Reyerzwiggelaar等利用计算机视觉检查杏和桃的损伤程度,发现其检测桃子的准确率显著高于杏的。Majumdar.S等利用计算机视觉技术区分不同种类的麦粒,小麦、燕麦、大麦的识别正确率有明显差异。

3.3 检测性能受环境制约

现阶段的计算机视觉技术和配套的数学模型适用于简单的环境,在复杂环境下工作时会产生较大的误差。Plebe等利用计算机视觉技术对果树上的水果进行识别定位,但研究发现由于光照条件以及周边环境的影响,水果的识别和定位精度不高,不能满足实际生产的需要。

综上所述,可看出国内外学者对计算机视觉技术在食品工业中的应用进行了大量的研究,有些研究从单一方面入手,有些研究综合了多个学科,在研究和应用的过程中,取得了较大的经济效益,也遇到了很多问题,在新的形势下,计算机视觉技术和数码拍摄、图像处理、人工神经网络,数学模型建设、微生物快速计量等高新技术相融合的综合技术逐渐成为了各个领域学者的研究热点,以计算机视觉为基础的综合技术也将在食品工业中发挥更加重要的作用。

参考文献

[1] 宁纪锋,龙满生,何东健.农业领域中的计算机视觉研究[J].计算机与农业,2001(01):1-3.

[2] 李峥.基于计算机视觉的蔬菜颜色检测系统研究[D].吉林:吉林大学,2004.

[3] 曾爱群.基于计算机视觉与神经网络的芒果等级分类研究[D].桂林:桂林工学院,2008.

[4] 韩伟,曾庆山.基于计算机视觉的水果直径检测方法的研究[J].中国农机化,2011(05):25-29.

[5] 李庆中.苹果自动分级中计算机视觉信息快速获取与处理技术的研究[D].北京:中国农业大学,2000.

[6] 孙洪胜,李宇鹏,王成,等.基于计算机视觉的苹果在线高效检测与分级系统[J].仪表技术与传感器,2011(06):62-65.

[7] 刘禾,汀慰华.水果果形判别人工神经网络专家系统的研究[J].农业工程学报,1996,12(0l):171-176.

[8] 应义斌,景寒松,马俊福.用计算机视觉进行黄花梨果梗识别的新方法[J].农业工程学报,1998,14(02):221-225.

[9] 杨秀坤,陈晓光,马成林,等.用遗传神经网络方法进行苹果颜色白动检测的研究[J].农业工程学报,1997,13(02):193-176.

[10] 陈育彦,屠康,柴丽月,等.基于激光图像分析的苹果表面损伤和内部腐烂检测[J].农业机械学报,2009,40(07):133-137.

[11] 冯斌,汪憋华.基于计算机视觉的水果大小检测方法[J].农业机械学报,2003,34(01):73-75.

[12] 朱伟,曹其新.基于模糊彩色聚类方法的西红柿缺陷分割[J].农业工程学报,2003,19(03):133-136.

[13] 曹乐平,温芝元,沈陆明.基于色调分形维数的柑橘糖度和有效酸度检测[J].农业机械学报,2009,41(03):143-148.

[14] 刘刚,王立香,柳兆君.基于计算机视觉的苹果质量检测[J].安徽农业科学,2012,40(08):5014-5016.

[15] Blasco J,Aleixos N,Molto puter vision detection of peel defects in citrus by means of a region oriented segmentation algorithm[J].Journal of Food Engineering,2007,81(03):535-543.

[16] 赵广华,飞,陆奎荣,等.智能化苹果品质实时分选系统[J].中国科技信息.

[17] 王江枫,罗锡文,洪添胜,等.计算机视觉技术在芒果重量及果面坏损检测中的应用[J].农业工程学报,1998(12):186-189.

[18] 欧阳静怡,刘木华.基于计算机视觉的鸡蛋裂纹检测方法研究[J].农机化研究,2012(03):91-93.

[19] 汪俊德,郑丽敏,徐桂云,等.基于计算机视觉技术的双黄鸡蛋检测系统研究[J].农机化研究,2012(09):195-199.

[20] 郑丽敏,杨旭,徐桂云,等.基于计算机视觉的鸡蛋新鲜度无损检测[J].农业工程学报,2009,25(03):335-339.

[21] 潘磊庆,屠康,詹歌,等.基于计算机视觉和声学响应信息融合的鸡蛋裂纹检测[J].农业工程学报,2010,26(11):332-337.

[22] Mertens K,De Ketelaere B,Kamers B,et al.Dirt detection on brown eggs by means of colorcomputer vision[J]. Poultry Science,2005,84(10):1653-1659.

[23] 殷涌光,丁筠.基于计算机视觉的食品中大肠杆菌快速定量检测[J].吉林大学学报(工学版),2009,39(02):344-348.

[24] Lawless C,Wilkinson DJ,Young A,et al.Colonyzer: automated quantification of micro-organism growth characteristics on solid agar[J].BMC Bioinformatics,2010(08):38-44.

[25] 郭培源,毕松,袁芳.猪肉新鲜度智能检测分级系统研究[J].食品科学,2010,31(15):68-72.

[26] Bayraktar B,Banada PP,Hirleman ED,et al.Feature extraction from light-scatter patterns of Listeria colonies for identification and classification [J].Journal of Biomedical Optics,2006,11(03):34- 36.

[27] 殷涌光,丁筠.基于计算机视觉的蔬菜中活菌总数的快速检测[J].农业工程学报,2009,25(07):249-254.

[28] 鲁静.乳品微生物自动检测系统的设计[J].湖北第二师范学院学报,2010,27(08):115-117.

[29] 刘侃.鲜奶含菌量快速检测系统[D].华中科技大学,2008.

[30] 里红杰,陶学恒,于晓强.计算机视觉技术在海产品质量评估中的应用[J].食品与机械,2012,28(04):154-156.

计算机视觉理论范文第4篇

关键词: 计算机 视觉注意机制 计算机视觉注意模型

1.引言

随着信息技术的不断发展,数据处理量剧增,以及用户不断扩大的个性化需求,对计算机信息处理能力提出了越来越高的要求。如何在场景中快速准确地找到与任务相关的局部信息,即物体选择与识别,已经成为计算机信息处理领域的一个研究热点。随着在心理学领域注意机制研究的不断发展,将注意机制引入信息处理领域来解决物体识别问题,已经不再是纸上谈兵。

人类视觉系统进行视觉信息处理时,总是迅速选择少数几个显著对象进行优先处理,忽略或舍弃其他的非显著对象。进入人类视野的海量信息,通过注意选择机制进行筛选,就能使我们有选择地分配有限的视觉处理资源,保证视觉信息处理的效率,这就是视觉选择注意机制的原理。依据人类视觉选择注意的基本原理,开发能够进行智能图像信息处理的计算机系统,就成为一大任务。我们研究的主要方向是使计算机处理对象时,能够具备与人类相似的视觉选择注意能力。

2.视觉注意机制

研究视觉注意机制是个多学科交叉的问题,目前多个领域的研究人员都取得了研究成果,并且对视觉注意的理论都形成了一些共识。目前普遍认为注意既可以是按自底向上(自下而上)的图像数据驱动的,也可以是安自顶向下(自上而下)的任务驱动的。其中,自下而上的研究主要来自图像中物体数据本身的显著性。例如,在视觉搜索实验中,显著的物体会自动跳出,如图1中的圆点通过特征对比,以形状跳出的形式获得注意。自上而下的引导主要来自当前的视觉任务,以及场景的快速认证结果,即我们可以“故意”去注意任何一个“不起眼”的物体,如我们可以在图书馆浩如烟海的藏书中,找到自己感兴趣的那本书。

研究视觉注意机制的重要方法是研究眼睛在搜索目标时的表现。显著图中的各目标在竞争中吸引注意点,注意点在各个注意目标间转移。根据注意点转移时是否伴随眼动,视觉注意也分为隐式注意和显式注意。隐式注意的中央凹不会随着注意点的转移而移动,而显式注意的中央凹随每次注意点的转移而运动。

对视觉注意机制的研究为计算机视觉的发展提供了可能。计算机视觉借鉴人类视觉的注意机制,建立视觉注意的计算模型。通过“注意点”的选择与转移,实现对复杂场景中任务的搜索与定位,最终来实现实时信息的响应处理。在计算机视觉的研究中,显式注意应用较多。

3.计算机视觉注意模型

从人的角度来看,人类视觉系统通过视觉,选择注意在复杂的场景中迅速将注意力集中在少数几个显著的视觉对象上。从场景的角度来看,场景中的某些内容比其他内容更能引起观察者的注意,我们称之为视觉显著性,两者其实是从不同的角度对视觉选择注意过程的描述。

我们把引起注意的场景内容定义为注意焦点FOA(Focus of Attention)。Treisman的特征整合理论中将视觉信息处理过程划分为前注意和注意两个阶段,各种视觉特征在前注意阶段被以并行的方式提取出来,并在注意阶段以串行方式整合为视觉客体,即注意的特征和客体是通过不同方式进行的。在注意焦点的选择和转移上,Koch[2]进行了深入的研究,他提出注意焦点FOA的变化具有四个特征,即单焦点性:同一时刻只能存在一个FOA;缩放性:FOA的空间范围可以扩大或者缩小;焦点转移性:FOA能够由一个位置向另一个位置转移;邻近优先性:FOA转移时倾向于选择与当前注视内容接近的位置。同时注意焦点具有抑制返回的特点,即FOA转移时抑制返回最近被选择过的注视区域。在此基础上,视觉注意的研究人员提出了多种视觉注意模型。

4.视觉注意模型的研究现状

人类的视觉注意过程包括两个方面:一方面是对自下而上的初级视觉特征的加工,另一方面是由自上而下的任务的指导,两方面结合,共同完成了视觉的选择性注意。与此对应,当前的计算机视觉注意研究也分为这两个方面。

4.1自下向上的数据驱动注意模型研究及分析

在没有先验任务指导的情况下,视觉注意的目标选择主要是由场景中自下而上的数据驱动的,目标是否被关注,由它的显著性决定。现在,自下而上的注意研究主要基于Treisman的特征整合理论和Koch&Ullman的显著性模型,Itti、satoh等人均在此基础上提出了自己的研究模型,并做了一些模型的改进研究。自下而上的研究方法通过对输入图像提取颜色、朝向、亮度等方面的基本视觉特征的研究,形成各个特征对应的显著图。另外,一些研究者采用基于局部或全局对比度的方法,来得到图中每个像素的显著性,进而得到显著图。

现有的自下而上的视觉注意计算模型中,Itti的显著图模型(简称Itti模型)最具代表性。该模型主要包含3个模块:特征提取、显著图生成和注意焦点转移。模型通过初级特征的提取,将多种特征、多种尺度的视觉空间通过中央―周边算子得到的各个特征的显著性图合成一幅显著图。显著图中的各个目标通过胜者为王的竞争机制,选出唯一的注意目标,其中注意焦点的转移用的是禁止返回机制。但该模型也有一些缺点,如显著区与目标区域有偏差、计算量较大、运行时间较长、动态场景中实时处理不平等。

在动态场景之中,由于Itti模型很难满足实时性的要求,科研工作者们正在努力研究动态场景的特性,并建立相应的动态模型。如Wolfe[1]指出,影响前注意的特征包括颜色、方向、曲率、尺寸、运动、深度特征、微调支距、光泽、形状,等等,其中又以运动特征最为敏感。而You等采用了一种空间域特征和时间域特征相结合的视觉注意模型,该模型假设当场景中存在全局运动时,视觉注意对象将极少做运动。然而,许多真实的场景并不能满足这个假设,限制了模型的适用范围。Hang等人提出了一种运动图的计算方法,并把运动图作为特征之一,与颜色、亮度、方向等特征结合。这些研究关注了运动特征对视觉的影响,但是均存在一定的局限性,对于复杂的运动场景的注意焦点计算很难取得良好的效果。

我国研究者也在Itti注意模型的基础上研究了适合动态场景中的注意模型,形成了一些理论成果。如曾志宏[2]等人提出注意焦点计算模型,郑雅羽[3]等提出基于时空特征融合的视觉注意计算模型。这些模型都能较好地提取动态场景下的视觉目标。

4.2自上而下的任务驱动的注意模型研究及分析

自上而下的注意即任务驱动的注意,通过目标和任务的抽象知识,在一定程度上指导注意焦点的选择。在自上而下注意模型的研究方面,Laar(1997)提出了一个用于隐式视觉注意的模型,该模型通过任务学习,将注意集中于重要的特征。Rabak[4]提出了基于注意机制的视觉感知识别模型,该模型在定义目标显著性时,通过语义分析对其他三个自下向上的视觉控制参数项进行线性组合。Salah将可观测马尔科夫模型引入到模拟任务驱动的注意模型研究中,并在数字识别和人脸识别的实验中取得了很好的效果。Itti提出以调节心理阈值函数的形式来控制视觉感知。

目前对自下而上的数据驱动方面的研究较多,而对自下而上的任务驱动方面研究较少。因为任务驱动的注意与人的主观意识有关,同时受到场景的全局特征影响。自上而下的注意涉及记忆、控制等多个模块的分工协作,其过程非常复杂。

5.计算机视觉注意模型研究的趋势

自底向上和自顶向下的加工是两种方向不同的信息处理机制,两者的结合形成了统一的视知觉系统。人类的视觉信息处理系统只有遵循这样的方法,才能有效地实现视觉选择注意的目的。

实践证明,把自底向上和自顶向下的研究相分离的研究方法并不能很好地解决计算机的视觉注意过程。要想使计算机能够准确模拟人类的视觉注意过程,实现主动的视觉选择注意的目的,采用两种研究方法相结合的形式势在必行。自底向上的视觉注意计算往往离不开与自顶向下的有机结合,实现二者的优势互补是以后计算机视觉注意研究的一个趋势。

参考文献:

[1]Wolf J M,Cave K R.Deploying visual attention:the guided search model.In:Troscianko T,Blake A,eds.AI and the Eye.Chichester,UK:Wiley press,1990.

[2]曾志宏,周昌乐,林坤辉,曲延云,陈嘉威.目标跟踪的视觉注意计算模型[J].计算机工程,2008,(23).

[3]郑雅羽,田翔,陈耀武.基于时空特征融合的视觉注意模型[J].吉林大学学报,2009,(11).

[4]Rabak I A,Gusakova V I,Golovan A V,et al.A model of attention-guided vision perception and recognition.Vision Research,1998,38.

计算机视觉理论范文第5篇

关键词:计算机视觉;地图匹配;SLAM;机器人导航;路径规划

1概述

计算机视觉在人工智能学科占据重要地位,为自主移动机器人视觉导航做了深厚的理论铺垫。目前,机器人导航技术有很多种,传感器导航技术如里程计、激光雷达、超声波、红外线、微波雷达、陀螺仪、指南针、速度、加速度计或触觉等得到了普遍应用,与上述非计算机视觉导航技术相比较,计算机视觉导航技术如人眼般具有灵敏度高且可捕获的信息量大以及成本低等优点。由于室内相对室外空间比较狭小且内部环境复杂,所以普通移动机器人在作业过程中,完成躲避眼前障碍物、自主导航以及为自身找出一条可行路径等一系列操作会相对比较困难。计算机视觉导航技术可利用本身的摄像头获得室内周围的环境信息,实时对其周身的场景进行快速反馈,对视野前方障碍物进行快速识别和检测,从而确定一条高效的可行的安全路径。本文对计算机视觉导航技术进行分类研究,主要分为3类:第一类是环境地图事先已知,提前对外界环境特征进行提取和处理,建立全局地图,并将地图信息存储在机器人内存数据库中,在导航的时候实时进行地图匹配;第二类是同时定位与地图构建,移动机器人在自身位置不确定的情况下根据自身的摄像头获取周围未知环境信息,在作业时逐步构建周围的环境地图,根据构建的增量式地图自主实时定位和导航;第三类是不依赖环境地图,自主移动机器人不需要依赖任何的环境地图,其在作业活动时的可行区域主要取决于摄像头实时识别和检测的环境相对信息。

2环境地图的表示方法

目前,计算机视觉导航技术多采用栅格地图、几何地图、拓扑地图和混合地图构建环境地图信息。

2.1栅格地图

栅格地图,将栅格图像考虑为一矩形,均分为一系列栅格单元,将每个栅格单元赋予一个平均概率值,并利用传感信息估计每个单元内部内存障碍物的概率。构建栅格地图的优点是其地图表达形式直观,创建和维护比较容易;但当划分的栅格单元数量不断增多时,实时性就会慢慢变差;当划分的栅格单元越大时,环境地图的分辨率越低。

2.2几何地图

几何地图利用几何特征如点、直线、平面等来构成环境主要框架,需要知道这些特征在环境中信息的具置,所以几何地图通常使用其对应的三维空间坐标来表示。几何地图构建过程相对简单,保留了室内环境的各种重要信息,是基于计算机视觉的定位与地图构建算法中最常用的一种表示方式。但是为了完成环境的建模需要标记大量的特征,从而计算量也非常的大,降低了实时性,其重建的地图也容易出现与全局不一致的情况。

2.3拓扑地图

拓扑地图用许多节点和连接这些节点的曲线来表示环境信息。其中,每个节点相对应真实环境中的特征点(如门角、窗户、椅子、桌子角及拐角等),而节点之间的曲线表示两个节点对应的地点是相联通的。拓扑地图把环境信息表上在一线图上,不需要精确表示不同节点间的地理位置关系,图像较为抽象,表示起来方便且简单。机器人首先识别这些节点进而根据识别的节点选择节点与节点间的曲线作为可作业的路径。

2.4混合地图

混合地图主要包括3种形式:栅格一几何地图、几何一拓扑地图以及栅格一拓扑地图。混合地图采用多种地图表示,可结合多种地图的优势,与单一的地图表示相比更具有灵活性、准确性和鲁棒性,但其不同类别的地图结合起来管理会比较复杂,难以协调,增加了地图构建的难度。文献针对室内环境所建立的模型分为全局拓扑和局部几何表述部分,整体环境通过拓扑节点串连起来,维护了整体环境表述的全局一致性;而以每个拓扑节点为核心所采用的几何表述则可确保局部精确定位的实现,这样建立的几何一拓扑混合环境模型可将二者的优势都表现出来,使得移动机器人定位和地图构建同时进行,实现容易。

3基于计算机视觉的室内导航

基于计算机视觉的室内导航技术可利用摄像头捕获机器人周围环境的全部信息,对其周身的场景进行反馈,对障碍物进行快速识别和检测,从而确定一条高效的可行的安全路径。本文将计算机视觉室内导航技术主要分为3类:第一类是环境地图事先已知;第二类是定位与地图构建同时进行;第三类是不依赖环境地图。

3.1环境地图事先已知

提前对外界环境特征进行提取和处理,建立全局地图,并将地图信息存储在机器人内存数据库中,在导航的时候实时进行地图匹配,即预存环境地图。在环境地图事先已知的导航中,路标信息保存在计算机内存的数据库中,视觉系统中心利用图像特征直接或间接向移动机器人提供一系列路标信息,一旦路标被确定后,通过匹配观察到的图像和所期望图像,机器人借助地图实现自身精确定位和导航。该导航技术过程可分为以下步骤:

a)图像获取:摄像头获取其周围的视频图像;

b)路标识别及检测:利用相关图像处理算法对图像进行一系列预处理如进行边缘检测和提取、平滑、滤波、区域分割;

c)路标匹配标志:在观察到的图像和所期望图像之间进行匹配,搜索现有的路标数据库进行标志路标;

d)位置计算:当有特征点进行匹配时,视觉系统会根据数据库中的路标位置进行自身精确定位和导航。

在基于计算机视觉的地图匹配定位过程中,主要有2种地图匹配较为典型。

①已知起点,已知地图。这种条件下的定位称为局部定位,采用的是一种相对定位的方法,如图1所示为其位姿估计过程,这种情况目前导航技术研究得最多。

②不知起点,已知地图。这种条件下的定位称为全局定位。当机器人需要重置时,通常使用这种定位方法来检索机器人的当前位置(即姿态初始化)。常用的辅助方法是在环境中添加一些人造信标,如无线收发器,几何信标,条码技术,红外或超声波接收系统进行位置识别,利用视觉系统识别自然标志,自主定位。

3.2定位与地图构建同时进行

不知起点,不知地图。SLAM技术最早由Smith等人于1986年提出,移动机器人在自身位置不确定的情况下根据自身的摄像头获取周围未知环境信息,在作业时逐步构建周围的环境地图,根据构建的增量式地图自主实时定位和导航。在日后的导航研究中,混合地图中的几何一拓扑混合环境模型被得到广泛应用,主要用来解决SLAM问题。

2003年,在解决SLAM技术难题上,Arras等人采用基于Kalman滤波器和最邻近(nearest neighbor)匹配策略的随机地图创建方法。下面是该算法步骤:

a)数据采集:首先初始化系统,从摄像头传感器采集距离数据;

b)状态预测:视觉系统预测机器人运动状态,实时返回新位姿信息和协方差矩阵,预测地图;

c)观测:从原始捕获的信息中提取主要特征信息并将此信息返回给局部地图;

d)测量预测:预测机器人当前位姿的全局地图;

e)位置匹配:应用最邻近滤波器匹配局部地图中的观测点和预测点;

f)估计:使用扩展Kalman滤波器更新地图;

g)创建:将非相关的观测点加入地图,对机器人返回增量式地图;

h)输出地图。

制约机器人视觉系统性能的重要因素是信息实时处理的计算复杂度和处理效率,SLAM算法需要在地图密度与计算效率之间取得权衡。

3.3无环境地图

在这类系统中,机器人不需要依赖任何的环境地图信息,机器人的活动取决于其当时识别和提取出来的环境信息,这些环境信息可能是桌子、椅子和门等,不需要知道这些环境元素的绝对位置。无环境地图的导航技术典型的技术有3大类:基于光流的导航技术、基于外观信息的导航技术、基于目标识别的导航技术和基于目标跟踪的导航技术。

3.3.1基于光流的导航技术

光流是三维空间运动物体在观测成像面上的像素运动的瞬时速度,也是图像亮度的运动信息描述。光流法计算最初是由Horn和Schunck于1981年提出的,其利用二维速度场与灰度,引入光流约束方程,得到光流计算的基本算法。光流计算基于物体移动的光学特性提出了2个假设:①运动物体的灰度在很短的间隔时间内保持不变;②给定邻域内的速度向量场变化是缓慢的。如Santos-Victor等人研发了一种基于光流的robee视觉系统,该系统模拟了蜜蜂的视觉行为。在robee视觉系统中,使用单独的双目视觉方法来模拟蜜蜂的中心反射(Centering Reflex):当机器人移动到走廊两侧的墙壁中心时,左眼捕获场景的瞬时速度与右眼捕获场景的瞬时速度是相同的,几乎没有差别,那么机器人就可以知道他们在走廊的中心。如果眼睛两侧的眼睛的瞬时变化速度不同,则机器人移动到较慢的速度。在自动机器人导航的实现中,基于这个想法是测量摄像机捕获图像场景瞬时速度差异。这种导航技术只能用于室内单通道直走道导航,不能引导机器人改变方向,具有一定的局限性。

3.3.2基于外观信息的导航技术

基于外观的机器人导航方法,不需要构建真实的地图导航,机器人通过自身所携带的摄像头和传感器感知周围目标的外观信息进行自主定位和导航。其中,所述的外观信息多为目标信息的颜色、亮度、形状、空间大小和物理纹路等。机器人在导航时存储连续视频帧的环境图像信息,并将连续视频帧与控制指令相关联,从而再执行指令规划有效路径到达目的地。

3.3.3基于目标识别导航技术

为了达到目标点或是识别目标,机器人很多时候只能获取少量的图像信息。Kim等人提出了一种用符号代替导航各个位置的赋值方法。该赋值方法中,机器人执行命令如“去窗边”“去你后面的椅子旁”等。这样,通过相关的符号命令,机器人自动识别并建立路标,通过符号指令到达目标点。例如“去你后面的椅子旁”,这样的命令就是告诉机器人路标是椅子、路径向后。该导航技术的难点在于目标是否可以准确实时识别路标。第一,识别大量不同类别的物体,室内环境有许多不同类别的物体,需要将它们组织到一个在给定的容易搜索图像数据结构中去,起到容易识别是用什么度量来区分物体;第二,识别大量不同背景下的物体,一个合适的物体表达式有助于将图像组织成片断,而这些片断来自于物体的种类且与物体无关的;第三,在抽象层次上识别物体,机器人可以不需要在看到一个具体的杯子之前便能知道它是一个杯子,相关程序能够类似的物体进行识别和区分。

3.3.4基于目标跟踪的导航技术

基于目标跟踪的导航技术,为机器人构造一个虚拟地图,机器人通过摄像头获取连续的视频序定一个跟踪的目标,为了达到对目标的精确定位和实时跟踪,可以利用粒子滤波算法对需要跟踪的目标进行建模。基于粒子滤波的目标跟踪主要包含四个阶段,分别是初始化目标区域,概率转移,目标区域权重计算,目标区域重采样。在机器人导航之前,通过视频序列的当前几帧标注机器人所需要跟踪的目标,在导航时,机器人通过连续的视频帧感知周围的待跟踪目标,同时对所需要跟踪的目标散播粒子,当获取的视频帧对目标区域重采样后足以让机器人确定所需要跟踪的目标时,机器人通过确定的目标为自己规划最有效的路径到达目的地。获取视频序列目标跟踪是算机视觉领域中的重要分支,它在工业生产、交通导航、国防建设、航空导航等各个领域有着广泛的应用。