前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机视觉传达技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
自从机场服务机器人投入展览后,一直是该展区的热门展项,驻足围观的游客络绎不绝。对机器人的表现,游客也是褒贬不一。有些游客对机器人的精彩表演连连称赞;有些则认为机器人反应迟缓、显得笨重,相比人类的表现,令人失望。
识别这些行李对于机器人来说是不是很困难?机器人在视觉方面能否做得更好,能否识别更复杂的对象?它们的目力能否超过人类?它们究竟能看到什么?
这些问题将我们引向了一个新兴的热门领域:计算机视觉。计算机视觉是人工智能的子学科,而人工智能则是仿生学的一种。人工智能旨在模仿人(有时也包括其他动物)的行为和思维,而计算机视觉将模仿的对象集中在了人眼上,即模仿人“看”的行为。换言之,计算机视觉是一门利用摄影机和计算机代替人眼进行图像获取、目标识别、跟踪、测量、理解和处理的学科。作为一门交叉学科,计算机视觉与许多学科有重要联系:机器学习、神经生物学、认知科学、信号处理(图像处理)等。在后面的介绍中,这些学科间的联系将变得更加清晰。
眼睛是人体获取外界信息最重要的传感器。它高速、准确、信息量大,为人的决策和行为提供了丰富的信息。同样,计算机视觉系统作为人工智能体的一个感知器,也常常为决策提供了最重要的信息。那么,一个理想的计算机视觉系统究竟完成了什么任务,又给智能体提供了怎样的信息呢?
让我们来举一个简单的例子。你走进一家咖啡店,发现你的好友彼得坐在角落里,双手托着下巴,一脸的不愉快。于是,你决定走过去安慰一下。假如完成该任务的不是人类而是机器人,则要由其计算机视觉系统获取图像,然后对该图像进行处理,并得到以下信息:1.这是好友彼得;2.他看上去很沮丧。这两条信息被传递给决策器,后者随即做出了走过去安慰的计划,计划则最终被四肢等效应器执行。
对人来说,这个过程再简单、自然不过,但对于计算机视觉系统来说,却是个相当复杂的过程。对该图像进行处理的过程中,计算机分别完成了三个层次的任务:初级视觉、中级视觉和高级视觉。这样的分类方式不仅和视觉任务的复杂程度有关,也和人类在完成这些任务时所涉及到的视神经和脑神经部位有关。在以下的篇幅中我们将介绍一些分别属于这三个层次的典型的计算机视觉任务。
初级视觉
现代数字成像技术使计算机视觉成为可能。利用CCD或CMOS等感光原件,可获得数字化的图像。一般来说,对像素进行处理的任务即属于初级视觉。在挖掘出图像中包含的信息时,首先需要对图像进行一些处理,以便能够执行更高级的任务。图像的主体和背景之间、同一表面上不同的材质和颜色之间等都会形成边界,从图像中提取出边、角、点等特征能帮助计算机理解图像,并利用滤波的方式进行边界特征提取。像滤波这样的信号处理方法在初级视觉中被广泛应用,除了特征提取外,还有降噪、平滑等。
图像上各种颜色的像素并不是随机分布的,它们一般都在图像上形成一定含义的组合。比如,草地是由绿色的像素拼合成的,而天空是由大量的蓝色像素组成的。找到这样的具有相同属性的像素形成的像素块称为分割。当然,提取边界可以帮助分割图像,但是简单地把所有的边界分割出的区域都作为具有相同属性的像素块是否正确呢?这正是图像分割最具有挑战性的。比如一副斑马图片,计算机如何知道斑马的嘴不是背景的一部分呢?这就涉及到了图像的语义。在给图像进行初级分割后,更精确的分割任务就要交给中级或高级视觉了。
人类有两只眼睛,同样,机器人也可以通过安装两个经过标定的摄像头来实现双目视觉,从而实现测距,即分辨物体在三维空间中的位置。上文的例子中,双目视觉可以依据透视原则和遮挡的关系来帮助视觉系统确定彼得所坐的位置,比如在第二张桌子和第三张桌子之间。
中级视觉
中级视觉是建立在初级视觉的计算结果上的。在执行中级视觉任务时,不仅使用了实时的初级视觉计算结果,还结合了一定的视觉经验。举个简单的例子,平时生活中我们所看到的,被桌上的杯子遮挡的部分也是桌子的一部分;上文斑马深色的口鼻部并非背景的一部分,而是斑马的一部分。事实上,这些结合经验的视觉任务可以首先被应用到分割任务中。中级视觉中的分割不再是仅仅依靠颜色将图像分为若干个像素块,而是产生更有意义、更精确的分割,这样的分割不是仅靠边界提取就能够实现的。分割算法不计其数,常用的有类聚的方法、基于特征向量的方法、基于图论的方法、期望最大化、概率的方法(贝叶斯方法)等。
在经验的帮助下,视觉系统可以通过拟合的方式来解释甚至纠正图像中的变形或缺失。比如,根据经验桌子的边一般是直的,则视觉系统在提取到桌子的部分边缘或拐点后,就可以用直线来拟合被遮挡而缺失的部分,或因摄像头的棱镜引起的失真。这样,机器人在走向彼得时就能避免撞到桌子。
经验也并非是绝对正确的,此刻看到的也许是经验中所缺失的。通过一个加权的概率模型,视觉系统可以将目前观察到的图像和经验中的数据结合起来,从而对未来的状态做一个预测。这样的方法常常被用于跟踪,也就是在一帧帧连续播放的画面中,根据目标在以前和目前图像中的位置来预测目标在未来图像中的位置。比如高速公路上的车辆跟踪系统,系统用从对象上提取出的特征点(红色)来定位目标。视觉跟踪常用的算法有卡尔曼滤波器、非线性动态模型等。
目前的中级计算机视觉研究受到了心理学和认知科学的影响。比如格式塔心理学对基于经验和认知整体的中级视觉有较大贡献。
高级视觉
也许高级视觉才是计算机视觉中最有趣的一部分,因为它是人类视觉中至今还无法被完全解密的部分(也许连部分解密都谈不上)。当你站在杂乱、昏暗的酒桌前,从看到的图像中识别出沮丧的彼得时,整个过程只需要0.3秒。事实上,现代处理器的运算速度远远高于人类视神经和大脑中神经突触的信息传递速度。但人类视觉的功能是如此的强大,以至于计算机视觉系统远远不能达到人类的水平。较新的研究表明,人类发达的视觉系统得益于一套大规模并行计算系统──不计其数的神经元形成的视觉通路,它就像一张有无数节点的计算网络,信息在其中往返传递。
高级视觉任务几乎都围绕着两个字展开:识别。识别是给对象贴上标签的过程,即给对象附上含有语义的名称或描述。这是一种高级的视觉活动,需要学习、联想等更高级的大脑活动的参与。拿图像的分割任务来说,图像不仅被分割成独立的像素块,视觉系统还为每个像素块贴上“标签”,比如“窗子”、“桌子”、“酒瓶”、“彼得的脸”等。通过模板比对,视觉系统将彼得的脸和经验中的图像联系了起来,从而引起了系统的兴趣。从彼得的脸上提取的特征中,视觉系统还解读出了彼得的沮丧。于是在随后的图像中,视觉系统都将注意力放在了彼得的脸上,试图跟踪该对象。视觉系统在继续跟踪的同时,将从图像中得到的信息发送给决策器。
即使是当代最成功的算法和视觉系统都无法像人类一般高效地识别物体。对我们来说,识别 “一个瓷杯”处于不同状态似乎并不怎么困难,但对计算机视觉系统来说却不容易。杯子可以有不同的摆放姿势、不同的光照强度和颜色、出现在画面中的不同位置、可能有的部分被遮挡,如果按不同状态就是不同的杯子这一点来判断,那就可能误判为存在不计其数的各式各样的杯子(即外观的区别)。在绝大多数计算机视觉系统中,目标都被要求符合一些限制条件,否则,计算机视觉将成为不可能的任务。由此可见,在杂乱、昏暗的酒桌一角发现彼得对计算机视觉系统来说是多不容易的一件事情。
对人类来说,识别并非与生俱来的本领。婴儿睁大眼睛看着陌生的世界,他们的视觉实践是从测距、分割开始的。幼儿几乎每时每刻都在努力学习如何给图片贴标签。他们学习得很快,低龄儿童不仅可以成功地识别物品,还可以在一定程度上察言观色,感受到由表情传达的情绪。通过奖励和带教,可以加速儿童的学习过程。
通过这样的启发,高级视觉还将依赖机器学习这门学科。机器学习是研究如何通过算法让计算机实现人类的学习过程,从而让计算机不仅能够实现简单枯燥的任务,还能够向智能迈进一步。作为人工智能领域的核心学科,机器学习如百家争鸣,不断取得着新的成绩。当今重要的机器学习算法有人工神经网络、遗传算法、支持向量机、贝叶斯网络、强化学习等。
至今,计算机视觉系统最为成功的案例,莫过于手写数字识别。MNIST是使用最广泛的手写数字库,为各类识别算法提供了一比高下的平台。MNIST中含有七万幅边长为28个像素的图像。目前最出色的识别算法一般都可以达到1%以内的错误率。然而,MNIST只是对目标的外观做了有限多的变化,并没有涉及到有如杯子在不同状态下的各种变化。而且,28×28=784个像素的图片实在很小,如果处理普通大小的照片,视觉系统的运算量就会呈指数级增长,甚至让超级计算机都无能为力。
对此,麻省理工学院媒体实验室的科学家埃尔・卡利欧比认为,无法回应人的感情,是计算机的一大硬伤,因为这样一来,用户有许多需求将无法得到满足,要想让计算机做出有效的回应,用户不得不费一番工夫输入相关指令。
为了消弭人与计算机之间的这道鸿沟,埃尔・卡利欧比发明了一系列技术,使计算机能够识别人们发自内心的各种肢体语言,包括面部表情等等。有了这些技术,计算机有朝一日将成为人们更加得力的左膀右臂。
表情识别
埃尔・卡利欧比并不是第一个试图建立面部表情数据库的研究人员,但她不像其他人那样,仅仅止步于让计算机识别实验室里记录在案的那六种颇为夸张的基本表情,而是让它“琢磨”人们在日常生活中不经意间流露出来的种种不易察觉的细微表情。“要想攻克这个难关,我们必须推动计算机视觉和机器学习领域的尖端研究。”埃尔・卡利欧比表示。
为了将这个难题化整为零,各个击破,她在人的脸上做了24处标记,然后训练了一台计算机,让它识别人们在做不同的表情(比如皱眉)时,这24块脸部肌肉发生的变化。埃尔・卡利欧比在六大洲征集了成千上万名志愿者,这些志愿者用电脑自带的摄像头拍下了他们观看视频时的面部表情,然后将拍下来的照片发给埃尔・卡利欧比。这些照片汇集起来,共同组成了她所说的世界上最大的面部表情数据库。
眼镜和腕带
在这项技术投入试验应用的早期阶段,研究人员发明了一款内置摄像头的眼镜,这款眼镜能够帮助那些有情绪识别障碍的患者读懂别人的心情。比方说当你戴着眼镜同别人交谈时,如果对方感到无聊,镜片上的小灯管就会发出某种颜色的灯光,将这个信息传达给你。
据说埃尔・卡利欧比自己就在把玩一款头戴式摄像机,无论是在实验室里还是在日常生活中,她都与之形影不离,每次都会把这款摄像机藏在她的头巾里。
埃尔・卡利欧比还开发了一款腕带,这款腕带能够测量皮肤电传导性,这项指标与情绪激发有关,因此可用于实时监测腕带佩戴者的焦虑程度。
应用现状
到目前为止,面部识别技术主要用于帮助广告商家更好地了解广告对于观众产生的影响。研究人员在网上召集了数量庞大的志愿小组,这些小组的成员允许研究人员跟踪记录他们在观看广告时的面部表情,并对得到的数据进行分析。但是从长远上讲,埃尔・卡利欧比还是希望自己的技术能够走进课堂,帮助老师们判断什么样的教学材料在学生当中反响最好。
国内外网站设计差距
国外用户在网站风格上不习惯艳丽、花哨的色彩和网站建设风格,他们比较钟情于简洁、平淡而严谨的风格,即使许多大型网站建设也是这种风格。国外网站在首页页面上通常不会放置太多内容,也很少放置广告,他们倾向于将首页做成各类功能、板块的引导界面,即使有内容表现,也是比较简洁的,不超过2屏,完全不像国内网站喜欢堆积大量广告和内容。国外传统网站比较讲究网站的实用性和便利性,他们会花很多时间去制作很多周到实用的细节,功能虽然大多平实但很有效。国外网站对安全性的要求非常高,许多服务和功能都需要进行安全连接,而国内只有交易、银行等网站才会注意到。
国内网络文化建设相对滞后,目前国内网页设计中最突出的问题就是用色。把国内网站和国外网站放在一起做比较,我们不得不承认国外网站的结构设计以及用色的水平!国外网站很讲究用色的度,决不胡乱用色,而整体配色的协调性与风格的一致性都恰到好处,相比之下,国内站点在设计中都将这些因素忽略掉了,网页颜色数量过多、互不相干的两种色彩放在一起、搭配不协调,缺乏统一的风格,而网站的设计人员,设计思路受到上司和客户的制约,尤其在专业公司更存在这种现象,既要有优秀的设计,又要符合客户的口味,实际工作中也有一定的难度。网络产生的根本在于经济的推动,但只有能产生美感的设计才能吸引用户的注意,并且必须同时注重形式和内容。部分网页的设计确实很注重形式上的美,使得观赏者能够被其第一外表吸引,但细细品味却味如嚼蜡,毫无滋味。再有一些设计者使用统一的规格要求的空间模板,使得制作和内容的排布能更加规范。但是这样的方式会使得整个网页设计缺乏创造性和独立性。清一色的版式不会给用户带来任何视觉上的美感,反而会使人产生厌烦情绪,从而使网页的宣传性起到适得其反的效果。
多媒体技术在网站设计应用中面临的问题
多媒体艺术与技术的结合还处于发展阶段。目前的多媒体艺术已经有了一定的技术支持,不仅结合了声音、图像、视频、文字的超级文本,可以链接到无穷无尽的其他文本之中,还可以由多种路径进入,展示给人们的是它无处不在的交互性。多媒体艺术的主要特征体现在如下几点:第一,具有很强的虚拟性。通过多媒体艺术可以进行虚拟性表现或构建一些非真实的幻想。尽管这种幻想是虚构且不真实的。第二,具有深刻的观念性。艺术家通过声音艺术、录像艺术、互动装置以及摄影艺术来传达的视听艺术或者说用视听语言来表词达意,增加观者的感官意识;第三,具有广泛的公共性。多媒体艺术利用电影、电视、录像、互联网等多种手段积极地投入到大众文化与消费文化之中,对公共文化具有极强的影响力;其四,具有很强的时效性与流行性。多媒体艺术多善于抓住某些大众比较感兴趣的娱乐性新闻、文化热点等比较时髦的话题来进行及时的快捷性的报道与传播,它的艺术符号极易与流行文化接轨,从而成为一种非常具有先锋性与前卫感的艺术样式。但目前一些艺术家在创作过程中受到多种因素的限制,有的是因为赶不上多媒体技术发展的步伐,也有的是因艺术家自身学科性的问题,对于一些创意构思不能通过网络编程或软件编程的技术实现,因而并不能将多媒体艺术的特点发挥到极致,因而要想使多媒体艺术这一新兴的艺术形式与现有的艺术形式更好的结合,只有通过不断的探索和实践。
我国多媒体艺术经历了从局部到整体、从单一到多元化、从模仿到原创的发展过程,正在步入全面快速发展的新阶段。现代多媒体艺术是当代信息科学技术与艺术相结合的产物,多媒体技术对于多媒体艺术来说是非常重要的,不但增加了艺术表现形式,而且实现了很多传统方法无法实现的特效,更重要的是它提高了创作的实效。可再怎么重要的技术也只是手段,仅仅是创作者手中的工具,它可以建构出多媒体艺术的“形”,但是多媒体艺术独特的“神”则需要探索和创新。如果没有艺术工作者的大脑,那么这个“神”是再发达的电脑技术,再精端的设备也创作不出来的。多媒体艺术在今后的发展中将更加贴近我们的学习、工作和生活,它将是我们以后信息交流的重要手段。随着现代科技的飞速发展,多媒体技术将融入更多新的技术,以后的发展前景将更加广阔,内容将更加丰富。现在它的技术改进、创新都跟计算机技术的发展密切相关。多媒体艺术依附于多媒体技术的发展,具有无限的生命力。今天的多媒体艺术还处在一个雏形阶段,有待我们更具创造性的去思考和塑造。
多媒体应用于网站制作一直是多媒体应用的一个重要方面。由于多媒体的传输涉及到声音、图像、视频以及数据等多个方面,由于多媒体网络的视频传输主要有两种形式:一是采用MPEG-1和MPEG-2压缩(也就是VCD和DVD)的传输方式,另一种是视频会议的形式,因而多媒体宽带传输网络的应用还是很多的,主要包括远程教学、视频点播、以及各种多媒体信息在网络上的传输。因此需要宽频带,但目前国内条件的限制网络传输频带还不能适应多媒体的发展要求,因此,在这方面的多媒体应用发展受到了一定的限制。目前网络发展的目标是尽可能的使多媒体用户可以通过现有的电话网、有线电视网络实现交互式宽带传输网络。
多媒体技术的发展方向
多媒体技术的应用可以从高端研究型应用和普及型应用两个方面来分析。高端研究型应用:指的是新一代信息系统的建立。这一新的信息系统是以互联网为基础的,是一种第二代的高速互联网,它既可以集合各种媒体全方位信息,又具有高性能计算的能力,能够实现机器与人的实时交互功能等等。最具代表性的便是美国宇航局联合26个国家的研究人员所进行的国际合作空间站的研究、计算机集成制造系统应用等。普及型应用:主要是网络、计算机与一些家用电器的结合。可能会相应出现两个方向来实现这种结合。一是计算机向音频、视频的应用方向来推进,例如微软总裁比尔.盖茨提出的“维纳斯”计划;另一个是音频、视频向计算机方面的推进,具有代表性的就是Sony公司在多媒体游戏方面的创新。
关键词:远程监控;安全管理;桥梁工程
1项目简介
长山大桥是辽宁省、大连市重点交通工程项目之一,东北地区第一座真正意义的跨海大桥。项目全长3.38公里,建设特大桥1座1.79公里,采用双向四车道一级公路标准,主桥采用双塔双索面三跨预应力混凝土矮塔斜拉桥,主跨260米为国内目前同类型结构最大跨径,引桥跨径布置为25×50米,现浇预应力混凝土连续箱梁。
2远程监控技术的提出
由于大桥施工受地理位置、气候条件等各种因素影响,施工安全风险很大。为向各界参观人士展示施工情况,实时监控并记录特殊工序施工过程,确保施工安全,实施音视频监控系统集成工程,将计算机网络和通信技术、视频压缩技术、决策支持系统等现代高技术融为一体,以对施工全过程进行跟踪、监测,实现信息化的施工管理。
3关键技术
(1)激光夜视技术:激光照明角度要求大小可变,可以单独远程控制,也可以与变焦摄像机同步变化,保持照明角度与成像视场角一致。(2)远程视频监控技术:图像信号可在局域网、互联网上传送,在每台授权终端上都可直接观看施工现场情况,某些特定终端可对各监控前端进行摄像机云台控制(具有较高权限的用户)。(3)桥墩防撞预警:结合大桥的实际情况,利用全球领先的计算机视觉技术支持的智能化行为分析来实现对桥墩防撞预警。(4)指挥对讲及广播:项目办、总监办、项目部在各自办公室实现三方对讲,并可对施工现场进行广播,指导工作。
4解决方案
4.1视频监控
结合项目办、总监办、项目部的具体管理需求,以全覆盖、无死角为原则,设置监控点,监控点的设置数量可根据大桥建设进展情况及相关管理部门要求进行扩展和调整。将所有监控信号,传送到施工单位监控中心,使施工单位在办公室就能了解监控点现场施工的情况。通过互联网专线将监控信号传输到大桥项目办、总监办等监督管理部门,这样大桥项目办、总监办等就可以在施工现场之外了解大桥监控点的情况。
4.2桥墩防撞预警
用视频摄像机获取当前海面视频图像,设定船只过界报警区域,利用设备内嵌的智能分析功能模块,采用图像智能分析识别技术,全天候对监控区域海面进行异常事件检测,当发现过界行驶船舶立即发出声光报警,提醒其离开报警区域,并将报警信息(时间、照片等)上传到监控中心。当有异常事件发生时,监控中心的智能管理软件会发出语音报警,提示当前发生异常事件的地点及事件类型。同时客户端上自动全屏弹出报警视频画面,便于监控中心人员进行报警确认和事件应急处理。
4.3指挥对讲及广播
在项目办、总监办、项目部监控中心分别设置对讲设备,根据施工管理需要,在大桥施工相关区域共安装7只室外防水音柱。
4.4网络连接
为了解决信息远程传输的问题,需要向当地电信运营商租用专线,根据每路图像占用0.5M的带宽计算,同时访问全部八路视频需要带宽4M,月租费为2400元左右。
5投资结算
硬件系统建设费用33.4万元,光纤接入费用6万元,其他费用0.6万元,共计40万元。
6经济效益分析
公路桥梁施工项目在高峰时期,线路长,作业点多,如果不采用远程监控系统,而是全部用安全员来进行安全管理的话,基本上每个作业点都要有安全员巡视。对于长山大桥施工单位来说,在南北岸引桥施工各1名、两个主墩各1名、后场加工区1名,再加上安全工作负责人和内业员的话,至少需要7名安全管理人员,这7名安全管理人员的费用每年大约50万元(保守估计),工期4年,总共需要花费200万元。而现实情况更加残酷,目前行业内专业安全管理人员的数量远远满足不了实际需要和政策的要求(每5000万元造价配备一名安全员,长山大桥投资5.79亿)。应用远程监控技术,施工单位只需要在现场配置2名巡视安全员即可,安全部长在办公室全面观察现场,发现问题直接联系安全员去处理,甚至可以直接通过广播喊话来解决问题。项目办和总监办也可以这样做。远程监控系统一次性投资40万元,施工单位4名安全管理人员(安全部长1人,现场巡视员2人,内业员1人)4年的费用大约为112万元,相比之下节约了四分之一的费用,更是解决了安全管理人员不足的问题。
7技术特点总结
(1)监管更具实效性与针对性。工程管理人员可随时掌握施工现场的安全状况,及时发现事故苗头,消除安全隐患,甚至直接通过广播进行指挥,拟补了现场监督管理的一些缺陷和不足。随着无线宽带技术的推广与应用,更可使高层管理者们出差途中随时了解工地进展情况。(2)降低安全管理成本,提高管理效率。为了安全管理不留死角,必须有足够数量的安全管理人员来分担安全管理任务,由于远程监控系统一个人就可以宏观监控全局,并及时传达信息,这样就可以适当减少现场安全员的数量,提高管理效率。(3)便于对已发生的事故进行调查、分析、处理。施工过程被录像存储备份,可随时查看监控信息,对已发生的事故进行调查分析。
8结语
关键词:ROS;机器人;Ubuntu
20世纪以来随着电子技术的不断发展及人类对于自身的不断了解,机器人的研究也在不断深入。现阶段虽能做出外表、走路等接近人类的机器人,但这些都属于前沿领域,研究门槛高,实际的商业用途不是很广,所以大多还停留在样品阶段,走进市场的很少。借助互联网和智能手机的大潮,嵌入式处理器正在完成以前台式处理器做不到的事情,于是现阶段机器人又被重新定义。在目前的消费领域,某些配备智能处理器和具有互联网功能的产品也被认为是机器人,如图1所示的两款国内厂家生产的机器人产品。图1所示的机器人属于生活工具类,一般放置在家中,无法自行移动,采用嵌入式处理器,带有摄像头、无线网络模块、显示模块,可以连接手机,通过手机App对机器人进行相关设置,同时机器人摄像头采集到的图像也能实时传给手机,和手机进行语音对讲。机器人还带有语音识别模块,若向它询问“明天天气如何”,他会从网络获取天气信息然后作出回答。这些放置在家中的机器人也可以实现安全监测的功能,通过手机实时查看家中的监控影像或通过适配各种传感器以实时洞悉,比如贴在门窗后面的加速度传感器,当门窗被动作时传感器给机器人发出信号,机器人随即通过设定的方式进行报警。
图2所示为两款国外生产的机器人,其最主要的特点是可以运动,属于智能玩具的范畴。这些机器人可以连接智能手机,通过手机对机器人进行设置,然后把手机当做机器人的操作杆,操作其做出各种运动,达到娱乐的目的。同时,机器上装有摄像头,可以在手机上同步看到机器人摄像头拍摄到的视频画面。但也有一些创新,如左边的机器人在星战电影里有原形,用手机摄像头对准该机器人,通过手机端的AR技术,在手机屏幕里可以给机器人加上各种效果,增加娱乐性。
还有一些具有特殊用途的机器人,如扫地机器人,其根据内部的路径算法清洁地面,同时能自动避开障碍物,并于电量即将耗尽时自动返回充电桩充电。
今后服务机器人的趋势会是以上列举的这些机器人的集大成者,即在软件智能和C械运动方面不断发展。软件智能通过高性能的嵌入式处理器实现视频处理、网络连接和语音识别等技术。机械运动则先搭配单片机和步进电机,通过轮子的滚动实现移动,通过增加机械零件和改进算法来逐步实现动物甚至人体的肢体行走。图3所示框图列出了实现具有该功能机器人需要采用的技术。
高性能嵌入式处理器上运行着机器人的核心系统。摄像头采集视频图像,并对图像中的事物进行一些简单判别,如识别人脸,对静态事物的图像采集也能让机器人辨别障碍物,或计算出静态事物的大致几何图形甚至尺寸。对动态事物的图像采集,机器人可以计算出动态事物的运动轨迹甚至速度。4G和WiFi&BT模块属于无线通信模块,有了无线通信机器人才能得到自身之外的更多信号,并将自身的信息传达给别人。语音识别模块能让机器人识别声音,显示&触摸屏只是机器人与外界交互的一种方式,GPS模块能让机器人知道自己的位置信息,存储模块除了存储机器人的系统和各类软件外,也能让机器人具有记忆功能。摄像头采集视频图像并计算,计算结果可以存储在存储模块中,当遇到类似的计算时就可以判别事物,通过网络模块将这类信息传递出去分享给更多的机器人。单片机管理着机器人各类基础模块,步进电机控制机器人的运动,各类传感器让机器人有了感知外界环境的能力。红外模块可以实现对一些外部电器的操控,电池和电池管理模块为整个机器人的运转提供能量。
硬件结构是实现服务机器人运算和控制的基础,在高性能嵌入式处理器上运行的操作系统进行服务机器人具体的运算和控制,相当于机器人的灵魂。目前主流的三大机器人操作系统有Ubuntu,Android和ROS。Android软件平台使用较广泛,ROS为专用的机器人软件平台。要实现对服务机器人的运算和控制,软件平台需要解决以下问题:
(1)分布式计算现代机器人系统往往需要多个计算机同时运行多个进程,当多个机器人需要协同完成一个任务时,需要互相通信来支撑任务完成;用户通过台式机、笔记本或者移动设备发送指令控制机器人,而人机交互接口可以认为是机器人软件的一部分。
(2)软件复用随着机器人研究的快速推进,诞生了一批应对导航、路径规划、建图等通用任务的算法。当然,任何一个算法实用的前提是其能够应用于新的领域,且不必重复实现。
(3)快速测试为机器人开发软件比其他软件开发更具有挑战性,主要是因为调试准备时间长,且调试过程复杂。何况受硬件维修、经费有限等条件限制,未必随时有机器人可供使用。
ROS作为机器人专用的软件平台,可在ARM搭配Ubuntu的环境下运行,对服务机器人的运算和控制进行了诸多优化,大大增强了其实用性。
(1)点对点设计
一个使用ROS的系统包括一系列进程,这些进程存在于多个不同的主机并且在运行过程中通过端对端的拓扑结构进行联系。虽然基于中心服务器的那些软件框架也可以实现多进程和多主机的优势,但在这些框架中,当各电脑通过不同的网络进行连接时,中心数据服务器就会出现问题。
ROS的点对点设计以及服务和节点管理器等机制可以分散由计算机视觉和语音识别等功能带来的实时计算压力,适应多机器人遇到的挑战。点对点设计示意如图4所示。
(2)多语言支持
在写代码时,许多编程者会比较偏向某一些编程语言。这些偏好是个人在每种语言的编程时间、调试效果、语法、执行效率以及各种技术和文化的原因导致的。为解决这些问题,我们将ROS设计成语言中立性框架结构。ROS现在支持许多种不同的语言,如C++、Python、Octave和LISP,同时还包含其他语言的多种接口实现。
(3)精简与集成
大多数已经存在的机器人软件工程包含了可以在工程外重复使用的驱动和算法,不幸的是,由于多方面的原因,大部分代码的中间层都过于混乱,以至于很难提取出它的功能,也很难把它们从原型中提取出来应用到其他方面。
为了应对这种趋势,我们鼓励将所有的驱动和算法逐渐发展成为和ROS没有依赖性单独的库。ROS建立的系统具有模块化的特点,各模块中的代码可以单独编译,而且编译使用的CMake工具使它很容易的就实现精简的理念。ROS将复杂的代码封装在库里,只创建一些小的应用程序为ROS显示库的功能,允许对简单代码超越原型进行移植和重新使用。作为一种新加入的优势,当代码在库中分散后单元测试也变得非常容易,一个单独的测试程序可以测试库中很多的特点。
(4)工具包丰富
为了管理复杂的ROS软件框架,利用大量小工具来编译和运行多种多样的ROS组建,从而设计成了内核,而非构建一个庞大的开发和运行环境,示意图如图5所示。
(5)免费并且开源