前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇近视眼预防方法范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
每一次时代的进步,都离不开通信手段的变革。很久以前,古人便发明了烽火、鼓声、旗语来传递信息。但无法打破的地域阻隔,拉长了人们的距离,岁月因等待而漫长。在电被发明之后,人类的通信史发生了革命性的变化,从电话到手机,人与人之间的距离越来越近。现代移动通信技术的发展始于20世纪20年代,经历了五个重要阶段,经过近百年的发展,造就了目前无处不在的无线网络世界。伴随着互联网时代的到来和信息技术、移动通信技术的迅速发展,移动通信技术的发展已经到了一个特定的阶段――移动互联网时代。随着下一代移动通信时代来临及物联网技术的成熟,刚刚稳定的通信行业格局将再一次被打破,传统运营商之间的竞争日趋激烈,传统运营商与虚拟运营商之间不断开始上演着合作和博弈、对立和融合,一场关乎商业模式的纵横捭阖“时代大剧”正在上演,并推动着时代向新的高度迈进。
2 移动通信技术发展历程
第一代移动通信技术(1G)诞生于20世纪70年代到80年代,主要采用模拟技术。它使移动通信走下神龛,真正进入个人领域。然而,囿于技术的限制,它只能用于本地通话,无法进行长途漫游,数据业务更无从谈起。第一代移动通信技术的通讯工具主要为“大哥大”,在当年,拥有一部大哥大,绝对是身份的象征。2000年中国移动成立后,第二代移动通信技术(2G)迅速在全国普及,2G技术完成了模拟向数字的演变,手机开始有了收发电子邮件、互联网浏览等功能。这一时代让手机这个以往的奢侈品飞入寻常百姓家,“人手一机”成为当时社会最普遍的现象。就在人们认为手机不过是用来打电话、发短信的时候,3G时代的到来,彻底颠覆了这种传统观念。与前两代技术相比,第三代移动通信技术(3G)传输速率和质量大幅提高,手机屏幕变得丰富多彩、有声有色。3G将无线通信与互联网融为一体,提供网页浏览、收发邮件、视频会议、电子商务等丰富多彩的移动多媒体业务,给人们带来前所未有的“移动生活”新体验。4G的到来,更让一切有了新的突破,与3G的渐进式发展不同,4G从一面世便呈现爆炸式发展,并向各行业广泛蔓延。4G的速度是3G的10倍乃至几十倍,移动互联网可以拓展的空间更大了,所有终端都可以连接到互联网上。移动互联网拉近了时间和空间,产生了丰富多彩的内容应用,像高清视频、流行音乐、移动游戏等,通过网络的变革,给更多的消费者带来越来越丰富的服务体验,并且带动了新的网络产业的出现,越来越多的创业者投入其中。
3 通信行业发展格局
众所周知,目前我国共有三家传统电信运营商,移动、电信、联通成三足鼎立之势。数据显示,三大传统电信运营商移动用户数达到12.9亿,意味着94.5%的中国人是手机用户。[1]传统电信运营商拥有庞大的用户群、雄厚的资金实力、强大的运营能力。他们的盈利模式较为简单直接,主要通过建造基础网络,营销基于通信网络的基础产品,比如语音、流量、专线等业务;同时也运营增值业务,如短信、手机报、铃声下载、彩铃等业务,依托强大的网络支撑和稳定的客户群保持稳定的盈利模式,但存在经营理念固化、产品创新性不足的问题,与虚拟运营商的竞争中往往不被看好。
与传统电信运营商不同,虚拟运营商自己不建造基础网络。它们一般采用在传统电信运营商基础网络和产品的基础上来设计自己的产品。与传统电信运营商相比,企业理念先进、经营方式灵活多变,产品创新性强,但对传统电信运营商的基础网络有着绝对的依赖。虚拟运营在我国刚刚出现不久,但在国外已经开展多年。截至目前,全球共有1200多家虚拟运营商,主要集中在欧洲和北美等发达地区。在这些地区,虚拟运营商的市场规模占整体市场份额可达到7%~10%,而其他市场的规模较小,仅有3%左右的占比。[2]我国的虚拟经营业务起步晚,但发展速度迅猛。目前我国已向42家虚拟运营商牌照,移动通信行业正在由三足鼎立时代走向群雄逐鹿时代。
虚拟运营商应运而生,顺应了移动互联网时代的大趋势,其发展有助于使移动互联网更开放、应用更丰富、客户体验更好,同时也存在一定的问题。也就是说,既有好的方面,也有不好的方面。好的方面,一是培育市场新需求。与传统电信运营商总是愿意关注企业和客户群的稳定不同,虚拟运营商则更愿意开展创新性的客户需求研究和开发,因而培育了新的市场空间,促进移动互联网市场日趋繁荣。二是转变产业新模式。虚拟运营商的到来,为通信行业竞争注入了新活力、新色彩、新对抗及新合作,迫使传统运营商不得不提升能力,加快转型,加快技术革新和产品创新,有利促进了移动通信行业更快地发展。三是创新产品多样化。虚拟运营商具有天生的创新精神和个性,它的加入会使得市场更加多样化、个性化,越来越多的针对性的个性化产品和服务将会被创造出来,给消费者带来前所未有的多样化选择和个性化新体验。不好的方面,一是管理困难。越来越多的虚拟运营商加入通信行业,市场规范化将面临难题,市场监管部门的管理能力受到考验;二是消费者信息泄密问题。第一个问题直接导致第二个问题的出现,同时,各家虚拟运营商信息安全防范水平不一,对消费者产生不利影响。
4 物联网时代的思考
随着4G技术的不断成熟升级和移动互联网产业的不断升华,随时随地打电话、上网、定位导航、共享内容和服务等传统意义上的人与人之间的通信需求已得到极大满足,人与人之间的通信已被现代技术发挥到了极致。下一步,通信需求直接指人与物、物与物之间的互联通信,万物互联的时代已经开启,物联网、云数据、超高速率、智能通信将是未来的主题,我们的生活将再一次迎来翻天覆地的变化。未来五年内,将会有100亿~200亿智能设备连接互联网,这些设备的数量将远远超过今天我们的人口。[3]可以想象,当你在下班的路上,拿起手机对家里的电器发送一个指令,到家后你家的电饭煲做好饭,热水器烧好热水。你也可以在出门前就通过手机知道上班的路上交通状况如何,从而选择一条最方便快捷的路线去上班。还可以通过网络实时了解一切你关心的事物的进展情况,并进行实时干预。
1.“递进循环式”教学的内涵
“递进循环式”教学属于一种循序渐进式的教学方法。该方法的核心就是教师以某个主题技能为中心,通过某主要知识点引出其他相关知识点,并以此循环不断推进教学内容,从而引导学生不断高效掌握新的知识内容。
2.“递进循环式”教学的特点
在传统的小学语文教学中,很多相关理念已不再适用于现代多元化的社会发展,更不利于小学生的学习和成长。很多教师在教学中只顾强调重复背诵和书写。这不仅使得语文教学变得枯燥,而且容易使学生大脑产生疲劳。而“递进循环式”教学具有以下两大特点:
(1)知识面得到拓展。“递进循环式”教学注重将课堂与现实结合。教师可以引导学生以课堂内容榛本点,从而进行课外知识拓展,并通过课外的见闻来帮助学生理解以及记忆课堂内容,这无形中为课堂教学补充了大量课外素材,从而提升了课堂效率和质量。
(2)记忆更容易。“递进循环式”教学主张“滚动式复习”,在学习新知识的同时强化对旧知识的再学习,对一份语言材料进行反复阅读和理解,从而加深理解、强化记忆、深化应用,这使学生对知识点的记忆变得更容易。
二、“递进循环式”教学方法的应用
1.识字方面
首先,课堂上对识记生字进行分步教学,让学生读课文以对生字有一个初步的了解,对重点的生字词进行识记,给生字注音以及让学生将其与造句相结合运用,回归课文理解生字词的意思并再次进行朗读。
其次,“递进循环式”教学方法使得学习氛围更加轻松活泼,这种读记相结合的方式,不仅带动了教学氛围,也让学生在不断学习和巩固中记住了生字,从而大大提高了学习效率。
最后,对于小学生而言,理解课文并非难事,因此不需要对文章内容做过多的分析,这样只会让他们觉得枯燥无味。而通过识读教学的模式既可以帮他们识记生字,同时又能增强他们的语感,提高他们的言语表达能力,寓教于乐,才能让课堂变得简单有趣。
2.阅读方面
传统阅读教学只注重对内容和字词的分析,而在一定程度上忽略了阅读对言语表达能力的培养,这就使得学生语言表达能力有所欠缺,这种阅读教学是不完整的、低层面的。现代的语文教师应更注重对学生语言表达能力和阅读兴趣的培养,进而对文章进行分析理解。如《风娃娃》这篇课文讲述的是风娃娃去帮助别人,却不料好心办了坏事,文章告诉我们,在现实生活中,不要好心办坏事,帮助别人的时候不要从自己的角度出发,应该站在别人的立场,多动脑。大多数教师会先带学生学习生字词,然后带学生理解课文内容,采取生搬硬套的方法,然后告诉学生这其中的道理,而忽略了阅读中的丰富语言表达,没有使阅读教学发挥应有的效果。在阅读教学中,我们应该整体感知课文,应该让学生多读,从读中去感悟、思考,然后引导学生进行模仿创作,注重语言的积累以及方法的运用,从而激发学生的阅读兴趣,为学生理解文章的思想感情做铺垫,同时也可培养学生的语感和言语表达能力。
3.写作方面
在小学语文教学中,学生由于掌握的词汇量和句子并不多,经常在写作中出现错别字、病句等。一旦学生在写作中频繁出现错别字,就会打击学生学习的积极性,降低学生的学习兴趣。教师可以采用“递进循环式”的教学方法,引导学生养成在阅读中积累好词好句的习惯,增强自己的知识储备和语言积累,为作文写作打下坚实的基础。
“递进循环式”教学方法引入课堂教学中,不仅能在很大程度上有效地活跃课堂教学氛围,调动学生学习的积极性,提高小学语文课堂教学的效率,也是新时期促进学生全面发展和促进我国教育事业深化改革的内在要求。
参考文献:
[1]黎康华.小学高效课堂实践研究[D].武汉:华中师范大学,2014.
【关键词】 物联网概念实质演进规律挑战机遇
【Abstract】 Based on deep identification of the conception and character of the Internet of Things (IoTs), the paper argued that “the Internet of Things is the intelligent information network connected to physical objects”. After the retrospect on evolution history and intrinsic rules of IoTs’ development from the perspective of information technology progress, concentrating on the construction of new generation network infrastructure and the breakthrough of key technologies, it disclosed the challenge and opportunity encountered by IoTs in future development, as well as which implications to our country.
【KeyWords】 Internet of Things(IoTs);Conception and Character; Evolution Rules; Challenge and Opportunity
2012年7月的《“十二五”国家战略性新兴产业发展规划》明确提出实施物联网与云计算创新发展工程。世界范围内看,2009年以来,包括美国、欧盟、日本在内的发达国家相继出台物联网发展战略与相关行动计划,标志着物联网技术与产业在经过早期的宣传“热潮”之后,其发展正渐趋理性与务实。但与此同时也应看到,在对物联网内涵实质、发展规律、挑战机遇等重要问题的研究上,仍然存在许多含混不清的认识,甚至是带有误导性的观点。本文试图就上述问题进行深入讨论,为加速物联网推广应用与产业健康发展提供参考。
1 物联网的概念与实质
物联网(The Internet of Things)的概念最早是由麻省理工学院Auto-ID实验室的Ashton于1999年提出的。当时的定义是:把任何物品通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议与互联网连接起来,进行信息交换和共享,以实现智能化识别和管理的一种网络[1]。
2005年国际电信联盟(ITU),正式提出了“物联网”的概念。报告指出,无所不在的“物联网”通信时代即将来临,世界上所有的物体从轮胎到牙刷、从房屋到纸巾都可以通过因特网主动进行交换。射频识别技术(RFID)、传感器技术、纳米技术、智能嵌入技术将到更加广泛的应用[2]。根据ITU的描述,在物联网时代,通过在各种各样的日常用品上嵌入一种短距离的移动收发器,人类在信息与通信世界里将获得一个新的沟通维度,从任何时间任何地点的人与人之间的沟通连接扩展到人与物和物与物之间的沟通连接。然而,ITU的报告对物联网缺乏一个清晰的定义。
2009年9月15日,欧盟第7框架下的RFID和物联网研究项目组研究报告,给出了对物联网的明确定义:物联网是一个动态的全球网络基础设施,它具有基于标准和互操作通信协议的自组织能力,其中物理的和虚拟的“物”具有身份标识、物理属性、虚拟的特性和智能的接口,并与信息网络无缝整合。物联网将与媒体互联网、服务互联网和企业互联网一道,构成未来互联网[3]。
我国著名物联网专家、中科院院士邬贺铨认为物联网中的“物”应该是“Anything that can be connected and would benefit from being connected will be connected”。意即物联网应该是把一切有用的且能连接的“物”连接起来,而不是万事万物。邬贺铨院士进一步指出:物联网相当于互联网上面向特定任务来组织的专用网络(VPN)。与其说物联网是网络,不如说物联网是业务或应用,物联网是互联网应用的拓展[4]。
总结起来,目前学术界和实践界对物联网的认识,主要有三类观点,其中主流并为人们所广泛接受的是“网”的观点,即将物联网视为互联网发展的高级阶段,或将其视为一种新型的网络基础设施,强调物联网是互联网的自然演进,是将作为物理实体的“物”接入了互联网。第二种是“联”的观点,主要从技术角度出发,强调物联网的关键在于物物“联接”,强调物与物之间的互联、互通与互操作,从而将无线传感技术、近场通讯技术、卫星通信技术等与互联网技术相并列的信息技术视为物联网的基础和关键技术。第三种是“物”的观点,强调通过物联网联接起来的“物”应具有独特的特征,即能够自我感知或感知“他物”(对象或环境),能够与其他“物”相通讯,能够自我控制(自动化)或控制“他物”(智能化),即不仅能够实现“物感”“、物联”、同时也能实现“物控”。
笔者认为,“物联网”的实质应是“物”,“联”,“网”三者的结合,简单的说,物联网就是“连接到物理对象的智能信息网络”。这个概念有四层含义:第一,物联网的核心和基础仍然是信息网络,但这里的“网络”是指将所有物物相连、人人相连、人物相连并形成网络(即非“点对点”连接,而是“多对多”连接)的情况都纳入了“互联网”的范畴;第二,物联网将用户端延伸和扩展到了任何物品与物品之间、以及人与物品之间,将人与人之间的信息通讯扩展到了物与物之间,人与物之间的信息交换和通讯;第三,物联网依托的网络具有智能属性,它一方面可以对接入物联网的各类“物”(物理终端)进行实时监测、智能控制与自动操作,同时它本身又具有自我配置、自我优化、自我修复与自我保护的功能,属于一类智能网络;第四,接入物联网的“物”是一类特殊的物,是具有“智能”的物理终端,应具备物感、物联与物控的功能。按照上述比较严格的要求,接入到物联网中的“物”实际上接近于一个“微型智能机器人”,微处理器相当于它的“大脑”,信息接收(传感)器、信息发送器相当于它的“五官”,动作执行器相当于它的“四肢”。与过去不同的是,基于信息技术和纳米技术的巨大进步,今天我们完全有可能在极小的物理载体上集成这些功能。
关键词:人脸识别;人脸检测;神经网络
中图分类号:TP18文献标识码:A 文章编号:1009-3044(2011)04-0862-02
The Research and Improvement of the Face Recognition Method Based on the BP Neural Network
FANG Xu
(PLA Chongqing Communication College, Chongqing 400035, China)
Abstract: The recognition of human faces is an important subject in the area of the computer pattern recognition, which has a wide range of applications. And the key is face detection and feature extraction. In this paper, we use BP neural network for the feature extraction and recognition, the choosing principle of the number of hiding layer cells are proposed, the initial values setting principle are also discussed. And the BP algorithm is improved. It improves the precision, reduces the training time and the calculation.
Key words: face recognition; face detection; neural networks
近年来,在计算机视觉和模式识别领域中,对人脸识别系统的研究变得非常活跃。作为人类几个重要外在鉴别特征之一,人脸识别对自动鉴别和人类自动分辨有着重要的意义。相对于指纹识别和虹膜识别来说,人脸识别有着其特殊性,即人脸图象受其成象角度、光照条件等外界因素的影响较大,所以人脸识别起来难度也较大。
现阶段的人脸自动识别系统包括两个主要技术环节:一是人脸的检测与定位,即判断一幅图像中是否有人脸。如果有,定位每张人脸具置。二是人脸特征的提取与识别。包括对人的眼睛,鼻子,嘴部区域的定位以及对人脸图像轮廓线的提取。研究表明,用BP神经网络进行特征的提取和识别,由于其良好的速度,识别率,容错能力和并行计算能力,得到了广泛的应用。
1 BP神经网络
BP神经网络是一种按反向传输算法(Back Propagation)训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。它是一种能向着满足给定的输入输出关系方向进行自组织的神经网络。当输出层上的实际输出与给定的输入不一致时,用最速下降法修正各层之间旧的结合强度,直到最终满足给定的输出输入关系为止。由于误差传播的方向与信号传播的方向正好相反而称为误差反向传播神经网络。
识别过程就是根据特征向量进行分类的过程,识别器实际上就是分类器。针对人脸图像识别问题,选用BP网络模型来设计分类器。理由如下:第一,人脸模式输入向量的维数经过特征提取之后已经不是很高。第二,BP算法成熟简单,可选择的余地比较大。最后输入样本空间经过特征提取后其聚类性能已经有所改善,对BP算法进行适当改进,则会使得训练时间不长。
2 BP算法
2.1 BP网络的输入与输出
BP 网络由输入层,隐含层和输出层构成,相邻层之间用神经元权互联,同一层内的神经元无连接。
对于输入层来说,输出与输入相同,即Oi= Xj。隐含层和输入层的输入输出关系特征为:
Netj = ∑WjiOi
Oj = f(Netj)
其中,Wji表示前一层的神经元i到本层的神经元j的连接权值,Oj为神经元j的输出,Netj表示神经元j接收到的总输入,在函数f的作用下产生输出Oj,f常取sigmoid函数:f(x)=1/(1+e-x)
2.2 隐含层神经元数的选择
通过输入层与隐含层之间的连接权值的“自组织化”,隐含层起到对输入模式进行特征提取的作用,然后将提取的特征传给输出层。隐含层神经元数目过少不能使得网络建立复杂的判断界,过多则使得学习时间过长,影响效率,所以采用如公式(1)求出隐含层神经元数:
(1)
其中m为输出神经元数,n为输入神经元数,a为1―10之间的常数。
2.3 BP网络的学习算法
BP网络的学习算法为:
1)初始化权值,每个权值的初始化值设置为为(0,1)之间的随机数。
2)输入训练样本及期望输出值。
3)逐层计算各层的输出。
4)从输出层开始,调整权值,并反向传播误差值。
5)如果误差小于设定的值,则算法结束。如果大于所设定的值,则转向3, 继续学习。网络训练结束达到稳定状态后,保存网络的连接权值,以用于后面的识别。
其中,学习速率决定每一次循环训练中所产生的权值变化量。大的学习速率有可能会导致系统的不稳定,但是小的学习速率导致较长的训练时间,可能收敛很慢,不过这样能保证网络的误差值不跳出误差表面低谷而趋于误差最小值。所以一般情况下倾向于选择较小的学习速率以保证系统的稳定性。学习速率的范围是0.01-0.8。
3 BP算法的改进
虽然BP网络得到了广泛的应用,但是它并不是十分完美的网络,主要包含以下一些缺陷:
1)由于学习速率是固定的,因此网络的收敛速度慢,需要较长的训练时间。而这种长时间和不确定的训练过程,对于一个比较简单的问题,有的时候需要几百甚至上千次的学习才能收敛。对于复杂的问题,可能需要更长的时间来训练这个网络。
2)BP算法可以使权值收敛到某个值,不能保证收敛到全局最小值,容易陷入局部极小值。
3)网络麻痹现象。在训练过程中,加权调得较大时,可能迫使所有的或大部分节点的加权和输出较大,从而工作在S型激发函数的饱和区,此时激发函数的导数处于非常小的区域。由于在计算权值修正量的公式中,各层误差正比于激发函数的导数,当导数趋于0时,各层误差趋向于0,相当于调节过程停滞。容易造成网络达不到指定的误差,训练不出来 。
4)网络隐含层的层数及每层的节点数的选取尚无理论上的指导,而是根据经验 确定。因此,网络往往有很大的冗余,无形中增加了网络学习时间。
5)网络的学习、记忆具有不稳定性。一个训练结束的BP网络,当给它提供新的记忆模式时,将使已有的连接权打乱,导致已经记忆的学习模式的信息消失。要避免这种现象,必须将原来的学习模式连同加入的新模式一起重新进行训练,而且要求新加入的模式的特征数目与原模式特征数目相同。
为了拟制迭代过程的振荡,可以在每次对连接权进行校正时,按一定比例加上前一次学习时的校正量,即增加附加动量项。这样连接权变为:
Wij(N+1)=Wij(N)+ β*ejk*αik+η*ΔWij(N)
式中β为学习速率,η为动量因子,ΔWij(N)为第N次迭代时权值变化量。由上式可知,N+1次迭代时,权值的调整量与第N次迭代相关,由于样本群的各样本间相关性很强,前一个样本的学习结果为下一个样本所用,这样可以加快收敛速度。
连接权校正量与中间层的输出有关。因此,当中间层的输出为0或1时,连接权校正量为0,不起校正作用。中间层的输出是由S函数的输出所决定的,由S函数的饱和非线性输出特性可知,当其输入小于或大于某一数值后,其输出接近于0或1。因而在相当次数的学习过程中,真正的校正量很小,校正速度十分缓慢。为此,要限制S函数的输出,当S函数的实际输出小于0.01或大于0.99时,将其输出值直接取为0.01或0.99。这样保证了每次学习都能进行有效的校正,从而加快收敛速度,可以很大程度避免网络的麻痹现象。
4 结论
人脸识别是一个困难的研究课题, 目前还处于探索阶段。本文利用BP神经网络学习能力强、分类能力强的优点, 实现了人脸特征提取和识别。虽然BP网络在实际应用过程中存在一定的缺陷,但是对BP算法的改进则进一步加快了收敛速度,提高了识别的正确率。
参考文献:
[1] 周志华,曹存根.神经网络及其应用[M].北京:清华大学出版社,2004.
[2] Bledsoe W W.The Model Method in Facial Recognition[C].Tech. Rep. PRI:15,Panoramic Research Inc.,Palo Alto,CA,1964.
>> 一种改进K―means聚类算法的MapReduce并行化实现 一种基于并行工程理论的教学方法——并行教学法探讨 一种改进的最大匹配分词算法研究 一种准实时MapReduce调度算法的改进与实现 一种改进的表面重建算法及其并行化研究 一种基于锚文本和改进C4.5决策树算法的主题爬行方法 一种基于设计模式的并行编程系统度量方法的实现 一种基于蒙特卡罗法的服务选择并行优化方法 一种基于在线编程的DSP并行自举实现方法 一种具有容错机制的MapReduce模型研究与实现 一种基于手势的数字输入方法 一种基于两级转换的安全可靠口令输入方法 一种基于并行计算机架构的OS模型研究 云环境下的一种并行任务划分方法研究 一种改进的基于线性有限元并行计算的追赶算法 一种并行化的分类算法研究 一种基于hough改进算法的机场跑道识别方法研究 一种基于经典领域本体构建方法的改进研究 一种基于位置的改进中文文本特征选择 一种改进的图像复原方法的研究 常见问题解答 当前所在位置:l),该库提供有mini版,精简版和完整版的文本预料库。在精简版中包含共计9个类别,每个类别含1990篇文章,从精简版数据集中选择不同数量的文本组成大小不同的数据集,具体数据集信息如下表:
3.3 并行分词
步骤1:分别将在Eclipse上编写的两种并行分词程序打成jar包,使用TextInputFormat方式的jar包命名为TextInputFormat.jar,使用MyInputFormat方式的jar包命名为MyInputFormat.jar,并都存放在/usr/local/目录下;
步骤2: 在终端执行命令”hadoop fs Cput /usr/local/sogou /sogou”将数据集上传至hadoop的sogou目录下;
步骤3: 在终端执行命令
”hadoop jar /usr/local/TextInputFormat.jar /usr/local/sogou /sogou /usr/local/sogou /seg1”对数据集按照TextInputFormat方式并行分词;
步骤4: 在终端执行命令
”hadoop jar /usr/local/MyInputFormat.jar /usr/local/sogou /sogou /usr/local/sogou /seg2”对数据集按照MyInputFormat方式并行分词;
4 结果对比与分析
4.1 分词结果对比
在刚开始执行时,记录job总共的Input Paths,并通过web界面(mlj:50030)查看job的工作状态,记录Job运行时间,实验结果如下表4:
图7是两种输入方式并行分词时间对比柱状图,横坐标表示数据集,纵坐标表示运行时间,由于两种方式花费时间相差较大,纵坐标采用对数坐标。由图7可知,运行时间与数据集的大小成正相关,体育和军事数据集花费时间增加相对较少,说明Hadoop更能处理较大的数据。
4.2 结果分析
默认输入方式对输入数据产生至少与文件个数相等的分片,每个数据分片都交给一个Mapper处理,而且在进行过map之后需要合并到reduce端,这会大大增加网络拥堵。因为每个Job从建立、 处理、 提交到写到本地都需要一定的时间,并且在单机环境下只有一个Mapper, 它只能顺序地执行每一个Job。这样分片的数目越多,Job需要花费的时间也就越长。因此处理大量小文件的速度就会非常慢。
而MyInputFormat文件输入格式则将所有文件作为一个分片进行处理,输入方式则允许一个分片包含多个文件块,大大减少了Map个数,并且改进后并不需要reduce合并处理,省去了建立多个Job所消耗的时间,这大大提高了并行分词的效率。
5 结束语
由于Mapreduce默认的TextInputFormat输入方式非常不适合处理大量小文件组成的数据。本文首先基于CombineFileInputFormat父类,自定义文本输入方式MyInputFormat,继承父类getSplits方法,重载父类的isSplitable方法保证文件不被分割,并在重载createRecordReader方法时返回一个CombineFileRecordReader对象。第三,自定义MyRecordReader类,指明解析文件的逻辑。最后,通过使用一个Map函数实现分词。实验证明,在进行并行分词时,基于改进后的MyInputFormat文本切片方式处理时间远比默认的TextInputFormat切片方式要少得多。
参考文献:
[1] 韩冬煦, 常宝宝. 中文分词模型的领域适应性方法[J]. 计算机学报, 2015, 38(2).
[2] 曹勇刚, 曹羽中, 金茂忠, 等. 面向信息检索的自适应中文分词系统[J]. 软件学报, 2006, 17(3).
[3] 中文分词库 IKAnalyzer[EB/OL].http:///p/ikanalyzer/.
[4] Apache Lucene [EB/OL].http:///.
[5] 张晨逸, 孙建伶, 丁轶群. 基于MB_LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011, 48(10).
[6] 申国伟,杨武,王巍,于淼.面向大规模微博消息流的突发话题检测[J].计算机研究与发展, 2015, 52(2).
[7] 王晓华. MapReduce 2.0源码分析与编程实战[M]. 北京: 人民邮电出版社, 2014.
[8] 应毅,刘亚军. MapReduce 并行计算技术发展综述[J].计算机系统应用,2014,23(4).
[9] Eric Sammer.Hadoop技术详解[M]. 刘敏, 麦耀锋, 李冀蕾,等,译.北京:人民邮电出版社, 2013.
[10] Chuck Lam.Hadoop实战[M]. 韩冀中,译.北京:人民邮电出版社, 2011.
[11] Boris Lublinsky,Smith K T, Alexey Yakubovich. Hadoop高级编程[M]. 穆玉伟, 靳晓辉,译. 北京: 清华大学出版社, 2014.