前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇大数据分析范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
引言
进入21世纪以来,随着高新科技的迅猛发展和经济全球化发展的趋势,我国国民经济迅速增长,各行业、领域的发展也颇为迅猛,人们生活水平与日俱增,在物质生活得到极大满足的前提下,更加追求精神层面以及视觉上的享受,这就涉及到数据信息方面的内容。在经济全球化、科技一体化、文化多元化的时代,数据信息的作用和地位是不可小觑的,处理和归类数据信息是达到信息传递的基础条件,是发展各学科科技交融的前提。
然而,世界上的一切事物都包含着两个方面,这两个方面既相互对立,又相互统一。矛盾即对立统一。矛盾具有斗争性和同一性两种基本属性,我们必须用一分为二的观点、全面的观点看问题。同时要积极创造条件,促进矛盾双方的相互转变。数据信息在带给人们生产生活极大便利的同时,还会被诸多社会数据信息所困扰。为了使广大人民群众的日常生活更加便捷,需要其客观、正确地使用、处理数据信息,完善和健全数据分析技术和数据挖掘手段,通过各种切实可行的数据分析方法科学合理地分析大数据时代下的数据,做好数据挖掘技术工作。
1 实施数据分析的方法
在经济社会快速发展的背景下,我国在科学信息技术领域取得长足进步。科技信息的发展在极大程度上促进了各行各业的繁荣发展和长久进步,使其发展更加全面化、科学化、专业化,切实提升了我国经济的迅猛发展,从而形成了一个最佳的良性循环,我国也由此进入了大数据时代。对于大数据时代而言,数据分析环节是必不可少的组成部分,只有科学准确地对信息量极大的数据进行处理、筛选,才能使其更好地服务于社会,服务于广大人民群众。正确处理数据进行分析过程是大数据时代下数据分析的至关重要的环节。众所周知,大数据具有明显的优势,在信息处理的过程中,需要对大容量数据、分析速率,以及多格式的数据三大问题进行详细的分析和掌握。
1.1 Hadoop HDFS
HDFS,即分布式文件系统,主要由客户端模块、元数据管理模块、数据存储服务模块等模块组成,其优势是储存容量较大的文件,通常情况下被用于商业化硬件的群体中。相比于低端的硬件群体,商业化的硬件群体发生问题的几率较低,在储存大容量数据方面备受欢迎和推崇。Hadoop,即是分布式计算,是一个用于运行应用程序在大型集群的廉价硬件设备上的框架,为应用程序的透明化的提供了一组具有稳定性以及可靠性的接口和数据运动,可以不用在价格较高、可信度较高的硬件上应用。一般情况下,面对出现问题概率较高的群体,分布式文件系统是处理问题的首选,它采用继续运用的手法进行处理,而且还不会使用户产生明显的运用间断问题,这是分布式计算的优势所在,而且还在一定程度上减少了机器设备的维修和维护费用,特别是针对于机器设备量庞大的用户来说,不仅降低了运行成本,而且还有效提高了经济效益。
1.2 Hadoop的优点与不足
随着移动通信系统发展速度的不断加快,信息安全是人们关注的重点问题。因此,为了切实有效地解决信息数据安全问题,就需要对大量的数据进行数据分析,不断优化数据信息,使数据信息更加准确,安全。在进行数据信息的过程中,Hadoop是最常用的解决问题的软件构架之一,它可以对众多数据实行分布型模式解决,在处理的过程中,主要依据一条具有可信性、有效性、可伸缩性的途径进行数据信息处理,这是Hadoop特有的优势。但是世界上一切事物都处在永不停息地变化发展之中,都有其产生、发展和灭亡的历史,发展的实质是事物的前进和上升,是新事物的产生和旧事物的灭亡,因此,要用科学发展的眼光看待问题。Hadoop同其他数据信息处理软件一样,也具有一定的缺点和不足。主要表现在以下几个方面。
首先,就现阶段而言,在企业内部和外部的信息维护以及保护效用方面还存在一定的不足和匮乏,在处理这种数据信息的过程中,需要相关工作人员以手动的方式设置数据,这是Hadoop所具有的明显缺陷。因为在数据设置的过程中,相关数据信息的准确性完全是依靠工作人员而实现的,而这种方式的在无形中会浪费大量的时间,并且在设置的过程中出现失误的几率也会大大增加。一旦在数据信息处理过程中的某一环节出现失误,就会导致整个数据信息处理过程失效,浪费了大量的人力、物力,以及财力。
其次,Hadoop需求社会具备投资构建的且专用的计算集群,在构建的过程中,会出现很多难题,比如形成单个储存、计算数据信息和储存,或者中央处理器应用的难题。不仅如此,即使将这种储存形式应用于其他项目的上,也会出现兼容性难的问题。
2 实施数据挖掘的方法
随着科学技术的不断发展以及我国社会经济体系的不断完善,数据信息处理逐渐成为相关部门和人们重视的内容,并且越来越受到社会各界的广泛关注和重视,并使数据信息分析和挖掘成为热点话题。在现阶段的大数据时代下,实施数据挖掘项目的方法有很多,且不同的方法适用的挖掘方向不同。基于此,在实际进行数据挖掘的过程中,需要根据数据挖掘项目的具体情况选择相应的数据挖掘方法。数据挖掘方法有分类法、回归分析法、Web数据挖掘法,以及关系规则法等等。文章主要介绍了分类法、回归分析法、Web数据挖掘法对数据挖掘过程进行分析。
2.1 分类法
随着通信行业快速发展,基站建设加快,网络覆盖多元化,数据信息对人们的生产生活影响越来越显著。计算机技术等应用与发展在很大程度上促进了经济的进步,提高了人们的生活水平,推动了人类文明的历史进程。在此背景下,数据分析与挖掘成为保障信息安全的基础和前提。为了使得数据挖掘过程更好地进行,需要不断探索科学合理的方法进行分析,以此确保大数据时代的数据挖掘进程更具准确性和可靠性。分类法是数据挖掘中常使用的方法之一,主要用于在数据规模较大的数据库中寻找特质相同的数据,并将大量的数据依照不同的划分形式区分种类。对数据库中的数据进行分类的主要目的是将数据项目放置在特定的、规定的类型中,这样做可以在极大程度上为用户减轻工作量,使其工作内容更加清晰,便于后续时间的内容查找。另外,数据挖掘的分类还可以为用户提高经济效益。
2.2 回归分析法
除了分类法之外,回顾分析法也是数据挖掘经常采用的方法。不同于分类法中对相同特质的数据进行分类,回归分析法主要是对数据库中具有独特性质的数据进行展现,并通过利用函数关系来展现数据之间的联系和区别,进而分析相关数据信息特质的依赖程度。就目前而言,回归分析法通常被用于数据序列的预计和测量,以及探索数据之间存在的联系。特别是在市场营销方面,实施回归分析法可以在营销的每一个环节中都有所体现,能够很好地进行数据信息的挖掘,进而为市场营销的可行性奠定数据基础。
2.3 Web数据挖掘法
通讯网络极度发达的现今时代,大大地丰富了人们的日常生活,使人们的生活更具科技性和便捷性,这是通过大规模的数据信息传输和处理而实现的。为了将庞大的数据信息有目的性地进行分析和挖掘,就需要通过合适的数据挖掘方法进行处理。Web数据挖掘法主要是针对网络式数据的综合性科技,到目前为止,在全球范围内较为常用的Web数据挖掘算法的种类主要有三种,且这三种算法涉及的用户都较为笼统,并没有明显的界限可以对用户进行明确、严谨的划分。随着高新科技的迅猛发展,也给Web数据挖掘法带来了一定的挑战和困难,尤其是在用户分类层面、网站公布内容的有效层面,以及用户停留页面时间长短的层面。因此,在大力推广和宣传Web技术的大数据时代,数据分析技术人员要不断完善Web数据挖掘法的内容,不断创新数据挖掘方法,以期更好地利用Web数据挖掘法服务于社会,服务于人们。
3 大数据分析挖掘体系建设的原则
随着改革开放进程的加快,我国社会经济得到明显提升,人们物质生活和精神文化生活大大满足,特别是二十一世纪以来,科学信息技术的发展,更是提升了人们的生活水平,改善了生活质量,计算机、手机等先进的通讯设备比比皆是,传统的生产关系式和生活方式已经落伍,并逐渐被淘汰,新的产业生态和生产方式喷薄而出,人们开始进入了大数据时代。因此,为了更好地收集、分析、利用数据信息,并从庞大的数据信息中精准、合理地选择正确的数据信息,进而更加迅速地为有需要的人们传递信息,就需要建设大数据分析与挖掘体系,并在建设过程中始终遵循以下几个原则。
3.1 平台建设与探索实践相互促进
经济全球化在对全球经济发展产生巨大推力的同时,还使得全球技术竞争更加激烈。为了实现大数据分析挖掘体系良好建设的目的,需要满足平台建设与探索实践相互促进,根据体系建设实际逐渐摸索分析数据挖掘的完整流程,不断积累经验,积极引进人才,打造一支具有专业数据分析与挖掘水准的队伍,在实际的体系建设过程中吸取失败经验,并适当借鉴发达国家的先进数据平台建设经验,取其精华,促进平台建设,以此构建并不断完善数据分析挖掘体系。
3.2 技术创新与价值创造深度结合
从宏观意义上讲,创新是民族进步的灵魂,是国家兴旺发达的不竭动力。而对于数据分析挖掘体系建设而言,创新同样具有重要意义和作用。创新是大数据的灵魂,在建设大数据分析挖掘体系过程中,要将技术创新与价值创造深度结合,并将价值创造作为目标,辅以技术创新手段,只有这样,才能达到大数据分析挖掘体系建设社会效益与经济效益的双重目的。
3.3 人才培养与能力提升良性循环
意识对物质具有反作用,正确反映客观事物及其发展规律的意识,能够指导人们有效地开展实践活动,促进客观事物的发展。歪曲反映客观事物及其发展规律的意识,则会把人的活动引向歧途,阻碍客观事物的发展。由此可以看出意识正确与否对于大数据分析挖掘体系平台建设的重要意义。基于此,要培养具有大数据技术能力和创新能力的数据分析人才,并定期组织教育学习培训,不断提高他们的数据分析能力,不断进行交流和沟通,培养数据分析意识,提高数据挖掘能力,实现科学的数据挖掘流程与高效的数据挖掘执行,从而提升数据分析挖掘体系平台建设的良性循环。
4 结束语
通过文章的综合论述可知,在经济全球化趋势迅速普及的同时,科学技术不断创新与完善,人们的生活水平和品质都有了质的提升,先进的计算机软件等设备迅速得到应用和推广。人们实现信息传递的过程是通过对大规模的数据信息进行处理和计算形成的,而信息传输和处理等过程均离不开数据信息的分析与挖掘。可以说,我国由此进入了大数据时代。然而,就我国目前数据信息处理技术来看,相关数据技术还处于发展阶段,与发达国家的先进数据分析技术还存在一定的差距和不足。所以,相关数据分析人员要根据我国的基本国情和标准需求对数据分析技术进行完善,提高思想意识,不断提出切实可行的方案进行数据分析技术的创新,加大建设大数据分析挖掘体系的建设,搭建可供进行数据信息处理、划分的平台,为大数据时代的数据分析和挖掘提供更加科学、专业的技术,从而为提高我国的科技信息能力提供基本的保障和前提。
参考文献
[1]唐东波.基于神经网络集成的电信客户流失预测建模及应用[J].大众商务,2010(06).
[2]刘蓉,陈晓红.基于数据挖掘的移动通信客户消费行为分析[J].计算机应用与软件,2006(02).
[3]魏娟,梁静国.基于数据挖掘技术的企业客户关系管理(CRM)[J].商业研究,2005(07).
[4]田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004(06).
[5]王晓佳,杨善林,陈志强.大数据时代下的情报分析与挖掘技术研究――电信客户流失情况分析[J].情报学报,2013.
[6]刘京臣.大数据时代的古典文学研究――以数据分析、数据挖掘与图像检索为中心[J].文学遗产,2015.
福建省高速公路有限公司运用微软大数据解决方案,对视频图像、交通流、交通环境等结构和非结构数据进行管理,对数据中包含的车辆、车主、收费站、地理位置等关联信息进行分析,改善道路管理效率和用户出行体验……
10月18日,在微软公司大数据媒体日活动现场,微软分享了其在大数据领域的最新研究成果和解决方案,来自国内的银行、汽车、交通运输、医疗卫生和零售业用户分享了其应用体验。
大掌控、大智汇、大洞察
在大数据成为流行词之前,微软便已着手于大数据的应用与研发,例如微软Bing的高质量搜索结果,便是通过分析超过100PB的数据得到的。微软大数据解决方案的目标,是让所有用户都能获得来自任何数据有价值的洞察力。
微软大中华区副总裁兼市场战略部副总经理、大中华区首席云战略官谢恩伟介绍,为了实现这一目标,微软为大数据解决方案制定了全面的战略——大掌控、大智汇、大洞察。
大掌控,即“支持所有数据类型的现代化的管理层”。微软大数据解决方案的数据管理平台可以无缝地存储和处理包括结构化、非结构化和实时数据在内的所有类型的数据。微软推出的HDInsight是一种适合企业使用的、基于HDP的Hadoop服务,它将Windows的简易性和可管理性带给Hadoop,提供了结合Hadoop的扩展平台,并为大数据提供了灵活且可扩展的云。
大智汇,即“搜索并结合广泛数据,进行先进分析与精炼,从而提高数据价值的富集层”。微软大数据解决方案,通过将数据和模型与公开的数据服务相结合,实现了突破性的数据发现,例如自动发现与共享防火墙外部的和第三方的数据源等。
大洞察,即“用户熟悉的工具可为用户提供具有直观洞察力的洞悉层”。微软大数据解决方案可以使客户通过熟悉的由Hive add-in for Excel生成的Excel界面,从Hadoop功能中获取有价值的洞察力,也可经由企业熟悉的BI工具,如SQL Server 分析服务、PowerPivot和通过Hive Open Database Connectivity 驱动生成的Power View来分析Hadoop中的非结构化数据。
数据分析结果要“傻瓜化”
“我们要将挖掘与分析的结果直观呈现,转换为用户真正需要的有价值的洞察力。” 微软全球高级副总裁、大中华区董事长兼首席执行官贺乐赋说。
贺乐赋说,微软大数据解决方案通过智能化的、甚至是基于云端的平台和服务去管理和分析数据,从中获取有价值的洞察信息,再以用户最熟悉、最直观的形式表现出来,从而帮助用户做出决策。
【关键词】大数据时代 数据分析 信息安全防护
随着我国网络信息技术不断的发展,当下时代已经成为大数据时代。以往大数据的概念主要存在于物理学领域、生物学领域、生态环境学领域、军事领域、金融领域、通讯领域等,而当下网络和信息业的空前发展使大数据引起了人们的关注。数据信息已经渗透到社会的各行各业,人们通过相关数据信息的发现和利用,可达到增加生产率和市场消费率的效果。但大数据技术收集信息软件给网络用户的隐私带来了问题,网络私人信息的安全防护遭到威胁。因此本文对大数据时代的数据分析与信息安全防护做出相关研究,研究内容如下。
1 大数据概述
大数据主要是指使用常规软件工具无法在规定的时间内对网络往来信息进行捕捉和管理以及处理。大数据时代的主要特点为5V,即数据总量大(Volume)、类型繁多(Variety)、价值密度低(Value)、速度快、时效高(Velocity)。大数据的初始计量单位为P(P=1000T)、E(E=100000T)、Z(Z=10000000T),数据量庞大,其种类包括网络文字信息、音频信息、视频信息、图片信息以及地理位置等,数据种类丰富对数据的处理能力也提出了较高的要求。在大数据中,虽然信息量大,但可利用的信息是有限的,因此,大数据价值密度较低。大数据相对于传统数据而言,需要人们更强的处理信息的能力和速度,对人们的数据驾驭力量提出了挑战。大数据在影响着人们生活方式的同时,还影响着各个行业的发展,大数据的出现也使信息安全面临着一些问题。
2 大数据时代数据分析概述
2.1 抽样量化
在大数据时代,样本就是总体本身,因此在分析某事物的过程中,不需依靠少量的数据样本,而是得到全部的数据。传统的抽样有样本缺乏稳定和随机抽样困难的情况,且在事先设定好了调查目的往往会使调查内容和范围受到人为限制,调查过程中的侧重点也导致抽样数据无法反映总体情况。另外样本量的有限也使抽样结果缺乏精确性,致使错误率的增加,同时传统抽样时间效率和生产率低。
2.2 数据模糊计算
在大数据的影响下,人们接受数据较为繁杂,数据精确性减弱。有数据规模庞大,因此对数据追求精确性的可能性较小,测量数据和调查数据都会因为一些不可控的因素或认为因素致使数据精确性欠缺。大数据时代获得的数据量多,但不精确的数据也在其中,因此对待大数据应该看到其有利方面。数据的不精确也有利于对事物总体的了解,样本的增加使信息更为真实。大数据的不精确是不经意产生的,因此,在需要精确数据的领域还是需要避免不精确性的发生。
2.3 利用数据关系
关注事物的相关性,而不是只追求因果。传统抽样中会预先假定因果,但在大数据时代,数据的复杂和庞大,会导致因果关系复杂化和分析因果复杂化。因此,大数据不不利于追求因果关系,而利于事物相关关系的追求。大数据对数据的分析思路为分析数据相关性,事物关系之间的形式多样化,关系和目的也是根据数据的变化而变化,没有相对较为固定的因果和亲疏关系。
大数据所提供的价值可以让人们预判自己所想知道的事情,比如华尔街利用网络民众的情绪变化进行抛售股票;基金公司根据对购物网站顾客的评论来分析产品销售情况;银行根据网络求职的岗位情况判断就业;投资机构从大数据中查找企业破产的前兆;美国总统团队根据社交软件分析选民喜好。以此可以看出在大数据时代,可利用的数据信息对利用者而言十分重要。
3 大数据时代面临的信息安全问题
3.1 信息安全风险
由于大数据的特点之一为存储信息较为广泛,对信息安全性有一定的影响。大数据信息海量存储技术的成熟降低了信息存储的成本,因此大数据信息处理量显著增加,处理中心分析信息也变得更加容易。大数据信息中心可以根据终端网络用户的行为信息进行分析,然后将结果提供给信息利用者,分析搜索的商品后向你推荐所感兴趣的商品。在移动互联网,终端用户信息被随时采集和存储,造成了信息安全风险。
3.2 个人隐私泄露
有一些网络企业会对网络终端用户的隐私进行搜集。为了赢得市场竞争优势,用户信息成为了企业的发展根据。比如一些智能手机软件会在用户不知情的情况下,对用户使用软件的时间、地点和位置进行信息记录,发送到软件服务器,暴露用户的个人隐私泄露信息。
3.3 安全防护难度
大数据时代由于非结构化的数据类型多、价值密度低,信息量庞大,因此对安全防护技术要求较高,目前我国防护技术还未能够处理大量和多类型的数据,因此数据防护难度系数较高。
4 数据时代面临的信息安全问题的应对措施
4.1 安全技术研发
目前大数据需要能够处理大量和多类型的数据分析技术,以主动发现大数据中潜藏的威胁,比如利用信息丰富开发认证系统技术或建设数据真实分析系统,将恶意信息和无用信息排除在外。
4.2 制定个人隐私泄露保护法律法规
由于大数据是新生事物,因此相关的法律法规存在空白。网络上违法的数据信息行为需要有强制和高效的规则对其进行规范,以保护个人信息的合理利用性。
4.3 提高民众信息安全认知
大数据来源于民众,因此提高民众的信息安全意识,可有效防范数据信息面临的信息安全问题,从而起到维护个人隐私泄露、避免负面影响的作用。
5 结语
综上所述,大数据时代数据分析与信息安全防护具有重要意义,当下网络和信息业的空前发展使大数据引起了人们的关注,数据信息已经渗透到社会的各行各业,数据分析使人们受益匪浅。但大数据技术收集信息软件给网络用户的信息安全带来了问题。比如信息安全风险、个人隐私泄露、安全防护有难度等,本研究作者经过多方面思考提出提高安全技术研发程度、制定个人隐私保护法律法规以及提高民众信息安全认知的解决意见,以促进大数据时代信息安全性的增加。
参考文献
[1]田秀霞,王晓玲,高明等.数据库服务――安全与隐私保护[J].软件学报,2010,21(5):991-1006.
[2]刘小龙,郑滔.一种针对非控制数据攻击的改进防御方法[J].计算机应用研究,2013,30(12):3762-3766.
[3]李峰,李虎成,於益军等.基于并行计算和数据复用的快速静态安全校核技术[J].电力系统自动化,2013,37(14):75-80.
基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。
1.1数据采集
大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。
1.2数据处理与集成
数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。
1.3数据分析
在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。
1.4数据解释
数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。
2云计算与大数据分析的关系
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。
3基于云计算环境的Hadoop
为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。
4实例分析
本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。
5结束语
为了突破传统的体育比赛报道模式、真正挖掘球迷的真实需求、创造独特的报道视角,腾讯和IBM进行了合作,利用IBM的社交大数据分析和云计算技术,针对社交网上球迷关于世界杯的广泛评论、观点、声音进行实时分析,并获得对球迷关注话题、球迷性格特点、独特观点的实时掌握,从而让球迷享受到一场与众不同的足球报道体验。
例如,在互联网上,很多人会为谁是真球迷、谁是伪球迷争论不休。而利用社交大数据分析则能够帮助球迷解决这一问题。利用社交大数据分析并结合个人性格分析模型,可以把不同球星的典型球迷画像清晰地勾勒出来。不仅是球迷的兴趣爱好,连性格特点和行为方式都刻画得十分详细。事实上,在本届世界杯期间,与球迷画像进行对比,鉴定自己的真球迷含金量已经成为腾讯网上球迷众多热门话题之一。
其实,社交大数据分析不仅体现在体育方面。在很多传统行业中,社交大数据分析已经得到了广泛的应用,并产生了全新的商业价值。
客户细分和精准营销
这也是目前社交大数据分析应用最为广泛的场景之一。通过社交大数据分析,企业可以在海量的社交媒体数据中,准确发现客户或潜在客户,并通过对其社交网络语言以及行为的大数据分析,清晰掌握不同客户的特点和潜在需求。“不仅能够了解客户的性别、年龄、收入,而且连性格特点、行为习惯、潜在购买需求都可以被准确勾画出来,基于此,企业可以制定更加精准的营销策略。”IBM大中华区全球咨询服务部高级经理郭树勇说道。
实现精准的客户化产品设计
基于语义分析技术的社交大数据分析可以更加准确地判断社交网络上人们语言表达的意思,从而让企业实时发现客户对产品与服务的态度及意见,帮助企业第一时间发现问题,调整策略或实现产品与服务的优化。
“某全球跨国饮料集团利用IBM社交大数据分析工具,成功实现对社交媒体的有效监测,不需要任何调研,就可以在第一时间掌握消费者对自身营销效果的全面、真实评价,洞察竞争对手态势。通过捕捉大众性产品的用户反馈和评价,绘制出一个生动的细分用户群像,就可以精准地进行产品功能设计和改进。”郭树勇说。
打造创新商业模式
社交大数据分析可以有效地捕捉、筛选、挖掘客户关心的热点话题,更好地帮助企业决策者明确客户行为方式,并且发现潜在的商业机遇,从而准确地抓住市场先机,来建立以客户体验为中心的商业运作模式,以便为企业树立独特的行业竞争优势,进而改变现有的商业格局。