前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇大数据量解决方案范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
这正是白宫网站的《大数据研究和发展倡议》所追求的——“通过收集、处理庞大而复杂的数据信息,获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,转变教育和学习模式”。
各行各业都能用得上大数据,只是对大数据重要性的意识程度不同:凯捷咨询(Capgemini)的调研结果显示,76%能源和自然资源行业的高管相信公司是数据驱动的,在医疗医药行业和生物科技行业这个数字为75%,在金融行业为73%。包括英特尔在内的有能力提供大数据解决方案的IT厂商正在努力让各行各业的企业切实感受到大数据的魔力。
能否置身事外?
随着网络应用和多媒体应用的兴起,互联网成为大数据的主要来源。随之而产生的网络营销调整围绕大数据而展开。淘宝是国内公认的对用户数据利用得较好的公司——淘宝网利用大数据统计分析得到诸如“欧洲杯的球队胜负如何影响各队球衣的销量?花露水的最佳搭配是电蚊拍还是痱子粉?”等问题的有趣结果,并以此为依据来更好地调整营销战略。
近日,阿里巴巴集团宣布,将在集团管理层面设立首席数据官岗位(Chief Data Officer),负责全面推进阿里巴巴集团成为“数据分享平台”的战略。这直接证明了大数据对于互联网企业的意义。
别的行业能不能对大数据冷眼旁观呢?赛迪智库软件与信息服务业研究所研究员安晖认为,虽然目前大数据的主要来源是互联网,但许多以信息流作为核心竞争力,如金融、电信、零售等行业的机构或企业,其数据量也不容低估。例如,美国国家海洋和大气管理局(NOAA)数据中心存储的数据超过20PB,沃尔玛数据中心的存储能力超过4PB,eBay分析平台每天处理的数据量高达100PB。并且,由于这些机构和企业所存储的数据更加有针对性,其数据的价值密度更高,进行大数据处理的意义更强,运用大数据的需求也更为迫切。
安晖以数个典型行业为例来说明大数据能带来什么好处——电信行业可以从庞大的数据中分析出不同群体的差异化需求,实现套餐制定等精准营销;制造行业可以通过整合来自研发、工程和制造部门的数据以实行并行工程,显著缩短产品上市时间并提高质量;交通行业可以通过整合和处理相关数据,实现智能交通(管理)与高效物流调度。
赛迪顾问软件与信息服务业研究中心研究总监胡小鹏认为,金融行业中证券、信用卡、电子支付等数据规模庞大,具有使用对象多样化、信息可靠性、实时性、保密性要求高等特点;电信行业中大数据主要体现为电信业务系统产业的计费账务数据和用户信息(包括客户资料、客户服务数据等),不仅数据量大,而且保存时间长;能源行业大数据主要集中在石油勘探以及电力生产、经营、管理等数据,具有数据量大、分散、类型复杂等特点。其中,在金融行业,利用大数据的挖掘和分析改善用户体验、监督欺诈行为、验证合规性、服务创新等,从而助力金融智能决策,提升竞争力;而对于电力行业,大数据分析有利于电网安全高效运行(安全检测与控制、灾难预警与处理、供电与电力调度决策支持和负荷预测)、电力营销(用户用电行为分析)、集团集中管控与精细化管理等。
大数据这场盛宴上,哪个行业也不愿意没有一席之地。
谁能站出来?
大数据的热度可以由英特尔、IBM、EMC、惠普等厂商纷纷推出面向大数据的一体化产品和解决方案直接反映出来。
然而,一个不能逃避的现实是,虽然越来越多的行业用户尝试应用大数据的解决方案,但是大多数行业用户对于大数据的认知仍然比较有限。面对林林总总的不同厂商提供的大数据解决方案,用户分不清这些解决方案的差异在哪里,也就不会真正了解哪种解决方案适合自己。
有用户反映,大数据解决方案容易给人的错觉是该解决方案就是把数据分布存储,再并行处理。即使采用国外厂商的工具,这些工具成熟度不是特别高,导致解决实际问题的时间过长。
英特尔相关专家表示,从总体上看,中国大数据市场发展迅速,特征明显,相关技术和应用可改进和提升的空间巨大。而且大数据要落地,必须实现包括芯片商、软件企业等在内的IT基础设施与服务层平台的开放。
英特尔在硬件上的领先无需多言。在软件层面,考虑到Hadoop的开源特性,很多厂商都有机会在Hadoop的基础上推出产品,但行业解决方案提供商面临的一个苦恼是,他们不得不进行底层开发。实际上,底层解决方案是有很多共性的。对行业解决方案提供商来说,如果有一个由可靠厂商优化过的平台再好不过了。利用这个平台,行业解决方案提供商可以抛开重复的、无意义的劳动,将注意力和精力更加集中在行业特点上,进而开发出满足行业所需的实打实的行业解决方案。在这种情况下,英特尔适时地推出了英特尔Hadoop发行版,打造一个优秀的、高价值的底层平台。
对于如何从大数据中发掘价值,英特尔指出,这需要在IT基础设施与服务层、数据组织与管理层、数据分析与发现层、决策支持与IT服务层全面引入新的技术,特别是在堪称大数据应用“载体”的IT基础设施与服务层,采用基于开放架构的平台将是最佳选择。
O‘Reilly Strata和Open Source Convention大会委员会主席Edd Dumbill曾指出,使大数据真正变得强大的方式之一就是让上层程序员可以将精力放在数据而非底层Hadoop设施的抽象特征上。他们编写更简短的程序,能够更清晰地表达出对数据所做的处理。这些将有助于为非程序员创建更好的工具。
延伸到企业层面,“行业解决方案提供商需要稳定性和可用性都足够好的平台。在这样的平台上,行业解决方案提供商可以从不必要的重复性劳动中解放出来,从而把更多的精力放在提供差异化特色方案和服务上。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔的看法类似。进而,他解读了英特尔Hadoop发行版的优势:“英特尔Hadoop发行版的优势在于:处理接近于实时;能在英特尔平台上实现最优化的性能,比非英特尔发行版有成倍的增长;通过和电信、智能城市、医疗等行业客户的合作,英特尔Hadoop还做了更进一步的优化。”
除了提供平台,英特尔(中国)行业合作与解决方案部中国区总监凌琦强调,英特尔还会把大数据解决方案的研究和服务作为投资部门的重点。英特尔的风险投资部门也对大数据中所涉及的关键平台、关键应用、提供商,给予关注。
行业侧重点
英特尔硬件平台的特点让其可以用“通吃”来形容,行业特色则由软件来体现。
正如英特尔Hadoop发行版白皮书所指出的,它“为企业应用而优化”,其拥有的增强高可靠性、增强分布式文件系统HDFS扩展性(使集群的I/O吞吐量能够随着节点数量的增加而线性增加)、动态调整数据复制策略(提高热点数据的并发访问能力)、改进分布式计算框架调度算法(避免并行任务退化成串行执行)、增加Hadoop集群监控管理、优化HBase查询、实现细粒度的HBase合并调度控制(避免合并风暴)、创建异地HBase大表、均衡负载等相对开源Hadoop和其他Hadoop发行版的核心优势在多个行业中均不可或缺。
“大数据是当下最热门的一个IT话题,随着移动终端和电子商务的普及,人类社会已经进入了数据打包站的时代,如何应对‘大数据’是每个行业和企事业单位都必须面对的机遇和挑战。”荣之联公司董事长王东辉如是说。显然,作为多年专注于行业用户服务的IT方案商,荣之联已经意识到“大数据”给整个IT产业带来的变革和机会。
不过,知易行难。
尤其是随着社交网络、电子商务以及物联网的发展,结构化数据和非结构化数据并存,无论是数据的类型、来源还是数量等方面,都已十分复杂。而依靠传统的IT技术,已经很难对这些海量数据进行高效的分析。因此,是否能够找到一套涵盖业务、技术和IT基础架构的全面的大数据解决方案,就成为IT服务商决胜大数据市场的关键因素之一。
而这也正是荣之联公司与Alpine公司合作,共同拓展国内大数据市场的重要原因。“Alpine公司在大数据处理方面有着很多创新的技术和面向各个行业的解决方案,而这些可以帮助我们很好的解决国内行业用户所面临的大数据问题。”王东辉说。
其实,对于大数据,荣之联公司并不陌生。“过去几年,我们帮助华大基因等企业建设了巨大的数据库,计算量超过200万亿次,我们的生物云也马上要,数据量将会更大。而如何在生物行业中结合大数据分析,也是过去一年多我们一直在讨论的问题。”荣之联公司总经理张彤介绍道。
而荣之联公司多年积累的行业用户基础,以及良好的本地化服务能力,显然对于Alpine公司也有着十分大的吸引力:这将帮助Alpine的大数据解决方案在国内行业用户中迅速落地。
大数据业务值得期待
在云计算方面,曙光多年的努力已经看到了成效。在曙光自己建设和运维的云数据中心里,存储容量基本都超过10PB,承载了大量来自地质勘探、视频监控、电子政务等方面的数据。其中,结构化数据与非结构化数据的存储比例是1∶4,大量非结构化数据存储主要存储的是图片和视频,这也为下一步的数据挖掘奠定了基础。曙光为企业级客户提供的云存储解决方案涉及公安云、税务云、教育云、医疗云等。
在大数据产品方面,曙光已经成竹在胸。针对结构化、非结构化和半结构化数据,曙光都能提供匹配的存储解决方案。比如,针对非结构化和半结构化数据,曙光的ParaStor就是一个非常好的存储平台。再比如,曙光利用自己的文件系统对Hadoop平台进行了优化,可以更好地发挥Hadoop的优势。惠润海表示:“当前,虽然大数据带来的直接收入并不如预期,但是大数据市场的前景十分广阔。”
不赶一体机的时髦
在大数据市场上,一体机越来越流行,曙光却一直按兵不动。“我们一定要透过现象看本质。一体机的核心还是软件。”惠润海表示,“将相关硬件拼凑在一起,再加上Hadoop就能构成一个简单的一体机,但是这样的产品会有竞争力吗?我们只要推出一个新产品,就希望这个产品具有一定的竞争力,能够在市场上取得较高的占有率,而不是搞噱头。”
在大数据业务方面,曙光的核心竞争力主要体现在它有一支强大的技术服务团队,可以为用户提供代码级开发的服务能力。由于自身的复杂性以及存在Bug,Hadoop通常不能直接使用,这就需要大数据解决方案厂商在Hadoop平台上进行相关调整和优化。“由于数据种类繁多,数据量又大,如何快速将大数据导入到大数据挖掘系统中是一个难题。如果厂商没有过硬的技术服务团队,不能根据数据的情况对解决方案进行调整和优化,那么大数据应用落地就将成为一句空话。大数据应用之所以难普及,一个重要的原因就是具有代码级开发能力的专业技术人才太少了。”惠润海表示。
在推广大数据解决方案时,曙光并没有与某一个应用软件厂商签定产品捆绑协议。不过,曙光还是针对一些主流的应用软件进行了方案的优化。举例来说,在结构化数据处理方面,曙光主要针对Oracle数据库进行了方案优化。曙光利用基础的硬件,结合自己的大数据挖掘系统,可以将Oracle数据库的查询速度至少提升50倍,而成本只有传统的“小型机+高端存储”解决方案的十分之一。
存储服务器已获认可
软件定义的网络也好,软件定义的存储也罢,无非都是在强调一个重点:软件将成为未来IT架构和应用的核心。“从存储的研发上看,除了少量的硬件研发以外,我们90%的研发人员从事的都是软件研发。”惠润海表示,“曙光在软件研发上强调的是精英文化,近百人的研发团队具有代码级的开发实力。未来,我们研发的重点将放在海量存储、大数据挖掘和云存储上,而对于传统的磁盘阵列不会有太大的研发投入。”
【关键词】大数据 视频监控 Hadoop架构 数据挖掘技术
1 前言
由于数据体量的激增、结构类型的复杂、但数据的低密度价值以及处理速度的提升等新特性的出现,促使人们对大数据进行研究与实践。现阶段,大数据已逐渐渗透到各个行业和业务职能领域。在安防领域中,视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合,在安防系统中的重要性日益突出,海量的视频数据需要得到有效的处理,迫切需要与大数据技术相融合。大数据可以有效促进视频监控业务的发展,推动视频监控业务的展开,两者之间的融合势在必行。
2 大数据
在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。大数据技术描述了新一代的技术和架构,使用高速获取、发现和/或分析方法提取的各种各样数据量非常大的数据价值。
3 视频监控数据
在视频监控领域,大数据的特点可用4个V来概括:Volume、Variety、Velocity、Value。
3.1 数据体量巨大(Volume)
高清化带来单个监控点数据量以指数级增长,例如单个1080PIPC30天就会产生2T数据;IP化大联网后,各平台实现互联,平安城市网内摄像头数量达数万数十万级别,其数据量之巨大可想而知。
3.2 数据类型繁多(Variety)
视频监控领域的视频编码格式包括:H.264、MPEG-4、MJPEG等多样化的编码方式。同时随着各类物联网技术融入到视频监控业务,汇聚了包括各种传感器、IT、CT系统产生的多样的数据。
3.3 处理速度快(Velocity)
视频数据随时间快速增长,并以持续顺序到达。随着数据量的增加,哪怕对TB级别的数据进行视频内容的数据分析和检索,采用串行计算模式都可能需要花费数小时的计算,已远远不能胜任时效性的需求。
3.4 价值密度低(Value),效率要求高
在视频监控业务中,价值密度的高低与数据总量的大小成反比。一小时的视频监控内容,可能有用的数据仅仅只有一两秒。
4 视频监控大数据分析架构
结合视频监控业务特点,引入Hadoop的架构,以顶层设计的视角来构建面向大数据的视频监控架构。面向大数据视频监控逻辑架构包括:
4.1 数据源层
包括实时数据和非实时数据。实时数据指IP摄像头和传感器产生的实时流媒体数据。非实时数据是指从DVR、编码器、第三方系统导入的媒体数据。
4.2 大数据存储层
采用HDFS(Hadoop Distributed File System)和HBase(Hadoop Database)实现数据低成本、高可靠的管理。把采集的流视频保存在HDFS集群内,并通过HBase建立访问的索引。把传统NVR和专用存储进行重构,纳入到整体的分布式文件系统中。
4.3 大数据计算层
实现智能分析和数据挖掘。通过MapReduce把对视频的分析进行分解,充分利用闲置资源,把计算任务分配给多台服务器进行并行计算分析;另一方面,根据智能分析产生的视频元数据,通过Hive挖掘视频元数据的价值信息。
4.4 业务及管理层
实现设备和业务管理。基于Zookeeper组成的服务器集群,可以保证业务系统的无故障运营,基于Ganglia实现对摄像头等设备的监管。
基于大数据的视频架构,本质上是把视频数据作为最有价值的资产,以数据作为核心来构建技术架构,重点解决海量的视频数据分散和集中式存储并存、多级分布等问题,极大提升非结构化视频数据读写的效率,为视频监控的快速检索、智能分析提供端到端的解决方案。
5 视频监控数据挖掘技术
视频数据挖掘的目的是建立底层视频数据到高层语义信息之间的映射关系,由于这种映射关系比较复杂,一般采用多层次的信息提取及映射技术来最终实现数据挖掘过程:从底层视频数据中首先提取底层图像特征信息,然后利用目标检测、目标跟踪、特征比对等手段从图像特征中提取元语义信息,最后将元语义信息融合为高层的语义级描述信息。主要采用的视频数据挖掘技术有:视频浓缩与检索技术、视频图像信息数据库等技术。
视频浓缩与检索技术主要是利用图像处理、模式识别、海量数据分类存储以及搜索等技术,对海量的存储录像等原始信息进行分析和挖掘,对于目标特征、目标行为、目标间关联关系这3大类信息内容,形成各种分类的特征信息库、元数据和索引等,并提供统一接口供外部应用进行搜索,以期实现快速关联和定位。
视频图像信息库建设和海量数据的处理、分析、检索,是提高效率的有力手段。通过视频智能分析技术,把海量的视频数据进行浓缩,提取特征摘要,减少存储空间。同时,视频图像信息库针对结构化、半结构化和非结构化数据,通过数据的多个副本分布式保存方式,有效节约存储空间,使系统架构更加稳定和可扩展,并提供安全的负载均衡和容错机制。
6 结束语
随着IT新兴技术的兴起,视频监控进入网络化时代,大数据技术在视频监控领域的广阔发展路径已经显现。如何从海量视频数据中提取有用信息,把大数据技术和视频监控业务相互融合,打造大数据时代的视频监控解决方案,无疑是监控系统各个行业用户都迫切需要解决的问题。
参考文献
[1]陈明.大数据概论[M].北京:科学出版社,2015.
[2]严权锋.移动视频监控系统中的关键技术研究[J].无线电通信技术,2008,34(4):33-35.
作者简介
周英凤(1980-),女。硕士学位。现为井冈山大学电子与信息工程学院讲师。研究方向为嵌入式图像处理等。
作者单位
与企业生产密切相关的在线数据,也就是俗称的热数据,一直是数据存储的重点。为了更好地处理和保存热数据,人们想了很多办法,相关的技术创新层出不穷。最近比较热门的闪存技术就大大提升了对热数据的访问性能。一直坚持在机械式硬盘方面推陈出新的HGST,也在持续关注闪存技术的进展,并推出了新一代的产品。
举例来说,今年9月HGST推出了全新的兼容NVMe标准的Ultrastar SN100 PCIe SSD。该产品系列集成了东芝的MLC NAND闪存,配以简化的PCIe SSD系统,具有HGST一贯的高品质和高可靠性。主要面向数据库加速、虚拟化和大数据分析的Ultrastar SN100 SSD,采用了半高半长的插卡形式,基于标准的2.5英寸硬盘规格,容量高达3.2TB。为提升NAND闪存的耐久性和可靠性,Ultrastar SN100 SSD系列使用了专门针对东芝MLC NAND闪存进行优化的HGST CellCare NAND管理技术。
虽然人们对于热数据的热情不减,但数据本身有固有的生命周期,一定会经历从热到冷、从在线到离线直到被删除的过程。随着数据量的增加和时间的推移,企业中大量的数据由在线存储逐渐转为长期保留和归档,也就是进入“冷处理”的环节。其实,随着用户对数据可访问性要求的逐步提高,在一些行业中已经没有完全意义上的冷数据,因为即使是归档的数据,也可能会在某些特殊情况下要求被快速访问,比如话费账单的查询等。
所谓“冷数据”就是大量的需要被长久、安全地保留或归档的数据。相对于在线的热数据来说,这些冷数据的被访问频率可能会大大降低,但是这些数据并不是无用的数据,而是需要时刻准备被查询。
HGST认为,在数据量快速增长的今天,“冷数据”市场也会很快热起来。为此,HGST意欲进军与冷数据相关的数据归档市场。作为一个传统的硬盘制造商,HGST原来的技术特长是制造存储用的零部件,而进军数据归档市场,研发一个完整的归档系统对HSGT来说也是一次全新的挑战。
James Ho表示,HGST瞄准的是新兴的蓝海存储市场――动态归档。虽然深度归档依然是一种“一次写入”并希望“永不读取”的运作方式,但高速增长的应用和数据正在催生各种新型的长期数据存储模式。除了可扩展性以外,动态归档系统还要求低成本和高效率。过去,磁带提供了一种低成本、大容量的数据归档方式,但无法让用户快速访问随机数据。现今主流的磁盘存储方式能够满足用户对数据访问性能的要求,但无法满足PB级存储环境对低成本的要求。
HGST尝试通过创新的技术打造可以满足成本、性能、效率和可靠性要求的动态归档平台。HGST的动态归档平台旨在实现10倍于传统企业数据中心解决方案的存储密度和功率效率,以及5倍于常用可扩展型云计算数据中心解决方案的存储密度和功率效率。