前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇大数据时代的应用范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:大数据 数据挖掘 挖掘技术
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2016)05-0000-00
1数据挖掘与数据挖掘技术的方法分析
“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题,由此而诞生的数据挖掘技术其实就是用以处理这一尴尬问题的技术。数据挖掘实际上是相对比较新型的一门学科,在几十年的发展过程中,已经不可同日而语。其实数据挖掘技术的本质就是人工智能技术,而数据挖掘技术的利用相对应的就是指人工智能技术的开发与应用,也就是说数据挖掘其实是依赖技术的提升来实现数据的整体创新的技术,所以,整个数据挖掘技术实际上是非常具有信息价值的,它能够帮助决策者更快的得到重要信息并作出决策,提高效率和准确率,是非常重要的知识凭证,能够在一定程度上提高当下企业的整体竞争力。
数据挖掘技术的核心就是分析,通过分析方法的不同来解决不同类别的问题,以实现数据挖掘的潜在内容。简单来说就是对症下药以保证药到病除。
1.1聚类分析法
简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用在心理学、统计学、数据识别等方面。
1.2人工神经网络
人工神经网络是通过大批量的数据进行分析,而这种数据分析方式本身是建立在一定的数据模型基础上的,因此通常都可以随时根据数据需求进行分类,所以人工神经网络也是当下数据挖掘技术中最常用的一种数据分析方式之一。
1.3关联性分析法
有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。
1.4特征性数据分析法
网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。在上文中提到的人工神经网络数据分析也属于这其中的一种,此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。
2大数据时代下数据挖掘技术的具体应用
数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。
2.1市场营销领域
市场营销其实就是数据挖掘技术最早运用的领域,通常根据客户的具体需求,进行客户分析,将不同的消费习惯和消费特点的客户进行简单的分类管理,以此来保证商品能够顺利销售,并提高个人销售的成功率和业绩。而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个方面。
2.2科学研究领域
科学研究与实验测试等都需要对数据进行关系分析为进一步的实验和总结失败做准备,而实验测试和科学研究产生的数据往往是巨大的,因此数据挖掘技术在科学研究领域也得以广泛运用。通常都是通过科学研究内容选择数据挖掘技术分析法进行计算来找到数据中存在的规律,实现数据挖掘的部分价值――科学知识的分析与运用。
2.3电信业领域
随着信息化时代的到来,电信产业也飞速发展起来,到目前为止,电信产业已经形成了一个巨大的网络信息载体,如何将其中信息数据进行整合就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题,大量的数据通过数据挖掘技术得到了有效分类,并在这个过程中通过运算得出数据之间的关联性,运用规律进一步进行数据分类。
2.4教育教学领域
教学评价、教学资源、学生个人基本信息等组成了教育教学领域的数据库,利用数据挖掘技术来实现教学资源的优化配置,对学生的个人信息整理归档,从而保证教育教学领域中数据整理的良好运作。
3结语
综上所述,数据挖掘技术对于当今社会的发展有着不可替代的作用,而如何改善当下数据挖掘技术中存在的问题,进一步提高数据挖掘技术的质量和效率就成为了数据挖掘技术进步的方向。本文通过对于数据挖掘与数据挖掘技术的方法分析和大数据时代下数据挖掘技术的具体应用两个方面对于数据挖掘技术进行了简要的阐述和分析,相信在未来伴随着科学技术的进一步发展,数据挖掘技术也将更加强大。
参考文献
[1]程军锋.Web数据挖掘研究[J].重庆三峡学院学报,2013(03).
[关键词]大数据 大数据思维 铁路创新发展
中图分类号:TM76;TM63 文献标识码:B 文章编号:1009-914X(2016)25-0373-03
1 引言
半个世纪以来,随着人类对自然和社会认识的进一步加深及人类活动的进一步扩展,科学研究、互联网应用、电子商务、移动通信等诸多应用领域产生了多种多样的数量巨大的数据。这不仅使得世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化最终导致了质变,最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。时至今日,这个概念几乎已应用到了所有人类致力发展的领域中。大数据(BIG DATA)的出现对传统的数据存储、数据处理和数据挖掘提出了新的挑战,同时也深刻地影响着人类的生活、工作和思维。
2 什么是大数据
2.1 大数据的概念
说起大数据,从字面意思来讲就是巨量数据集合,到底有多大?可能很多人并没有很具体的概念。一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。
然而大数据并非一个确切的概念。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。而麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和价值密度低(Value)四大特征,即4V特征。在维克托・迈尔-舍恩伯格及肯尼斯・库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。业界学者杨善林认为在海量数据的量化基础上,同时具备大分析(Big Analytics)、大带宽(Big Bandwidth)、大内容(Big Content)等三大要素的巨大数据集。谢国忠则认为大数据的本质是利用企业内部信息,将庞大的信息进行有效整合,并结合新的数据类型为企业创造价值。
2.2 大数据的特点
大数据有有它自己的特征。目前工业界普遍认为大数据具有 4V+1C 的特征:
(1)数据量大(Volume)。存储的数据量巨大,拍字节级别是常态,因而对其分析的计算量也大。
(2)多样(Variety)。数据的来源及格式多样,数据格式除了传统的格式化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容,而随着人类的活动的进一步拓宽,数据的来源更加多样。
(3)快速(Velocity)。数据增长速度快,同时要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。
(4)价值密度低(Value)。需要对大量的数据处理挖掘其潜在的价值,因而,大数据对我们提出的明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析从大量、多种类别的数据中提取价值的体系架构。
(5)复杂度(Complexity)。对数据的处理和分析难度大。
IBM在此基础上又提出了5V特征,即在4V的基础上增加了真实性(Veracity)。
3 什么是大数据思维
要想大数据为人所用, 必须改变原有对数据的认识,将大数据与创意结合,并能充分利用数据分析技术,为企业和国家决策提供依据。大数据研究专家维克托・迈尔-舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。事实上,大数据时代带给人们的思维方式的深刻转变远不止上述三个方面。我认为,大数据思维最关键的转变在于从自然思维转向智能思维,使得大数据像具有生命力一样,获得类似于“人脑”的智能,甚至智慧。
大数据思维是一种总体思维。过去,人们对搜集数据、处理数据形成了一个思维定势,那就是我们不可能搜集到相当多数量的数据,我们只能在力所能及的条件下选择一小部分去分析和处理,为了让数据处理变得更简单,对数据的选择就尽可能到最少,也由于当时信息处理水平的限制,导致所选的数据不具备代表性,盲目因素太多。当我们进行抽样调查来分析数据的时候,往往会以调查问卷的形式选择一部分样本进行分析,这为人们提供了不少的便捷,但相应的缺点也是一览无余,这种样本分析法不管你有多深入的去挖掘,它都只能代表总体数据中的一小部分,不能代表全部数据,也许样本调查的准确性会达到90%以上,但是依然会遗漏一些很有价值的数据,就会导致数据的失真。但是随着大数据时代的到来,我们可能还没有意识到我们已经具备处理和分析大数据的能力,我们的思维正在一点点的改变,首先,我们不能一直依靠对小部分数据样本进行分析,而是转向为分析全部数据。
大数据思维是一种容错思维。在小数据时代,由于收集的样本信息量比较少,所以必须确保记录下来的数据尽量结构化、精确化,否则,分析得出的结论在推及总体上就会“南辕北辙”,因此,就必须十分注重精确思维。然而,在大数据时代,得益于大数据技术的突破,大量的非结构化、异构化的数据能够得到储存和分析,这一方面提升了我们从数据中获取知识和洞见的能力,另一方面也对传统的精确思维造成了挑战。维克托・迈尔-舍恩伯格指出,“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户”。也就是说,在大数据时代,思维方式要从精确思维转向容错思维,当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力。
大数据思维是一种相关思维。在小数据世界中,人们往往执着于现象背后的因果关系,试图通过有限样本数据来剖析其中的内在机理。小数据的另一个缺陷就是有限的样本数据无法反映出事物之间的普遍性的相关关系。而在大数据时代,人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞见,运用这些认知与洞见就可以帮助我们捕捉现在和预测未来,而建立在相关关系分析基础上的预测正是大数据的核心议题。通过关注线性的相关关系,以及复杂的非线性相关关系,可以帮助人们看到很多以前不曾注意的联系,还可以掌握以前无法理解的复杂技术和社会动态,相关关系甚至可以超越因果关系,成为我们了解这个世界的更好视角。维克托・迈尔-舍恩伯格指出,大数据的出现让人们放弃了对因果关系的渴求,转而关注相关关系,人们只需知道“是什么”,而不用知道“为什么”。我们不必非得知道事物或现象背后的复杂深层原因,而只需要通过大数据分析获知“是什么”就意义非凡,这会给我们提供非常新颖且有价值的观点、信息和知识。也就是说,在大数据时代,思维方式要从因果思维转向相关思维,努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。
大数据思维是一种智能思维。大数据使得人可以被量化,但却让计算机更具智能。工业革命使得需要人完成的工作只用机器就可以完成了,但大数据却可以使得机器有了分析问题的能力。卫星定位系统积累的大量数据,可以制作电子地图和导航,还可以通过分析数据开发出无人驾驶汽车,让机器变得拥有智慧。如何让计算机拥有智慧,除了要拥有大数据外,必须变革思维,创新分析思路与过程,不断探索新的方法,让堆积如山的数据不断创造新的价值。例如手机上常用的地图软件,可以搜索很多路况同步数据,为用户提供出行信息。这只是大数据最基础的应用,继续延伸, 是否可以根据上下班时段的交通流量估算失业率;是否可以通过对主要商圈的监控估算消费情况;是否可以将废弃的数据重新创造价值;是否可以利用用户在拼写过程中的拼写错误让拼写检查软件更优化;是否可以通过分析各实体和产业之间的关联关系,预测各行业发展趋势,找出关键影响因素;是否可以分析顾客的偏好,量体裁衣式的为顾客提供更好的服务; 是否可以运用大数据模拟现实情境,发掘出新的需求和更好的回报;是否可以创新大数据的使用模式,将大数据深加工,用户可以很方便地结合自身情况选择适合自己的产品。
4 建立大数据思维促进中国铁路创新
4.1 以数据为核心
大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下,云计算找到了破茧重生的机会,在存储和计算上都体现了数据为核心的理念。大数据和云计算的关系:大数据与云计算是一个问题的两面,一个是问题,一个是解决问题的方法。而大数据比云计算更为落地,可有效利用已大量建设的云计算资源,最后加以利用。中国铁路信息化历经50余年的发展,取得广泛的应用,拥有海量的资源,大数据将成为推动中国铁路创新发展的新引擎。随着中国铁路信息化的到来,中国铁路发展的战略需求也发生了改变,数据的处理分析成为了一个关注重点,软件也将从编程为主转变为以数据为中心。如何高效地从海量数据中分析、挖掘所需的信息和规律,结合已有经验和数学模型等生成更高层次的决策支持信息,获得各类分析、评价数据,为设备管理、网络状态评估等提供决策支持,为铁路工作人员提供有用信息,成为铁路未来发展的趋势。
4.2 全样本考虑
统计学里头最基本的一个概念就是,全部样本才能找出规律。为什么能够找出行为规律?一个更深层的概念是人和人是一样的,如果是一个人特例出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。在大数据时代,无论是商家还是信息的搜集者,会比我们自己更知道你可能会想干什么。现在的数据还没有被真正挖掘,如果真正挖掘的话,通过信用卡消费的记录,可以成功预测未来5年内的情况。大数据的核心就是预测,大数据能够预测体现在很多方面。大数据不是要教机器像人一样思考,相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化。例如:大数据助微软准确预测世界怀。微软大数据团队在2014年巴西世界足球赛前设计了世界怀模型,该预测模型正确预测了赛事最后几轮每场比赛的结果,包括预测德国队将最终获胜。预测成功归功于微软在世界杯进行过程中获取的大量数据,到淘汰赛阶段,数据如滚雪球般增多,常握了有关球员和球队的足够信息,以适当校准模型并调整对接下来比赛的预测。世界杯预测模型的方法与设计其它事件的模型相同,诀窍就是在预测中去除主观性,让数据说话。利用大数据技术可以从铁路的客票系统、货票系统、货运电子商务平台、运输信息集成平台等信息系统采集海量的原始信息,这些信息可以为市场分析和预测提供有力的支撑。与传统方法侧重于对调查抽样统计数据的分析不同,基于大数据技术的市场分析和预测技术既能够利用上述海量数据,分析客、货运量完整全面的变化过程,深入挖掘运量变化的规律性,进而预测市场的未来走势;还能够利用GPS、传感器等物联网手段采集获取精细的运输数据,并且通过互联网接入的政治、经济、其他交通方式、气候等影响因素数据,将旅客和货物流量流向的精细化分析与影响因素关联性分析相结合,挖掘各影响因素对铁路运量变化影响的方向和时滞,量化各因素对运量变化的影响。在对典型设备故障诊断与状态预测方面,可以综合利用GSM-R接口监测数据、网络管理信息、场强和服务质量动态检测数据、无线干扰检测监测数据等数据源,采用数据挖掘技术,研究监测检测数据综合分析方法、多源数据关联分析方法和适用于通信业务数的故障诊断分析方法,建立典型故障诊断模型、GSM-R网络QoS测试综合评价模型、CTCS-3列控系统降级故障表示模型等,对列车控制的车载系统、地面控制系统、无线通信网络交互作用进行可靠性评估和故障综合诊断,为列车控制系统降级原因分析、GSM-R网络维护、网络优化等提供支持。
4.3 用信息找人
互联网和大数据的发展,是一个从人找信息,到信息找人的过程。先是人找信息,人找人,信息找信息,现在是信息找人的这样一个时代。信息找人的时代,就是说一方面我们回到了一种最初的,广播模式是信息找人,我们听收音机,我们看电视,它是信息推给我们的,但是有一个缺陷,不知道我们是谁,后来互联网反其道而行,提供搜索引擎技术,让我知道如何找到我所需要的信息,所以搜索引擎是一个很关键的技术。例如:从搜索引擎――向推荐引擎转变。今天,后搜索引擎时代已经正式来到,什么叫做后搜索引擎时代呢?使用搜索引擎的频率会大大降低,使用的时长也会大大的缩短,为什么使用搜索引擎的频率在下降?时长在下降?原因是推荐引擎的诞生。就是说从人找信息到信息找人越来越成为了一个趋势,推荐引擎就是说它很懂我,知道我要知道的东西。例如,我们结合12306网站数据及实名制购票资料,对出行旅客的个人信息、出行线路、出行时间周期进行的统计分析,同时借助互联网大数据预报人员迁徙情况,最后完全勾勒出旅客的需求,使铁路可以充分了解每一位旅客,实时的知道他们旅行目的地,以及出发时间及需要的服务层次,有针对性地推送一些旅游服务、餐饮、住宿、景观等方面的产品,使得营销工作更加精准,营销效率也更高。
5 大数据思维带来的挑战
大数据的发展速度有目共睹,想要在竞争社会中走的更远,人人都需要建立大数据思维。那么在建立大数据思维中,有哪些挑战呢?
第一,大数据应用和商业回报间的矛盾。未来的大数据应用一定是可定制的、可在云上打包的服务,即将业务、数据、分析能力多面定制,一起打包。企业需要可快速部署和有明确投资回报率的应用,这涉及到数据的质量和丰富度及业务人员对数据的依赖度。这需要企业内各个部门的有效协作,并规避无法确定的风险,比如分析结果的不确定性,业务场景的复杂性,人员的能力缺失等。传统手段,比如通过社交媒体、邮件、网络文本等获得的数据量非常庞大,但解破这些数据的关系和价值却给企业带来巨大挑战。企业希望成为数据的主人,但在辨析数据的有效性、能带来哪些商业回报,以及如何帮助决策等方面却缺乏有效工具。
第二,海量数据与核心数据间的矛盾。要做大数据,首先要了解自己的企业,或者企业所在的行业的核心是什么。我们发现,有很多企业在竞争过程中,最终不是被现有竞争对手打败,而是被很多潜在未知的竞争对手打败的。举例来说,大部分人都认为亚马逊是做电商的,但其实亚马逊现在最主要的收入来自云服务,也就意味着亚马逊的核心数据(价值)是云服务。只有在此基础上,亚马逊建立的大数据才是有效的、服务于战略的。
第三,内部数据与数据间的矛盾。企业所获取的数据,很大一部分是内部数据,这让企业面对另一个挑战,如何让内部数据与相关数据产生联系并使之成长。只有让内外部数据的交融在用户场景中,才能为业务用户描绘更精准的业务发展空间。
第四,规律发现和规律失效间的矛盾。调研显示,从大数据应用总结出的规律来看,建立失效预警是特别必要的。当企业通过大数据分析发现一个规律,并在现实中应用时,必须要设立一些预警指标。当指标达到一定程度,既表明之前发现的规律已经失效,必须发现新的规律、建立新相关指标,这称为数据价值的有效性。没有根据实际应用场景的变化而及时更新的数据,挖掘得再多都是无谓的浪费,熟练应用失效预警,企业才能培养起团队对数据真实有效的敏感性。
6 结语
大数据思维把人们从旧的发展观、价值观中解放出来,复杂技术的涌现和科技进步促使人们开始从大数据思维视角重新审视世界,从而获取正确理解世界的角度性工具。大数据思维是客观存在,大数据思维是新的思维观。用大数据思维方式思考问题,解决问题是当下企业潮流。中国铁路正处于加快转变发展方式的新形势下,为了适应市场化经营要求,构建铁路运输企业的核心竞争力,提升铁路的持续发展能力和盈利能力,应用大数据思维去推动铁路创新发展具有极其重要的现实意义。
参考文献:
[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域――大数据的研究现状与科学思考[J].中国科学院院刊.2012(06)
[2]孟小峰,慈祥.大数据管理: 概念、技术与挑战[J].计算机研究与发展,2013,50(1)
[3]王卫东,徐贵红,刘金朝,张文轩,邢小琴.铁路基础设施大数据的应用与发展[J].2015(05)
[4]维克托・舍恩伯格,肯尼斯・库克耶.大数据时代[M].杭州:浙江人民出版社,2013.
[5]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报. 2013(06)
[6]刘婷,徐寰春.浅析大数据时代背景下智慧城市规划[J].智能城市.2016(09)
[7]李艺杰.浅谈大数据时代数据信息现状及发展[J].中国新技术新产品. 2014(15)
[8]冯永强,张良,冯怡,朱尚杰.大数据应用的现状与展望[J].信息化建设. 2015(12)
[9]张保国.浅议大数据在公交经营管理中的应用[J].城市公共交通.2016(03)
[10]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报(自然科学版).2014(05)
[11]邬贺铨.大数据时代的机遇与挑战[J].求是.2013(04)
[12]王浩,张怡.大数据时代下人类思维方式变革的趋势[J]. 新西部(理论版). 2015(02)
[13]张康之,张桐.大数据中的思维与社会变革要求[J]. 理论探索. 2015(05)
【关键词】大数据时代,地理信息系统,应用
前言
从目前的实际角度来说,大数据时代下的地理信息系统的应用研究已经成为了当代地理学术方面重要的研究应用,下面我们就对大数据下的地理信息系统的应用进行分析和简述。
一、大数据对地理信息系统发展的重要性。
在目前社会经济、科技不断的发展的大环境下,大数据时代已经悄然到来,从某种意义上来说,地理信息的测绘部门和相应的技术在某方面来说受到了重大的影响和挑战,如果我们可以合理的对大数据技术进行应用,那么我们就可以起到一个推进器的作用,从而推动地理测绘信息部分和机构的发展,但同时,我们要注意一点,从目前阶段我国的测绘地理信息机构已经开始重视大数据技术,并且已经在这个基础上进行了地区检测,如果地理信息系统部分和机构可以在工作中加入大数据几乎,那么大数据会让地理信息部门和机构的工作变得更加便捷。大数据技术让地理信息行业发生了天翻地覆的变化,一方面,许多专业和学者都希望在大数据技术的环境下对地理信息系统中施展拳脚。另一方面,大数据有效的促进了企业的发展和变革,最后。大数据时代下,他的商业价值无法估量他的潜力无疑是巨大的,我们应该进行具体的探究和思考,然后完成一系列的转型,让技术和管理之间联系密切,把握住商机,获得足够的发展空间,为地理信息行业取得良好发展做出一定程度上的探路。
二、大数据背景下地理信息系统所要接受的挑战。
(一)地理空间数据为什么一直在持续的增加?因为从目前来看,我国的地理空间数据处理在速度方面在不断的增加,在这个不断加快的过程中,地理空间数据的结构化特点就会凸显出来,所以这个情况我们要及时的针对好,利用地理空间数据整体的特点,来进行大数据空间存取技术的大范围普及和使用,经过我们反复的实践和分析下,可以得出一个结论,那就是当前地理信息系统在目前的大数据技术时代下面临着严峻的挑战,其中最大的问题是在于是否我们可以有效的实现数据信息空想以至我们可以完成大数据文件管理和大数据文件的保护,同时可以在面对众多文件和重复数据的情况下,进行科学有效的整理,保证自身的效率和存储质量。
(二)我们还有一个数据整理的问题要进行分析,众所周知,大量的地理信息,地理信息心痛可以系统的进行数据信息或者别的途径来进行信息上的获取,但是目前传统的组织方法和处理方法等不能适应现在的大数据结技术的走向,在这样的背景下,我们要最大限度的提高自身的基础性数据的效率,我们要最大程度的进行有效的提升基础性数据更新效率能力,从而有效的满足用户需求,从而逐渐在这个大时代背景下被人们所重视。
三、大数据在地理信息系统的应用分析
(一)首先大数据在地理信息系统的应用,完美的提高了地理信息系统的高效存储能力,随着目前科技的飞速发展下,计算机的硬件设备已经呈现出了颓势,已经不能和以往相比了,对于计算机的存储也已经变的更加的简单,特别要注意的是,计算机标配硬盘的容量一般都符合原定的标准要求,单体磁盘的服务器标准容量可以达到30TB,但是在客观世界的影响下,我们通常所说的地理信息系统经常在应急保障方面和实时导航上已经获得了社会等广泛的应用所以这就要求了数据的存储量变得越来越高,相反,如果储存量越来越低,那么地理信息系统会受到打击,所以这样说来数据库就要多个类型的数据支持和结构化的数据支持才行。
(二)在大数据的时代背景下,我们要进行数据库的扩展和升级,因为从目前来看,大数据背景下基础性的数据量已经发展的速度越来越快,如果不升级就导致了无法进行信息的及时更新容纳。从目前来看,F阶段的数据库使用,关系类型的数据库比较常用而且硬件的升级也是十分重要,他在一定程度上,有利于数据库进行采分割扩展和非规范扩展等。升级硬件设备会花费大量的资金,同时,数据库的服务器性能和容量提升的空间也很小,而数据库分割不适合非结构化数据,我们要进行进一步的程序修改,这就导致了程序和模型的独立性受到了破坏,然而非规范化的处理,可以增加大量冗余的同时来实现一致性的难度大幅度增加,由此可见,我们必须要争地理信息系统的数据库进行水平发展,才能保证他有足够的伸缩性和扩展性。
四、结语
地理信息系统的工作是大量存取数据等任务,随着目前我国的科技在不断的发展和生活水平不断提高的大前提下,我们应该对地理信息系统进行重视,众所周知,大数据是地理信息系统中最重要的组成部分,(其内容为遥感技术、地理信息采集等)所以在大数据的前提背景下,地理信息系统的未来有着广阔的前景,在未来的发展中地理信息系统会出现质的飞跃。
参考文献:
[1] 钟耳顺,杨福慧. 地理信息数据化 开创GIS辉煌时代――访中国科学院地理信息研究所专家、北京超图地理信息技术有限公司董事长[J]. 中国新技术新产品精选,2007,(05):5-6.
[2] 陈戈,方朝阳,乔新,李海涛,张彩云,陈勇,韩冬. 一个基于卫星遥感数据的海洋大气地理信息系统平台软件――MAGIS [J]. 中国海洋大学学报(自然科学版),2004,(09):31-32.
[3] 高盼. 立得空间:从行业"拓荒"到引领地理信息大数据时代――专访立得空间董事长兼总裁郭晟[J]. 中国信息界,20164,(07):25-26.
关键词:大数据;学校学生成绩管理;成绩数据分析
中图分类号:G632 文献标识码:B 文章编号:1002-7661(2015)09-224-03
有人在葡萄酒酿造出之前就能知道其品质的好坏;
有人在购买机票之前就能知道机票价格的涨跌范围……
他们是怎么知道的?
相亲网站知道什么样的人适合做你的人生伴侣;
谷歌、百度可以根据你的搜索把你最想看到的东西排在最前面……
他们是怎么做到的?
这就是“大数据”给我们展示的神奇时代。就连奥巴马大选成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模深入的数据挖掘,通过分析选民的意向,知道哪些是铁杆粉丝,哪些能成为铁杆粉丝,哪些即使花了时间和精力也不能转换阵营的。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在各项领域,大数据的时代已经到来。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,他称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。首先,大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维。第二,大数据改变了我们的生产方式,物质产品的生产退居次位,信息产品的加工将成为主要的生产活动。第三,大数据改变了我们的生活方式,我们的精神世界和物质世界都将构建在大数据之上。大数据不仅仅是一门技术,更是一种全新的商业模式,它与云计算共同构成了下一代经济的生态系统――一切皆信息。
作为数学专业出身的我校校长徐小祥,天生对数据有强烈的敏感性。在他的学校管理中,对学生成绩充分利用了数据的处理分析功能,并以此数据作为学生趋势发展的指挥棒和教师考核的依据。对于学生成绩数据我校主要进行了以下分析应用:
一、本校基本成绩分析应用
每次检测后,各班各学科任课教师将学生成绩输入进校园网成绩管理系统。系统自动完成以下功能。
1、班级各学科平均分。
2、学科班级优秀率(单科全校前160名且总分全校前240)。例如:
3、学校班级总分段:每个班总分各分数段人数统计
4、班级单科分数段。例如:
5、历次考试全校各班前160、180、200名人数对比。例如:
6、全校前160名成绩册
7、全校各班成绩册
通过以上分析了解本校各班各科的教学情况,通过人数的对比了解整个初中阶段的变化。横向纵向的分析使全校师生都有一个清晰的认识。
二、校间对比成绩分析应用
1、总分分数段对比
2、各科分数段、平均分对比
3、校合并总分前20名学生名单
4、“全校有效分人数”和“入围有效分人数”的计算
(1)合并后前360名各科有效分
大体上看,共有六步骤:
第一步:确定“总分有效分”(录取分)。就是根据市高中上年的录取人数,确定本次考试的达线分,此分即为总分有效分。比如上一年市高中统招录取为360人,就以第360名学生的总分为分数线,假设第360名学生总分为504分,504分即为本次考试的总分有效分。
第二步:计算“总分平均分”和各科平均分。将前360名学生的总分平均分计算出来,数值为536.4分;前360名学生各科平均分语文为91.2,数学为103.4,英语为110.5,物理为80.9,化学为82.2,政治为16.0,历史为52.2。
第三步:计算“差距值”。 差距值就是第一步和第二步的差,将536.4减去504,差距值为32.4。
第四步:计算“权重”。 权重和是各门学科在考试中所占的分值百分点之和。如物化是100分的话,学科权重都为1;语数外是120分的话,权重都为1.2;其它学科类推。以九年级为例,语数外各120分,物化各100分,政治20分,历史60分,按次序权重计算公式为权重和=1.2+1.2+1.2+1+1+0.2+0.6,九年级考试的权重和为6.4。
第五步:计算各科“权重比”。利用各科所占权重比例,比如语文学科
权重比例=1.2/6.4,以下简称比例,利用第三步的计算结果,计算出权重比=差距*比例 ,按照上面的计算结果,语文权重比为32.4*1.2/6.4=6.1。
第六步:计算“各科有效分”。各科有效分=各科平均分-权重比,假设语文平均分为91.2分,那么语文学科本次考试的有效分为91.2分减去6.1,结果为85.1分。
综合以上,前面的两步是针对总分来计算的,为后面的分科计算,综合权重比后折射到各学科打下基础,第四第五步是考虑各科权重,然后结合第三步的差距,得到学科权重比,各科平均分与它相减就是“各科有效分”。它是本主题最重要的数据。
有了各学科有效分,考核表中的“全校有效分人数”和“入围有效分人数”的得出就水到渠成了――以上面语文学科结果85.1分为例,“全校有效分人数”是指全校各班语文在85.1分以上人数,“入围有效分人数”是指全市录取的360名学生中本校各班语文在85.1分以上的人数。
比率1=校内有效人/考试人数
比率2=360有效人/入围人数
(2)两校合并后各班在有效分以上的人数
(3)两校合并后前360名各科在有效分总人数与他校对比
(4)现九年级历次考试前160、180、200、220名人数变化表
通过以上分析,了解本校与兄弟学校的差距,有重点有计划地对薄弱环节进行强化训练。
三、进一步分析平均分和优秀人数,对教师进行考核
1、平均分模拟考核:对各学科各班的平均分考核。例如:
说明:
(1)入学平均分或接班平均分:初一进校时候的平均分。若是中途接班,则按照上次考试的平均分计算。例如有的老师是从八年级开始接班的,那么就按照七年级期末考试的平均分计算。
(2)起点差距:考核差距=班级均分-年级均分-起点差距;成绩平均分的考核:如果低于或高于校平均分3分内(含3分)不加也不减,如果高于3分以上或低于3分以下则分别有1分加考绩分4分或扣考绩分4分(如接班时平均分与校平均分悬殊4分以上加上接班时的悬殊分考核);教两个平行班如果悬殊1-3分(含3分)不扣分,如果悬殊分4分以上则有1分扣2分(如接班时两个班悬殊4分以上减去接班时的悬殊分考核,两班均高于平均分则不扣分);如跨头教两个班则各折1/2计算.常识科目原始考核入学平均分按照八年级期末考试语数外物各班的平均值计入。
例如:对三班四班的平均分考核。
第一步:算出考核分差距。三班本次考试平均分为84.76,和年级均分的差距84.79减去79.994约等于4.8。考虑到起点差距,将4.8减去1.1得到3.7,四舍五入最终得到考核差距为4分,高于3分以上,同理得到四班的考核差距为5分。
第二步:算出平行班差距。若只教一个班则不需要计算。三班四班为同一个老师所教,所以要考虑平行班差距为84.76减去83.15得到2,悬殊没有到达4分,不加也不减。
第三步:算出跨班考核分。由第一步和第二步得出的数据,计算(4(三班考核分差距)-3)*4+(5(四班考核分差距)-3)*4=12,12除以2(教两个平行班除以2,三个平行班除以3,以此类推)得6,因平行班平均分差距为2,无加减,所以,最终平均分模拟考核分为50(基础分)加6得到56分。
2、优秀率模拟考核:由前面所算出的各班优秀入围人数,对各学科各班优秀率考核。例如:
仍旧以三班、四班为例:
第一步:算出三班的考核分数。三班单科前160名总分在全校前240名的语文人数为9个,本次考试实际入围人数为17,17减去9得到8,每多一人加4分,8乘以4得到32分。有时候老师中途接班就得按照当时接班的时候基数计算。例如五班的老师是初三刚接的班,那么他的基数就是此班在八年级期末考试时单科前160名总分在全校前240名的语文人数,即为5人,所以五班的变化人数是9(实际入围人数)减去5(接班基础)得到4人。
第二步:同理算出四班的考核分数为44.
第三步:跨班考核。32加上44除以2得到38分,38加上基础分50得到88分。即老师的最终优秀率模拟考核分。
通过以上的数据,平均分模拟考核对老师的整体教学效果达到一定的评价,对各门功课的任课教师都有一定的促进作用;优秀率模拟考核充分了解班级有效学生,有的学生偏科很重的,通过此数据就知道哪些学生需要强化哪门功课。使各科任教师的教学有针对性,不放弃任何一个有潜力的学生。此两项数据也是教师最终年终考核参考的重要依据,无形中让老师认识到工作重点。
四、学生的追踪分析应用
例如:前360名学生在各次检测中的情况,对其分析;或某次考试进入全校前240名的学生,在以前各次检测中的表现,关注其以后的表现,发现其潜力等等。
通过以上等等一系列的对成绩数据分析,针对每项数据的结果,我校都有下一步举措与方针。虽然实行了招生划片的政策,在同等生源的情况下,我校的教学实绩成绩斐然。在中考之前,徐校长会根据数据分析的结果制定每个班级的进入重点高级中学的人数,这样的预测相当准确。当然在数据处理过程中我们遵循数据运用的道德:1、保护个人隐私;2、教师若出现所知数据的泄漏将追究其责任。
数据存在不能为我们所用,那我们将会沦为数据的奴隶;运用得当我们将处于各行各业的巅峰。数据在各行各业所表现出来的价值和意义正被大众所认识和运用,作为一个大数据时代下的教师,希望通过本文对我们的教育事业尽一些绵薄之力。
参考文献:
关键词:大数据;智能变电站;设备性能;可视化
目前智能变电站已提出全面支撑调控一体助力电网发展方式转变,但是在大数据时代下,客户的能源消耗情况无所遁形。传统的变电站故障信息统计一般是通过打印保护装置动作报告、查看故障录波器录波进行分析,过程繁琐,时间较长。而今智能告警及故障信息综合分析决策技术,已可以妥善处理故障事件顺序记录信号及保护装置故障录波等各种数据,可是很多企业对新一代智能变电站的建设工作没有给予足够的重视,例如投资总额和生命周期。鉴于此,提出依据运营设备的信息采集,提出对各信息模块信息进行数据挖掘,结合专业综合分析筛选定位将设备安全隐患多元化归类,并将分析结果以简洁明了的可视化界面综合展示,进而使得变电站产品运营高质、高效、低风险。
1.智能变电站设备可视化整体应用方案如下图所示:
[报文采集、记录模块] [报文监测、解析模块] [高精度时钟模块] [故障录波模块] [故障波形存储] [数据清理] [分析快] [报文存储][数据集成] [数据变换] [数据归类] [XML文档] [SVG图像] [可视化图像展示] [XSP
技术]
2.智能变电站设备运营模块的数据信息采集结构图如下所示:
[报文采集、记录模块] [报文监测、解析模块] [高精度时钟模块] [故障录波模块] [故障波形存储] [数据清理] [分析快] [报文存储][数据集成] [数据变换] [数据归类]
设备运营模块的数据信息采集结构图
报文采集、记录模块主要负责报文信息的接收、读取并实时性记录当前时标,同时查看从站上发出的遥测、遥信、电量等数据,并记录遥测、遥信报警信号,对报文错误、重复等进行实时预警。
报文监测、解析模块主要负责记录各种信息的交互及其过程,然后能对各个模块的信息进行监测和对状态进行评估,根据监测的信息确定报文有无出现异常现象,解析报文传送的正确性、规约一致性。
故障录波模块主要负责系统发生故障时自动地、准确地记录故障前、后过程的各种电气量的变化情况,通过对这些电气量的分析、比较、对分析处理事故、判断保护是否正确,通过对故障录波图的分析,找出事故原因,分析继电保护装置的动作作为,对故障性质及概率进行科学的统计分析,统计分析系统振荡时的有关参数,为保障变电站正常安全运行提供了一定的预防作用。
3.数据采集信息转化成图像架构图如下所示:
[XML文档][XSP技术][SVG图像][可视化图
像展示]
数据采集信息转化成图像架构图
XML语言即可扩展标记语言。相对于其他几类语言来说,它的灵活性、高效性、可扩展性更为明显。XML可以提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据,不仅能够描述各种应用软件的数据,还可用于在许多不同平台和应用程序之间交换数据,由于变电站系统内数据较多,一般都是以数据库作为整体进行读取,鉴于此,需将数据通过变换、清理、集成、归类等数据挖掘技术进行解析并利用工具生成XML格式的数据库。
XSP技术即可扩展服务器页面。使用这项技术解决设备性能可视化的好处在于它是基于XML语言二开发的一种开放标准的矢量图形语言,扩展性强,分辨率高,能够轻松地描绘出复杂的图像,同时尺寸小,可压缩性更强,可实现静态内容、动态逻辑、表现形式的分离。
SVG图像即可缩放的矢量图形。SVG提供了三种类型的图形对象:矢量图形、图像、文本。由于图形对象可进行分组、添加样式、变换、组合等操作,因此,较易更改或复用,不同平台之间都可以使用。
由于XSP和SVG图像都是基于XML文档格式的,所以二者可以有机地结合起来,将XML文档数据转换为SVG图像,从而直观地展示了设备运营情况。
本文针对智能变电站设备运营提出的可视化解决方案,对了解、掌握设备的正常运行和故障状态下的快速性、灵活性、安全性有重要意义,有助于提高变电站整体的安全运行水平和生命周期,同时解决方案易于实施,可广泛推广,是企业未来精益发展的一个趋势。
参考文献:
[1]张荣祖,朱扬勇.一个可视化数据挖掘系统中的数据预处理技术[C].第二十届全国数据库学术会议论文集:技术报告篇, 2003.