前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇统计数据分析范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
【关键词】统计数据;分析方法;市场调研;判别分析
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。
参考文献
[1]温美琴.统计分析方法在我国政府绩效审计中的应用[J].统计与决策.2006(23)
关键词:大数据时代;统计创新能力
数据爆炸具三维特点,所谓三维多指除数据量迅速增多外,还指数据多样性以及数据资源的增长速度不断加快。从数据发展到大数据即是数据质量的飞跃更是量的积累,大数据能条理清晰的把不同形式、不同来源以及不同信息的诸多数据进行分析、整合,把先前孤立的部分数据互通互联,全面客观地诠释某个现象、某个事物的具体细节与整体情况,这是小数据时代难以比拟的新兴知识。大数据属于非竞争性资源,具重复使用以及不断产生新资源的优势,所以大数据在各个领域可创造新兴的重要价值。
一、大数据成为政府统计新趋势
大数据的时代,政府合理运用大数据,已从粗放型转变为集约型。部分发达国家在政府统计与大数据结合方面位于前列,在美国政府所提出的大数据发展计划与研究中,通过HPSS系统对数据流的即刻分析、可扩展性分析技术与数据缩减技术,对海量数据进行的分析处理,可提高能耗预警能力以及扩展能源统计领域。国家统计局已与阿里巴巴(中国)有限公司、山东卓创资讯集团有限公司等十几家企业签订了大数据战略合作框架协议,共同推进大数据在政府统计中的应用,不断增强政府统计的科学性和及时性。
二、大数据背景下统计创新能力的重要性
大部人认为大数据时代全体等同于样本,得到的数据是全数据而不是抽样性数据,因此进行简单的结算即可,无需系统地进行统计分析。事实上这种观点较为片面,因为大数据仅告知信息并不解释相应的信息内容,研究大数据时若无全面的科学数据指导,如同建造桥梁时不使用工程科学知识,继而造成严重后果和不良影响。随着万千事物的变化,全数据的不确定性较大,所以统计性数据分析是大数据迈向应用的关键点。
三、政府统计主导设立地域性数据中心
(一)政府统计主导,确保数据的准确性
政府相关统计部门应坚持设立县域公共性数据中心主导地位,以提高数据的收集效率与权威性,保证数据真实而全面。例如数据青岛是由青岛市的统计局完全主导创建的数据中心,在数据青岛的基础层次上向县域性社会经济发展延伸到即墨市 “综合性数据信息平台”,该信息平台是由当地政府主导设立的数据中心,扩大数据信息覆盖层面的根本上,确保数据的准确性与权威性。
(二)一盘棋管理,确保数据质量
将“一表”“一库”和公共性数据中心进行数据互动,将数据维护基点进行细化,并分块管理数据,使源头数据的质量逐渐提高。从实践分析,由政府主导的相关数据中心需将基层建设完全落实到功能区统计、园区统计以及镇街统计,以网格化的管理提高数据中心的数据质量,避免数出无源、数出无据以及数出无门,以此提高统筹效率与数据采集效率。
(三)多方面进行合作,提高数据的全面性
开展与科研院所以及高校等部门数据中心的端口开放和合作,有选择性地与相关领域、相关行业以及相关县市数据中心实行数据互交,为数据研究提供全面客观的对比性依据。我国部分发达城市创建的大数据中心可将某些数据端口与研究所合作共同分享资源,即能借助研究所较为专业的数据资源丰富政府数据统计分析方法,又能弥补收集政府统计数据的不足。
(四)丰富公共服务中心数据的分类方式
可将财务报表、行政记录等初级统计资料和次级统计资料归纳至数据中心系统中,使信息检索功能得到强化,筛选并应用可用信息,提高数据真实性,数据服务形式逐渐丰富。
四、创建数据分析工具以及统计数据模式
对经济发展秩序的系统分析主要依赖于数据挖掘,现今数据已被更多的人认识,在生活、工作等各个方面的应用具重要价值,若依靠横向数据排名以及历史数据增长很难全面客观地显示出问题本质。科学合理的统计数据模式是探寻发展规律、探析数据的最重要手段。例如分析劳动工资数据时,应用明塞尔资本收益化函数或是C~D生产性函数分析数据,可得出地区不同的劳动力素养以及劳动生产几率对生产值的贡献力度,为劳动力部分政策提供参考依据。
(一)设立适宜各专业应用的数据分析模式
政府统计具较高的专业性,不同专业、不同领域创建的数据分析模式均不相同,通过数学模型筛选,创建专业化的数据分析模式,从不同时期、不同角度以及不同层面对专业化数据进行空间序列与时间序列的探析,非线性和线性回归参数检验与估计作用,达到对数据高质量、多角度的细致分析。就像应用欧氏距离检测典型结构与产业化内部结构的相似度,能够较为精准地展示产业结构的演变层次与发展水平,对产业化的结构层次具定量化评估。
(二)配套创建数据分析软件库
给予海量大数据高速计算是应用数据探析模式的一大特点,高速计算远超出人力计算范围,需采取相关分析软件辅助计算。使用C~D生产函数分析数据时需用到Eviews软件运算大数据。部分地区在实践中发现,数据分析软件的需求多表现为两个方面,一方面分析数据时常需要相关分析软件辅助计算,方可得到满意的分析成果;另一方面,相关数据分析软件的使用和获取存在一定难度,有些数据软件对硬件设备具较高要求,而且运算量极大,部分分析软件需在外文的指导下方可使用。所以应创建适宜各专业应用的数据探析软件库,为数据统计分析提供操作与技术支持。
五、多渠道深入递进数据
数据质量与数据时效性是数据统计分析的关键。随着社会经济的发展,数据每时每刻都在变化,行业风险、国际竞争以及相关政策出台对有些经济数据具一定影响。
(一)政策的跟进
尤其涉及新能源、战略性新兴产业、高新技术以及出口方面产业,地方与国家政府政策对企业经营发展具很大影响。政策跟进过程中需实时管理信息公布平台,与部分主要门户网站合作创建信息交互体制,以便企业能够及时通晓政府的各类信息,把握产业相关政策动态。例如我国太阳能方面的光伏产业属于重点扶持产业,每年能够得到国家部分产业补贴,所以分析产业发展数据时需将产业补贴计算在内,否则容易对产业未来前景做出乐观估计。
(二)跟进企业发展
企业发展的受制因素较多,金融成本、商业风险以及经营策略对数据时效性具较大影响,对于部分县域政府统计,企业的发展数据跟进需要走进企业实地考察,以便掌握企业发展面临的困难与优势。同时还要通过社会考察了解企业信用、用工方面等诸多问题,预估数据的发展趋势,以此充分补充企业发展的数据分析内容。
(三)跟进产业环境
产业的服务机构、进出口以及地域等环境对企业经济发展具有影响,进而对需要进行分析的企业相关数据产生较大影响。想要跟进产业环境可通过相关信息渠道通晓国内产业发展与进出口环境现状,大致了解行业发展状态。同时还可深入研究企业园区等为企业在条件放宽、证件审核、进出口以及税收等方面提供各种优惠举措。
六、结束语
随着科技的进步与经济的发展,大数据时代逐渐融入到工作与生活当中。大数据时代的来临可称之为数字化革命,海量的数据资源致使政府、商界以及学术界开始迈入量化进程,为教育卫生、经济发展等社会方方面面的统计工作带来创新与机遇。
参考文献:
[1]飞.大数据时代工业统计创新能力的分析与研究[J].财经界,2015(19).
[2]王晨曦.大数据时代创新统计数据分析方式的思考[J].中国统计,2015(13).
[3]朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究,2014(03).
[4]王彦彭.大数据时代中西部二三本高校统计学专业教育教学的思考[J].教育教学论坛,2015(43).
【关键词】统计;数据分析观念;收集;整理;分析
《数学课程标准(2011年版)》把数据分析观念作为十大核心概念之一,可见其在小学数学教学中的重要地位.可以说,培养数据分析观念是统计教学的出发点和归宿.怎样培养学生的分析观念呢?笔者认为,在统计教学中,我们要让学生经历收集、整理、描述和分析数据的过程,掌握统计的特点和方法,提高数据分析能力,形成统计意识.下面以苏教版五年级上册“复式统计表”的教学谈谈我的教学实践与思考.
一、经历对比过程,增强统计意识
赞可夫说:“教学法一旦触及学生的情绪和意志,触及学生的心理需求,这种教学法就能发挥高度有效的作用.”在课堂教学的实施过程中,采用“对比”的教学方法,能有效触及学生心理需求,使得原本枯燥的学习内容更具吸引力.如,“复式统计表”(以下简称“本课”)的教学中,我设计了前后两次抢答,让学生在强烈的对比冲突中获得体验,充分体会复式统计表的优越性.
课一开始,教师引导学生用四张单式统计表整理“青云小学五年级同学参加乐器兴趣小组的人数情况”,然后,设计了三道抢答题:(1)哪个兴趣小组的男生人数最多?(2)哪个兴趣小组的女生人数最多?(3)四个兴趣小组的男生人数多还是女生人数多?回答前2个问题时,学生通过对比观察四张单式统计表还能及时找到答案.但是回答第3个问题时明显产生困难,大部分学生一时之间无法回答,发现有些问题从单式统计表中是无法直接找到答案的,从而产生合并四张单式统计表的需求.当通过学生自主研究,合并成一张复式统计表后,教师又组织了一次抢答,还是同样的3个问题,这时学生的速度和准确率明显提高了,特别是第3个问题,大部分学生都能很快回答.
通过前后两次抢答的“对比”经历,学生感受到复式统计表能够看到更多的数据,了解到更多的信息,提出更多的问题,引起更多的思考……前后鲜明对比,复式统计表的优势显而易见,从而帮助学生深刻体会到复式统计表相对于单式统计表的优越性.此外,学生对复式统计表的特点也有了更充分的认识,为后续观察、分析数据奠定知识基础,使学生能主动、多角度地观察分析复式统计表,增强了统计意识.
二、经历整理过程,掌握统计方法
掌握复式统计表的结构特点和填写方法是“复式统计表”的教学重点之一,是学生有效整理数据的重要方法.教材直接引导学生将单式统计表中的数据填入复式统计表中,虽然在填表过程中学生能掌握填表方法,但对复式统计表的栏目含义和结构特点理解并不深刻,不易于知识的建构.为此,教学中我们改变教材“静态”的呈现方式,让学生“动态”地经历由四张单式统计表合并、优化成一张复式统计表的过程,进而掌握复式统计表的结构特点.
本课教学中,当学生指出“为了更一目了然地比较数据”,要合并四张单式统计表时,教师让学生尝试合并,然后思考:这样合并有哪些可以改M的地方?学生通过讨论、交流、反馈发现:(1)可以去除“重复的文字”;(2)可以改进纵栏的“小组名称”;(3)可以改进“表头”;(4)还可以加入“总计”栏;(5)添上“名称和制表时间”,这样就形成一张完整的复式统计表.如下图所示.
学生兴趣盎然地经历复式统计表的“形成”过程中,通过一系列问题的讨论、展开、解决,既体现了一定的逻辑关联,又有效化解了学生的认知过程中的难点,明确复式统计表的结构特点;既掌握了复式统计表的结构特点,又体会了栏目设置的科学性和合理性,从而更好地观察分析数据,掌握统计方法.
三、经历收集过程,感悟数据价值
“了解在现实生活中,有许多问题应当先做调查研究,搜集数据,通过分析做出判断,体会数据中蕴含着信息.”――这是《数学课程标准(2011年版)》中关于“数据分析观念”的描述.为此,教学时要让学生基于问题的需要进行调查,经历数据的收集、整理和分析的过程,使学生真切地感受到:开展调查是为了解决问题,调查的结果能帮助我们解决问题,体会调查的作用,了解并掌握一些常用的调查方法,进而体会统计数据的意义和价值,培养学生的统计意识.
本课教学中,在学生初步学会用复式统计表整理和分析数据后,将教材中“练一练”的“调查学生对四种乐器喜好”改为更贴近学生生活实际的“体育老师拟定的四项大课间活动――跳长绳、踢毽子、打羽毛球和滚铁环”,设计学生感兴趣的话题――想了解“男、女同学对四个大课间活动的喜好有什么区别吗?”学生讨论发现,要解决这个问题必须先进行调查;在学生有了调查的需求后,接着引导讨论“如何调查”的问题.学生各抒己见,教师适时总结调查方法;再组织全班调查,主动用复式统计表整理数据,从而达到解决问题的目的.然而关于调查并没结束于此,教师继续引导学生思考:“如果体育老师要决定五年级的大课间活动,会如何调查?全校的呢?”学生在交流中发现像“了解全校同学的运动喜好”这样的大数据调查,可以采用抽样调查,对调查的手段和方法又有了更进一步的认识,数学活动经验也更加丰富.
学生在这样的学习过程中,通过调查获得有关数据,经历收集与整理数据、呈现与表达数据、分析与利用数据的全过程,感受到“调查”的力量,知道以数据为载体的统计活动是解决实际问题的需要,体会“只有用数据说话才能有理有据”的统计思想.
四、经历分析过程,提升分析能力
数据分析是统计的核心.积累数据分析经验、培养学生的数据分析能力应该贯穿于统计教学的全过程,这个教学过程要让学生体会数据的作用,了解数据背后的信息,知道运用数据可以做什么,对生活有什么指导意义.
比如,本课中学生调查并完成如下统计表:
五年级(7)班同学想参加的课间活动情况统计表
2016年12月
1合计1跳长绳1踢毽子1打羽毛球1滚铁环总计1531191412218男生126141111516女生127115131712出示问题:(1)男、女生对这些活动的喜好有什么区别?(2)如果你是体育老师,看到这张统计表,你会怎么想?
生1:喜欢打羽毛球和跳长绳的人数最多,可以组织这两项大课间活动.
生2:体育老师要多准备羽毛球拍和长绳,毽子可以少准备些.
生3:男生可以多组织打羽毛球,女生多组织跳长绳.
生4:还有两名同学都不喜欢这四个项目,因为全班有55人,而合计只有53人.
又如,让学生分析如下统计表:
实验小学各年级(每100人)近视人数统计表
(部分年级)2016年11月
1合计1男生1女生总计198157141三年级12211319四年级131116115五年级145128117师:观察表中的数据你想到什么?
生1:男生近视的总人数都比女生多.
生2:每个年级近视人数也是男生多于女生.
生3:近视人数五年级最多,年级越高近视人数也越多.
师(追问):大胆猜测,六年级每100人中近视人数可能是多少人?(出示六年级的真实情况)
再次观察统计表你有什么话说?
生1:要保护眼睛,可能到初中近视的人数会更多.
生2:平常要注意科学用眼.
生3:可能是现在学生经常使用手机,使得近视人数越来越多.
我们可以看到,学生在这样的分析过程中,不仅能看到眼前的数据信息,还能对数据进行思考,做出简单的判断和推理,挖掘到数据背后的信息,充分体会了数据蕴含的丰富信息,学会了多角度分析数据,感受数据对生活的指导意义和预测作用,获得数据的描述和分析经验,使得统计意识不断得到培养和提升.
总之,数学教学中要引导学生多层次地经历数学学习活动,增强学生的统计意识,掌握统计的方法,感悟数据的价值,提高数据分析的水平,从而有效地培养学生的数据分析观念,提升学生的数学核心素养.
【参考文献】
关键词:大数据;政府日常管理;统计改革
0 前言
网络大数据时代的到来,意味着我国现有信息生产力的水平将会有阶段性的突破和提高,大数据不是简单的海量数据的堆砌,而是包括文本文字、视频、音频以及各种零散化、非结构化信息的融合的统称,通过各种各样的渠道来搜集大量的信息,针对这些信息采用大数据的分析方式。从海量数据中挖掘出更丰富更精准的信息应用到生产实践中,而政府日常工作过程中会处理社会各界大量的信息数据,因此,政府统计分析与"大数据"技术的结合,也是时展的必然趋势。
1 政府统计所面临的挑战
多年以来,传统的政府统计部门一直秉承"为国民经济发展保驾护航"的原则,而勤勤恳恳的进行工作,且在很大程度上取得了辉煌的成绩,从全国人口普查、到四大工程建设,再到GDP数据统计分析、经济普查等都有政府统计部门辛勤劳作的背影。这样在很大程度上保障了我国现代化建设在高速发展的同时,也能够有经验可依、有数据可分析,避免了盲目发展可能带来的各种严重后果。利用对原有数据的统计分析,改善现今工作,提高工作效率。但随着社会的快速发展,政府统计工作所面临的挑战也越来越多,具体如下:
(1)对政府统计原有工作方式的巨大冲击
传统的统计工作方式与现代社会的发展需要越来越显得格格不入,各种工作模式、工作方法上的弊端导致在信息统计方面的能力日显乏力,且经过传统统计工作得出的数据结论与实际情况存在偏差,往往一些统计结果一公布,就会引起社会各界的质疑,这样不仅降低了统计部门工作的权威性,也从侧面损害了政府的权威形象。而大数据的统计处理方式,是运用"互联网+"、云计算等最新的网络技术获取海量的数据,再利用复杂的数学建模、数据挖掘等进行数据分析,技术含量很高、工作方式也全然不同。
(2)对政府统计信息的冲击
新时代的到来,使得政府的信息搜集来源的广度大大增加,统计部门的数据搜集工作不再是单一的一家数据服务机构或者是几家机构进行,而应该将政府内部各个部门之间的非机密数据进行内部共享,让原本"孤岛式"的信息搜集统计方式变成一体化的共享模式。这样就是对传统政府统计信息方式的一次彻底颠覆,通过政府内部的数据处理平台,进行海量的数据交换和传输,让统计部门的数据来源更加丰富,数据的处理工作也更加有效。
2 政府统计的改革方式分析
互联网时代的到来推动着政府统计部门的巨大变革,这不仅仅是技术、理念层面的变革,更是统计部门人员、工作方式的改变。也是政府整体统计环境的巨大更新。
(一)数据收集环节改革的具体措施
在新的数据统计背景下,统计数据的工作无论是从渠道的建设,还是技术手段的革新,都对传统的统计工作产生巨大的冲击,特别是在数据收集环节。数据的收集的理念、方式都应该结合现代社会的发展以及技术的快速更替而进行。大数据时代的数据搜集方式应该更加注重渠道的建设、新技术的应用;例如:"互联网+"、移动通信网等技术的应用,具体而言就是与搜索引擎公司进行战略合作,对每天海量的信息数据进行统计分析。另外就是向中央直属部门报备,要求内部非机密信息的共享,便于统计工作的展开等等。这样才能够真正保证数据搜集量的广度以及真实度。
(二)数据利用环节改革的具体措施
新时期,社会上需要统计的层次以及方面都急剧扩大。传统的统计分析方式已经不能够容纳海量数据的分析工作。这就需要结合新技术、新模式来对"大数据"技术统计上来海量数据进行分析,从而确保海量的数据能够被充分的利用,不断寻找海量数据的统计规律,从而提高信息数据的利用效率。
(1)整合数据。通过各种外部或者政府内部统计搜集的信息数据,通常十分繁杂,无法直接进行有效的应用分析。因此,首先要进行数据归类,之后形成数据模块,对不同的数据类型再进行深度分析、挖掘。经过分析之后的有效数据再进行整合,通过结构化或者是非结构化的方式来完成数据的预处理工作,这样数据的分析才是真实有效的。
(2)推进数据共享。积极探索政府内部数据共享的各项工作,挖掘信息数据的内在价值,帮助部门与部门之间的信息能够得到有效利用,使得数据共享之后能够起到1+1>2的效果。
(3)开发更有技术含量的统计产品。政府统计部门通过大量工作得出的结果就是统计产品。统计产品主要包括各项经济指数、民生指数、分析报告、专题调研报告等。在大数据的时代背景下,应该开发拥有更多技术含量、简单易懂的统计产品,同时注重统计产品的质量以及真实程度,使新技术的应用能够真正服务为民。
3 结语
综上所述,政府统计部门的技术改革以及大数据研究模式的改革要同步进行,这样才能够保证统计数据的真实性、可靠性。为政府其他部门的决策研究提供有力的数据参考。
参考文献:
【关键词】 出租车轨迹 R语言 数据分析 数据建模
一、设计内容
在本设计中我们将利用GPS设备得到出租车的在载客数据,在得到的数据非常的复杂,而且数量非常的大,在对数据进行分析之前,要对数据进行预处理,把不合适的数据进行数据,之后找到数据之间的关系,对数据分析和建模。
二、本设计的组织结构
(1)出租车轨迹数据分析和处理。在得到出租车的数据时,通过对轨迹数据的分析,在对数据的采集的情况下,由于可能因为外界的因素,造成数据的采集出现问题,因此在数据处理之前要对数据进行预处理,将不合适的数据进行删除或者修改。
(2)搜索和可视化。在数据导入时,完成了对数据的分析和处理,之后通过R语言软件对数据进行汇总统计和绘图,数据更好的理解是为之后正确的建模做准备。
(3)分析和建模。在使用汇总统计和图形能更好的帮助我们理解数据,但他们有一定的局限性。统计数据不能告诉你数据的形状,而图形不能扩展到多个变量,他们在数量上也不能扩展,而且统计数据和图形都不能从数据中预测什么,所以通过建模,对相关数据进行定量判断而做出预测,构建可视化圆形系统,实现出租车轨迹数据的可视化分析。
三、数据来源及基本特征
数据的来源很多,R内置有很多数据集而在其他的附件包中能找到更多的数据,在本设计中的数据时利用GPS设备,将GPS设备安装在各个出租车上,将采集得到城市出租车的载客的数据,其中可以采集得到一个固定地点的出租车的载客数据,也可以得到在流动的地点的出租车的载客数据,以及在同一个时间的不同出租车的载客数据,一个出租车的在不同时间的相同地点的运行状态。
四、数据处理结果
4.1 k-means算法
k-means算法有k个输入量;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用聚类中各个对象的均值来获得一个中心的对象,以及来计算中心对象的坐标。
k-means算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
4.2模型的建立
假设给定数据集X={,i=1,2,,4…n}其中还有m个样本描述。
K个聚类中心分别为
两样本之间的欧氏距离为d( )=
再有评价准则函数T=
最后得到k个聚类中心
4.3模型求解
根据出租车载客的数据,对数据进行分析,筛选出拥挤的路段和时段,而拥挤的标准可以自己设定,根据整个兰州城市的交通考虑,给出拥挤的标准和时间段,根据所有数据通过excel筛选出需要的时间段,并对数据进行分析,根据excel筛选出的数据应用matalb仿真软件对在确定的时间段画出速度图,根据速度的大小标准来确定交通的拥挤状况。
五、结论
在周末节假日的出租车的全天的任务量,载客的距离(任务量),运营时间,明显的高于平常,因此城市的相关部门应该对数据分析,找到合适的出租车的调度,和运行措施来减少出租车的空驶,提高出租车的运行比率,以及减少出租车的空驶浪费。来解决群众上下班时段一车难求、高峰时段还常遇拒载、等问题,同时群众可以根据分析得到的数据进行分析,自己选择相应的出行方式与时间。
总结:本设计采用数据分析及处理,在将得到的GPS轨迹数据进行分析,处理,借助可视化的方法,利用地图匹配,matalb软件,R语言软件对数据进行分析,在不同的时间段内,人们的出行状况,以及在不同地方交通的状况,交通潜在的规律及其特征进行分析,在所得到数据很难看到这个,所以利用这些软件对数据可视化分析,分析得到的结果可以直观的看到出租车的变规律,为人们的出行提供更方便的条件。
参 考 文 献