首页 > 文章中心 > 大数据分析论文

大数据分析论文

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇大数据分析论文范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

大数据分析论文

大数据分析论文范文第1篇

大数据背景下的机器算法

专业

计算机科学与技术

学生姓名

杨宇潇

学号

181719251864

一、 选题的背景、研究现状与意义

为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。

在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。

随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。

二、 拟研究的主要内容(提纲)和预期目标

随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。

三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)

 1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。

四、 论文(设计)的工作进度安排

2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。

2020.04.28-2020.04.30 :设计实验。

2020.05.01-2020.05.07 :开展实验。

2020.05.08-2020.05.15 :准备中期检查。

2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。

2020.05.29-2020.06.26 :论文修改完善。

 

五、 参考文献(不少于5篇)

1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.

2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.

4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.

5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.

6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.

7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.

六、指导教师意见

 

 

 

 

 

 

 

 

签字:                  年     月    日

七、学院院长意见及签字

 

 

 

 

 

 

 

大数据分析论文范文第2篇

[关键词]Hadoop;大数据;分布式计算;HDFS;MapReduce

doi:10.3969/j.issn.1673 - 0194.2015.20.032

[中图分类号]TP308;TP311.13 [文献标识码]A [文章编号]1673-0194(2015)20-0041-01

1 大数据

大数据需要新处理模式才具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的核心是预测,它把数学算法应用到海量数据上来预测事件发生的可能性。大数据同时意味着思维的变革:①小数据分析的是随机样本,而大数据分析的是全体数据,全面展示样本无法表达的细节信息;②小数据分析追求精确性,而大数据分析具有混杂性,这意味着大数据的简单算法比采样数据的复杂算法更有效;③小数据分析关注因果关系,而大数据分析更关注相关关系,通过分析事物之间的关联性,来预测事件的发展趋势。

2 Hadoop大数据平台

Hadoop是Apache的开源分布式计算平台。受Google大数据论文的启发,Doug Cutting用JAVA实现了以MapReduce和HDFS为核心的Hadoop,并将源代码完全贡献出来。Hadoop充分发挥集群的计算和存储能力,快速完成海量数据的处理。Hadoop采用分布式存储来提高读写速度和扩大存储容量;采用MapReduce整合分布式文件系统上的数据,实现数据高速处理;采用存储冗余数据来保证数据的安全性。

2.1 HDFS

HDFS是基于流模式访问和处理超大文件的需求而开发的,它可以运行于廉价的商用服务器上,HDFS的主要特点有以下3个方面。①处理超大文件:在实际应用中,HDFS已经能够用来存储管理PB级的数据了。②流式访问数据:请求读取整个数据集要比读取一条记录更加高效。③运行于廉价的商用机器集群上:HDFS对硬件要求较低,无需昂贵的高可用性机器。

HDFS体系结构中有两类节点:NameNode和DataNode,NameNode负责管理集群中的执行调度,DataNode是具体任务的执行节点。当执行任务时,客户端访问NameNode获取文件数据信息,与DataNode进行交互以访问整个文件系统。HDFS向用户提供类似POSIX的文件接口,开发者在编程时无需考虑NameNode和DataNode的实现细节。

2.2 MapReduce

MapReduce是Google公司的核心计算模型。在Hadoop中,用于执行MapReduce任务的机器有两种角色:JobTracker和TaskTracker,一个Hadoop集群中只有一个JobTracker,用于任务管理和调度。一般来说,为了减轻网络传输的压力,数据存储在哪个节点上,就由哪个节点进行这部分数据的计算。JobTracker监控任务运行情况,当一个TaskTracker出现故障时,JobTracker会将其承担的任务转交到另一个空闲的TaskTracker重新运行。TaskTracker用于执行具体的工作。

3 大数据在智能电网中的应用构想

通过Hadoop大数据平台,技术人员可实时观察到全网范围内的电能流动状态、电能负载热区、设备故障高发区和客户集中区等数据,实现更加智能化的电网。具体包括以下4个方面。

3.1 电网数据可视化

在未来智能电网中,通过大数据分析融合调度、配电、输电、发电和用电客户数据,实现实时和非实时数据的高度信息化集成,通过实时可视化运算分析,全面展示完整和精细的电网运行状态图,为管理层提供辅助决策支持和依据。

3.2 电网负载趋势预测

在未来智能电网中,通过大数据分析电网负载的历史数据和实时数据,展示全网实时负载状态,预测电网负载变化趋势,通过现代化管理技术的综合应用,提高设备的使用效率,降低电能损耗,使电网运行更加经济和高效。

3.3 设备故障趋势预测

在未来智能电网中,通过大数据分析电网中部分故障设备的故障类型、历史状态和运行参数之间的相关性,预测电网故障发生的规律,评估电网运行风险,开展实时预警,提前做好设备巡检和消缺工作,为电网安全稳定运行保驾护航。

3.4 客户电力需求预测

在未来智能电网中,通过大数据分析电网客户的用电数据,预测区域用电和大客户用电需求变化趋势,针对客户需求提前制订高质量的服务计划,提升社会满意度。

4 结 语

Hadoop充分发挥集群的计算和存储能力,完成海量数据的实时处理。在未来的智能电网中,大数据分析可以应用到电网运行全景可视化、电网负载预测、设备故障趋势预测和客户需求趋势预测等需求,充分挖掘海量数据的价值,为智能电网提供技术参考。

大数据分析论文范文第3篇

(湖南城市学院图书馆,湖南 益阳413000)

【摘 要】在云计算、物联网等技术的推动下,世界已经进入了一个“大数据”时代。本文旨在讨论大数据时代下,图书馆与大数据相关的研究内容、发展存在的问题以及总体发展趋势。在大数据时代下,图书馆应该进行服务模式创新与重构、服务内容创新与重构,从而解决发展瓶颈。

关键词 大数据;图书馆;云计算

0 引言

在云计算、物联网等技术的推动下,世界已经进入了一个“大数据”时代。如何有效地利用大数据成为政府公共管理和企业界共同关注的问题,但这些数据集的规模往往超出数据处理者的能力。图书馆主要工作为实践,研究和教育。以最大限度地利用人类的知识,促进专业的交流为责任。图书馆职业无法离开专业知识和信息,影响人类社会的可持续发展。数据是图书馆藏书的重要组成部分。数据作为原始类的产品,可以加工、整理、分析,最后提炼成人与人之间的生产和生活中发挥更大作用的信息和知识。因此,大数据主题是图书馆行业内应当研究的问题,展示了图书馆界在信息社会求生存,谋发展能力的提升。本文旨在讨论大数据时代下,图书馆与大数据相关的研究内容、发展存在的问题以及总体发展趋势。

1 图书馆学研究教育与大数据现状

图书馆已有的研究中有文献计量学等和大数据有关。研究人员为了促进信息科学与社会科学的进步,通过大型网络规模的收集获得数据和分析数据得出相关结论来实现目标。由于大数据技术的应用,传统的文献计量学的研究从过去只有简单的描述性研究扩展到评估和预测的研究。图书馆学研究人员参与了很多相关的项目,例如,新西兰的奥塔哥大学的图书馆承担了研究数据管理项目的任务,在麻省理工大学设立项目研究图书馆数据存储、需求分析数据的管理,和传播数据,并完成数据收集保存标准的制定工作。乌里韦和麦克唐纳在认为数据监测工作将从传统的信息技术受益。Huwe建议采取政治手段,以促进图书馆和数据中心的发展,他认为高等教育机构应该认可图书馆对学术研究的支持。通过分析2008非常流行的“数字化监控中心的生命周期模型”,希金斯提出,图书馆的“数据保留计划”的生命周期可以被纳入其数字机构库文件管理实体。此外,美国学者对馆员在大数据环境中的作用和专业知识进行了调查,他们一致认为图书馆可以在大数据时代承担数据管理职责。谢菲尔德大学还安排了基础的信息学专业课程。 2011年6月伦敦国际监护教育论坛投入使用的,也给数字监控领域的发展提供了一个机会。

国内目前的相关研究课题还处于刚起步的状态,CNKI与该主题相关的文章也只有寥寥几篇。相比之下,国内对“数据监护权”的关注度更高这,主要是针对大学图书馆在这个专业领域展开更多的研究。这方面的论文在2012年之后有一个井喷式的增长,但总体来说,国内相关文献还相对较少,研究项目也几乎没有。

2 图书馆的大数据特征

在数字化时代,数据处理更容易、更快。图书馆的数据资源种类多、数量大、形式多样。截至2008年底,CALS的文档数据量达到180T,2010年底的国家图书馆数字资源总量达到480 T。目前,国家博物馆进行维护之后,数字图书馆的非结构化数据的存储容量将非常大。总数字资源工程也达到108TB。由此看来,图书馆的数字资源总量已聚集为一个大的数据集。再次,图书馆自动化服务水平已发展到了一个新的阶段。此外,用户服务信息每日激增,用户对服务的要求越来越高,图书馆要根据用户的服务信息,做出相应的调整。因此,根据各自限定的环境和条件,从大量的数据分析中挖掘出用户当前和未来的需求都非常迫切。

3 大数据背景下图书馆发展趋势

3.1 服务模式创新与重构

目前,随着科学技术的不断发展,传统的纸质图书馆向电子、数字图书馆的转变,因此图书馆服务的性质已经发生了很大的变化。传统图书馆是点对点的服务,而目前数字图书馆已经成为综合,服务的风格和方法等方面都发生了很大的变化。在服务理念上,数字图书馆是基于数据服务的基础上,在大数据的基础上,从数据采集,智能服务,提供综合服务,创新了服务模式。在大数据时代,数据资源是丰富的,每个图书馆可以利用网络来收集大量的数据资源,基于资源共享提供各种数据管理的资源之间的无缝连接。

3.2 服务内容创新与重构

在大数据时代背景下,竞争已经不再是一个简单的数据资源所有权的竞争,而是在数据的结构以及类型上、数据的开发以及利用上的竞争。从图书馆的角度来看,它是在大数据背景下,为了避免自己被边缘化,就必须分析数据,来进行相关的数据分析服务。分析数据库业务有以下几个方面:首先,图书馆需要建立自己的大数据分析,数据分析通常在现有的数据,如读者爱好的书籍等。另外是对读者的分析,这类似企业和其他客户群体参考提供的数据分析、竞争情报分析,但也有很大的区别,不同之处在于数据分析对象、用于数据分析和数据分析的目的等。对于这样的数据,可能不会被图书馆所拥有,所以它必然成为在这个行业发展的瓶颈限制,我们应该想办法解决这些问题。

参考文献

[1]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013(8):112-113.

[2]孙琳.大数据时代图书馆服务体系创新研究[J].理论观察,2013(4):99-100.

[3]李立.大数据在数字图书馆中的应用分析[J].高校实验室工作研究,2014(3): 35-37.

大数据分析论文范文第4篇

关键词:大数据时代;地方应用型高校;软件工程专业;课程体系

0引言

大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受人们的关注,大数据技术正从概念转向实际的应用,涌现出越来越多的大数据技术应用成功案例,大数据的价值也在迅速增长。2015年,中国大数据市场规模达到115.9亿元人民币,增速达38%,预计2016~2018年中国大数据市场规模将维持40%左右的高速增长[1]。大数据时代的到来,使得软件行业对人才的应用能力和综合素质提出了更高的要求。咸阳师范学院作为咸阳市地方应用型高校以服务咸阳地区经济社会发展为己任,肩负着培养满足咸阳地方社会需求软件人才的使命,需要把培养面向大数据时代的软件工程专业人才作为战略任务来抓。而课程体系的建设是软件工程专业人才培养体系最重要的一个方面。本文通过分析我院传统软件工程专业课程体系,以及大数据时代下企业对软件工程专业人才要求,找出大数据时代下软件工程专业应用型人才中课程体系存在的问题,探索出我院面向大数据环境的应用型软件工程人才中课程体系的建设。

1我院软件工程专业传统的课程体系

自我院计算机系成立以来,软件工程专业一直是我院重点建设专业。2013年,“‘3+1’校企合作软件人才培养模式创新实验区”被确定为省级人才培养模式创新实验区。一直以来,该专业以培养“厚基础、强能力、高素质”应用型人才的为培养目标,以企业、市场需求为导向,重视实践、技能和应用能力的培养,与尚观科技、中软国际、华清远见、蓝鸥科技等西安多家企业联合,采取3+1嵌入式校企联合教育培养模式,将课程教学、工程实践、行业理念进行无缝结合。课程体系是一个专业所设置的课程相互间的分工与配合[2],主要反映在基础课与专业课,理论课与实践课,必修课与选修课之间的比例关系上[3]。地方应用型本科院校的课程体系设计既要体现基础知识的传授,也要体现实践能力的培养,同时还要考虑学生的职业能力规划发展问题。我院2013-2015级软件工程专业课程体系结构图如图1所示。图12013-2015级软件工程专业课程体系结构图从图1可以看出通识教育必修课程的教学阶段共3个半学年,主要涉及思想政治基础知识、体育、人文历史、外语应用能力等;相关学科基础类课程主要包括高数、线性代数、数字逻辑等数学类课程;本学科基础类课程主要涉及程序设计语言、计算机网络、操作系统、数据结构、计算机组成原理等;专业技能教学阶段强调对学生工程性、实用性、技术性和复合型能力的培养,主要安排专业必修课程和专业选修课程。专业必修课程包括面向对象程序设计、软件工程、数据库原理与应用、软件设计与体系结构、算法分析与设计等,专业选修课程包括Web软件开发、Linux系统应用程序开发、移动终端开发等。根据教育部专业教学指导委员会软件工程行业规范[4],本着“轻理论,重实践”的原则,我院在一定程度上压缩理论课课时,增加实践课课时,优化专业课程体系结构。我院2015级软件工程专业的人才培养计划中,各类课程学分设置与所占比例。

2大数据时代企业对软件工程专业人才的要求

大数据时代所需要的人才是一定拥有数据处理、分析技术的,也就是对数据有敏锐的直觉和本质的认知、能够运用统计分析、机器学习、分布式处理等技术,从海量、复杂的数据中挖掘出有用的信息,以清晰易懂的形式传达给决策者,并创造出丰富有价值的专业人士[5]。在大数据时代下,对软件专业人才培养,应具备以下四个方面的技能。(1)具有厚实的数学、统计和计算机学科的相关知识,能够根据具体案例大数据分析任务的要求,运用大数据处理、分析平台,收集整理海量数据并加以分析,挖掘出有价值的信息。(2)掌握大数据处理技术及可视化工具,能根据具体任务的需求,对数据进行选择、转换、加工等处理操作,采用有效方法和模型对数据进行分析并形成数据分析报告,用易于用户理解的方式,提供科学的决策依据。(3)熟悉行业知识、专门业务及流程,将大数据技术和企业文化相结合,充分利用大数据分析处理的结果,挖掘出海量数据中隐藏的价值并应用于企业市场领域。(4)团队合作精神,大量数据的收集整理、存储、分析和处理,一个人是很难完成的,需要一个由团队成员合理分工、共同协作完成。

3大数据时代我院软件工程专业传统的课程体系存在的问题

地方高校一直以来受传统的“学术型”、“研究型”人才培养模式的影响较大,形成了适合于“精英教育”为培养研究型人才的课程体系,无法适应以工程实践能力、创新创业意识、新技术新方向为目标的人才培养,课程体系中理论教学占主导地位,实践教学往往处于次要地位[6]。而目前处于大数据时代,信息技术的不断创新、企业需求不断变化、综合型人才需求巨大等因素的影响下,传统的培养研究型人才的课程体系,无法适应大数据时代以工程实践能力、创新创业意识、新技术新方向为目标的人才培养。通过了解大数据环境企业对软件工程人才的要求,分析我院2013-2015级软件工程专业人才培养课程体系结构,发现存在以下问题:(1)缺少大数据技术方面的课程。传统的课程体系中主要包括软件工程专业一些传统的课程,如数据结构、软件工程、软件体系结构等,而且课程内容较陈旧,所开设的一些应用软件的学习不能紧密贴合行业和技术发展,软件工程专业教育必须适应互联网时展和大数据技术的需求,关注企业发展及大数据系统的建设问题,以满足企业对应用型人才的需要。(2)实践类课程学时所占比例较少。我院2015级软件工程专业实践类课程占总学时的10.8%,是因为传统的课程体系注重知识传授,而忽略了学生解决问题、动手能力的提高。地方高校在人才培养中重视理论内容、计算机编程能力,而忽略学生探索能力的培养,这些都不利于学生对新技术、新方向发展的把握,学生难以应对各种层出不穷、错综复杂的海量数据,很难挖掘出隐藏的数据价值并有效利用。(3)课程体系结构设置方面,一是存在通识教育类课程教学阶段持续时间长,一直到第7个学期,这就影响了后面专业类课程的学习;二是专业基础类分为专业必修和选修,没有从课程教学阶段不同来划分,不能体现课程先后的衔接关系。

4大数据时代我院软件工程专业课程体系建设改革

在大数据时代,软件工程专业教育必须适应企业发展和大数据行业的需求。教学内容的设置应与行业需求接轨,根据我院学生特点调整2016级软件工程专业课程体系。具体做了以下几点的调整。(1)课程体系结构更合理。一是通识教育类课程的调整。一方面将教学阶段全部调整到第1、2学年完成,这样在第3学年学生就可以重点学习专业类技能课程;另一方面此部分增加了大学生心理健康和创新创业教育课程,主要可以加强学生团队合作精神的培养。二是专业类课程结构的调整。将专业类课程分为专业(学科)基础课程和专业技能课程两大类,专业(学科)基础课程主要包括数学类课程、计算机导论、程序设计语言、数据结构、操作系统、软件工程、运筹学、数据分析与处理。专业技能课程又分为专业核心课程和专业方向课,专业核心课程包括面向对象程序语言类、软件设计模式、算法分析与设计、软件测试等软件工程专业要求的核心课程,而专业方向课分为3个方向:大数据分析、Web技术应用、移动终端开发,鼓励学生在学好专业基础和核心课程的同时,发现自己专业类的兴趣,选择一个自己感兴趣的方向集中学习,大数据分析方向是重点向学生推荐。在教学阶段安排上,一般专业(学科)基础课程要优先于专业技能课程,这样可以让学生在掌握了学科、专业基础上,充分了解软件工程专业技能的训练。(2)增加了大数据技术方面的课程。在新调整的课程体系中,专业(学科)基础课程和专业技能课程都增加了大数据相关内容。基础课设置增添运筹学、数据分析与处理等,使学生了解大数据行业基础知识,激发学生对大数据行业发展及大数据应用前景的兴趣;专业技能课设置了数据仓库与数据挖掘、大数据统计分析与应用、数据挖掘算法与应用等前沿科学技术相关课程以满足大数据系统建设与应用的需要,培养更多企业需要的大数据管理分析软件专业人才。院级选修课鼓励研究大数据方向的教师积极申请大数据案例分析、大数据安全与隐私保护、HadoopMap/Reduce技术原理与应用等实用性强的课程,以补充对大数据方向特别感兴趣学生的学习内容。(3)增加实践类课程所占比例。相比较2015级,以培养地方应用型人才为总目标,实践类课程课时由19课时增加到28课时,所占总课时比例提高了约50%。实践类课程包括校内(课程设计和实训)和校外(见习、实习、实训、毕业论文),种类多样化,使得学生多方面提升自己解决问题和动手操作能力。针对校内实验我院教师结合大数据教学实验平台,根据课程内容设计实验项目,从初级到高级,安排合理的阶梯式学习,实验内容持续更新,加入最新、主流的分析建模工具和挖掘算法,学生在免费、开放的平台环境下进行大数据构建、存储、分析统计等实验内容,使学生熟练掌握Ha-doop、HBase、Spark等关键技术,提高大数据理论分析及技术应用的能力。做好校内实践的同时,校外实践更是尤为重要,首先在实习、实训企业的选择上,尽量选择“口碑好、技术强、理念先进”的单位,目前我院已与邻近城市西安与尚观科技、中软国际、华清远见、蓝鸥科技等西安多家企业联合,第四学年分批组织学生到合作企业的实训基地参加真实的实训项目,体验IT企业真实的工作环境、工作流程和企业文化,了解互联网大数据、零售大数据、金融大数据等领域知识,学习海量数据搜集、分析、存储技术,引导学生按照项目的需求、总体设计、详细设计、编码、测试等流程完成实践内容,规范化文档和代码的编写,培养学生的行业、职业素养。

5应用效果

目前应用此方案有2016和2017级两级学生,虽然这两级学生都还没有就业,但在创新应用能力方面都较2015级之前学生有显著提升。近两年有10余组学生团队获得国家级、省级、校级“大学生科研训练项目”立项资助,有8名同学获得“蓝桥杯”程序设计大赛国家级二等奖、三等奖,省级一等奖2项,二等奖、三等奖多项。2016年有两队学生获得陕西省高校“互联网+”创新创业大赛三等奖,一队学生获得咸阳市青年创业大赛二等奖。数十名学生在核心期刊上公开发表学术论文。从目前取得的成绩来看,课程体系结构的调整,使得学生不仅获得扎实的理论知识,而且具备了过硬的实践和创新能力,我院软件工程专业毕业生一定会深受用人单位喜欢。

6总结

针对大数据时代下地方本科院校软件专业人才培养中课程体系存在的一些问题,笔者分析了大数据环境对软件工程专业人才的要求,以地方本科院校咸阳师范学院为例,改革调整了课程体系,主要在在理论教学和实践教学中增加大数据相关理论及技术内容,通过近年来的探索与实践,此课程体系结构有效提高了学生的创新应用能力,为大数据时代企业发展培养了高水平、高素质的大数据分析人才,新的课程体系适应了大数据环境下软件工程人才的培养。

参考文献

[1]孙琳.大数据应用的创新路径[N].人民政协报,2016-05-17.

[2]潘正高.地方应用型高校软件工程专业课程体系的研究[J].西昌学院学报,2017,31(3):94-97.

[3]潘怡.应用型本科院校软件工程专业课程体系设置探讨[J].长沙大学学报,2008,22(5):98-100.

[4]教育部专业教学指导委员会.高等学校软件工程专业规范[M].北京:高等教育出版社,2011.

大数据分析论文范文第5篇

用户如何从这庞大的数据库中提取对自己有用的信息呢?这就需要大数据分析技术和工具,而传统的商业智能(BI)工具已经抵挡不住企业如此庞大的数据信息。提到大数据,不得不说的是与大数据相关的技术名词:Hadoop、MapReduce、HBase、NoSQL等。业界的众多厂商也都开始从技术入手,打造各自的大数据解决方案。一时间,Hadoop红遍了全球,就像当年的Linux开源软件系统一样,成为了研究和设计大数据解决方案的主流平台。

华丽的变形

Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地被使用、贡献和完善,逐渐形成了一个强大的生态系统。

随着云计算和大数据的发展,如今Hadoop已经是一个能够让用户轻松驾驭和使用的分布式计算平台。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序,并能充分利用集群的威力实现高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在价格低廉的硬件上,而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,这样可以用流的形式访问文件系统中的数据。

Hadoop最受欢迎的是在Internet上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要grep一个100TB的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是Hadoop在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

如今,基于Hadoop的应用已经遍地开花:Yahoo通过集群运行Hadoop,以支持广告系统和Web搜索的研究;Facebook借助集群运行Hadoop,以支持其数据分析和机器学习;百度则使用Hadoop进行搜索日志的分析和网页数据的挖掘工作;淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据。

九年的长跑,Hadoop已从初出茅庐的小象华丽变形,成为了行业巨人,但还需戒骄戒躁、不断完善。

性能大提升

Hadoop还是一个能够对大量数据进行分布式处理的软件框架。Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。

Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop可以将数千个节点投入计算,非常具有性能潜力。但并非所有的工作都可以进行并行处理,如用户交互进行的数据分析。如果你设计的应用没有专门为 Hadoop集群进行优化,那么性能并不理想,因为每个Map/Reduce任务都要等待之前的工作完成。

英特尔针对大数据的开放架构核心产品线,推出了英特尔Hadoop分发版,让用户可以实现“软硬协同,体验至上”的创新效果。例如,利用英特尔至强处理器平台对网络和I/O 技术所做的优化,与英特尔Hadoop分发版进行强力组合,以往分析1TB的数据需要4个多小时才能完全处理完,现在仅需要短短的7分钟即可完成,极大地提升了大数据分析的速度。

Hadoop还是可伸缩的,能够处理PB级数据。由于批量处理功能,Hadoop最好部署在这些场合:索引编制、模式识别、推荐引擎建立和情绪分析。在所有这些场合下,数据大量生成,存储在Hadoop中,然后最终使用MapReduce函数来进行查询。但是这并不意味着,Hadoop会取代数据中心里面目前的组件。恰恰相反,Hadoop会集成到现有的IT基础设施里面,以便充分利用进入到该企业的海量数据。

曾听过这样一则案例:Hadoop集成到一家企业网站后,情况较之先前大有改观:大大节省了时间和精力。来自Web服务器的日志数据不用经历ETL操作,而是直接被完整地发送到了Hadoop里面的HDFS。然后,对日志数据执行同样的清理过程,现在只使用MapReduce任务,一旦数据清理完毕,随后被发送到数据仓库。这个操作要迅速得多,这归因于省去了ETL这一步,加上MapReduce操作速度快。而且,所有数据仍然保存在Hadoop里面,网站操作人员后续所需数据都可以查询到。

开源的典范

Hadoop依赖于社区服务器,任何人都可以自由的下载、安装并运行。由于它是一个开源项目,所以没有软件成本,这使得它成为一种非常吸引人的解决方案。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。

Hadoop称得上开源创新领域的杰出典范。思科的James Urquhart曾经这样说过:“Hadoop可以说是不涉及任何现有专利的开源项目在企业软件方面所取得的首个里程碑式成功”。尽管里程碑不只这么一个,但能够以这样的规模将成功果实迅速扩展的例子还真不多见。

虽然大量的行业用户开始学习Hadoop的技术架构,但在真实的生产环境中,依然显得相当谨慎,很大一部分也是因为开源。Google虽然公开了MapReduce论文,但底层的GFS、BigTable等技术都不是开源的,因为这是互联网的核心竞争力。很多企业的确想用这个技术,但是技术门槛比较高,前期投入非常之大。一旦进入维护和开发阶段,Hadoop的真实成本就会凸显出来。

群体的智慧

Hadoop作为海量数据分析的最佳解决方案,已经受到众多IT厂商的关注,并由此而锤炼出风格迥异的Hadoop发行版以及支持Hadoop的产品。

例如,IBM在Hadoop系统领域的代表产品InfoSphere BigInsights,它是基于开源Apache Hadoop框架实现,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究实验室的数据分析、机器学习技术以及文本数据分析挖掘;IBM在流计算领域的代表产品是InfoSphere Streams,是目前业界独有的流数据处理技术。Streams能够在对诸如气象信息、通讯信息、金融交易数据的管理中动态捕捉信息、进行实时分析,能够对静态数据的处理提供有效补充;在数据仓库方面是InfoSphere Warehouse和etezza。Netezza克服了传统数据仓库在面临大数据挑战时的瓶颈,可以将大量数据整合到统一的平台上,计算能力高达TB级。