前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇大数据时代数据的特征范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
传统方式下,孤立分析数据,单纯依靠经验发现问题,片面反映个别问题的技术方法已经无法适应企业审计发展的要求。企业审计需要全面采集与企业财务活动相关的数据,既包括财务数据,也包括业务数据和管理数据,既包括企业内部的数据,也包括主管部门、研究机构等的外部数据,既有财务数据、业务数据结构化的数据,也有会议纪要、政策法规等非结构化的数据;企业审计需要整体把握一个企业的整体情况,能够更科学、全面地评价一个企业,企业审计需要更准确的确定审计重点,能够在数据分析的基础上科学确定审计重点;企业审计需要更善于把握数据的规律和趋势,在发现企业现阶段存在问题的同时,更要能够揭示企业未来发展存在的风险和隐患。传统审计方式下缺乏采集管理、科学分析海量电子数据的技术,也就无法满足企业审计发展的新要求。
面对大数据时代的来临,面对“大数据”所带来的新技术、新思维的变革,企业内部审计需要应时而变来适应商业模式、思维模式及数据处理模式的变化,从而影响了审计方式、审计抽样方法、审计评价模式、审计重点等。而内部审计人员不仅要能了解数据的变化以及数据处理技术的变革,更要能处理数据、分析数据、驾驭数据,要能够充分、及时地从大量复杂的数据中,辨认出对内部审计的意义与价值,并进而协助内部审计人员做出最佳的决策。“大数据”对企业内部审计的影响主要表现在以下几个方面:
(一)审计方式由传统审计的事后审计、周期审计向连续审计转变。随着大数据技术的快速发展,审计方法和模式也在与时俱进。传统审计中,审计人员只是在完成财务报告或经过特定的周期或离职等情况的时候才进行审计,而且审计中并不是检查所有的信息,只是抽样分析。这种有限的检查对复杂的商业系统来说很难起到监督作用,而且传统审计的测试程序主要采用常规的方法关注被审计单位活动,包括数据、授权和执行等。企业如仍然采用这种审计方式,对于确认迅速发展的商务活动的真实价值或合法性显得过于迟缓;另外,从内部控制的角度来讲,我国目前的内部审计实务多是针对财务、会计事项,对经营活动、内部控制、管理事项的监督、评价极为有限,审计活动理念也多为“监督导向”型,而非“服务导向”型,公司部门间的不同流程缺乏衔接都使审计工作难以为经济活动提供全面的监控和服务。随着企业经济业务日趋复杂,信息技术迅速发展,企业电子商务和信息化建设逐渐成熟,越来越多的人意识到连续审计的重要性,而大数据技术及大数据基础使连续审计成为可能。连续审计可以降低传统审计过程中的浪费和时滞问题,降低审计错误和风险,促进企业发展。连续审计是信息技术与审计学科较好交叉融合的产物,是信息化条件下审计科学发展的必然,尤其对内部风险控制“实时性”要求极高的特定行业,如银行、证券、保险等金融和债务契约等行业中,实施连续审计监督迫在眉睫。某财产保险公司内部审计部门,已经在新开发的审计系统中固化了连续审计模块,该模块可以实现在线的风险预警,并安排专人进行日常数据式连续审计,将发现的风险数据、超预警值指标及问题登记为疑点,并建立审计底稿,按照重要程度进行远程审计、核实或下发给现场审计人员进行现场核实。该模块经过一段时间的使用,收到了很好的效果。
(二)审计抽样开始系统化、模块化、智能化,并开始具有预测功能,而样本最终将扩展至数据全体。目前,常规审计工作已广泛采用随机抽查法,其意义用较小的投入来获得审计结论,提高审计效率;但利用抽查法所得出的审计结论存在着发生重大错误的可能性,其可能性的大小就意味着审计风险的大小。然而,数据量的爆炸式增长使审计人员意识到现行的抽样审计方法只是凭借审计人员的主观判断和实际经验对财务报表中的重大事项进行审查,而忽视了大量的业务活动,无法发现和揭示企业内部发生的、对财务报表真实性有重大影响的舞弊行为和技术性错误,难以对企业财务报表及经营管理做出准确的判断和评价。但是,庞大的企业规模和繁多的业务活动,致使审计工作难以回到详细审计方式,只能在抽样审计方法本身寻求改进。审计抽样开始向以下几个方向发展:一是审计抽样系统化。通过抽样系统增加审计抽样的实用性和效率性,为审计人员从大量的审计数据中抽取有用信息,为审计的预测分析提供依据,这样的抽样采用人工方式在海量数据的情况下是无法进行的;二是审计抽样模块化。通过模块化设计,审计抽样系统将得到最大的灵活性,以便抽样时采用各种模型组合便抽样更有效率;三是审计抽样的智能化。审计抽样系统将积极吸收审计、统计、计算机、人工智能等方面的最新研究成果,抽样模型及时得到更新,抽样经验在知识库中得到积累,审计抽样系统开始“学习”、“推理”,不断朝着智能化方向发展。将海量的数据经分析、预测等“加工”后,以知识的形式呈现给审计人员,为审计人员发现审计问题提供深度支持;四是审计抽样系统开始具有预测功 能。随着大数据技术的发展,计算机的运算能力和处理速度不断提高。审计抽样系统会强大到处理复杂的运算,并利用大数据技术改进后的审计抽样算法来对这些审计数据进行分析并进行数据挖掘,找出特征数据,缩小抽取样本的数量,降低审计成本、提高审计效率;利用关联规则,预测被审计单位经营风险的高低,帮助审计人员确定审计重点,提高审计效率。通过审计信息系统所提供的庞大数据库可以实现对被审计单位的信息进行数据挖掘和综合分析,对被审计单位的财务及经营状况进行预测分析,为被审计单位提供决策依据。目前,某财产保险公司的审计系统,应用了大数据技术进行风险数据的提取,并应用PPS抽样、随机抽样、系统抽样、模型抽样、组合抽样等进一步提高审计效率。而在抽样模型中应用了汽修厂与驾驶员、报案人、定损员、收款人等的关联程度模型,伤者、驾驶员、报案人、联系人、领款人等的出险频繁度模型,人伤重复出险伤者、标的车多次与同一三者车碰撞出险等高风险模型,承保、理赔、财务系统非同一档案中上传相同照片等以“大数据”技术为基础的模型,收到良好的效果。
然而,在不久的将来,伴随着以真实性、服务性为基础的各项企业内部审计的深化,随着数据信息化的深入以用大数据技术发展应用的深入,企业内部审计逐渐开始能够从大量的、杂乱无章的海量数据中发现潜在的有用的信息,能够从这些大量的数据中发现被审计单位运作的基本规律及特征;预测出被审计单位发展的趋势,从宏观上把握被审计单位科学地发展。审计也不仅仅局限于抽样审计,而是对企业所有财务、业务等经营数据的数字式连续审计。
(三)促进审计成果的转化与应用。目前,内部审计成果应用主要是针对屡查屡犯的问题重点进行检查、督促整改,部分企业已经将审计成果应用闭环管理的手段对整改过程进行管理以达到良好的审计成果运用效果。大数据技术的出现,促进了审计成果的进一步应用。一是促进对以往审计中获取的大量信息资料和相关情况资料的汇总、归纳,从中找出财务、业务和经营管理等方面的内在规律、共性问题和发展趋向,通过汇总归纳宏观性和综合性较强的审计信息,以及运用审计成果,为各级领导提供数据证明、关联分析和决策建议,从而促进完善制度、机制、决策和执行,促进企业管理水平更上一层楼;二是促进问题的全面发现,即应用大数据技术可以将同一问题归入不同的类型使用,从不同的角度、不同的层面整合提炼以满足不同层次的需求。同时,通过对带有共性、普遍性、倾向性的问题进行挖掘,提炼出问题与数据中的关联性,可以将所有问题通过IT手段检查出来;三是应用大数据技术进行连续式审计有利于问题的整改监督;四是将审计成果进行知识化留存,通过大数据技术,将问题规则化并固化到系统中,以便于计算或判断问题发展趋势、对问题进行预警等;五是将审计人员与审计成果、被审计单位与审计问题进行关联,并进行信息化备案,在进行下次检查时,可以根据审计方案中的重点,有侧重地选取有相应检查经验的审计人员组成审计组,并按审计目标抽取相应被审计单位进行重点审计检查等。
总之,大数据并非被过度渲染的产业题材,大数据对企业内部审计的影响,既是应对企业数据集中模式、数据爆炸式增长趋势而进行的实时处理超量数据的技术升级,又是将方方面面的数据进行电子化、信息化,并将信息规则化、知识化,最终使各种应用网络化、智能化的过程;大数据更是一次从分散到集成、从共享到协同、从封闭到开放、从离线孤立到持久在线云服务、从专享到普适的挑战。
主要参考文献:
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代中译本.浙江人民出版社,2013.
[2]Bill Franks.驾驭大数据中译本.人民邮电出版社,2013.
[3]陈丹萍.数据挖掘模式下的审计风险决策研究[M].中国社会出版社,2007.
[4]陈福军.计算机辅助审计应用教程[M].清华大学出版社,2011.
[5]《企业审计制度方法和技术建设》课题组.信息化环境下企业审计的技术方法[M].中国时代经济出版社,2011.
[6]中国会计学会.企业内部控制自我评价与审计[M].大连出版社,2010.
[7]陈倩雯.深圳审计研究成果论文选编:2010~2011[M].中国时代经济出版社,2012.
[8]浙江省注册会计师协会.国际高级审计业务文集[M].中国财政经济出版社,2010.
[9]上海国家会计学院.内部控制与内部审计[M].经济科学出版社,2012.
>> 变革中的大数据知识服务:面向大数据的信息移动推荐服务新模式 大数据时代下的营销模式变革 大数据时代的金融服务变革 大数据下的“微变革” 大数据冲击下的财会变革 大数据时代下的新闻变革 大数据时代数字出版服务模式变革研究 基于大数据的档案知识服务 大数据时代语文教学思维之变革 大数据时代背景下高校图书馆的服务变革探析 大数据背景下营销模式变革对策研究 向大数据知识服务:大数据时代图书馆服务模式创新 大数据环境下的企业管理模式变革 大数据环境下的城市交通规划与管理模式变革 大数据知识服务支撑下的绿色交通管理系统 大数据商业模式与决策的时代变革 大数据时代的汽车营销模式变革 大数据时代的税收征管模式变革 大数据智能在图书馆知识服务中的应用思考 大数据背景下的公共治理变革 常见问题解答 当前所在位置:l.
[ 3 ] 王喜文.日本强化ICT领域国际竞争力[N].中国电子报,2012-06-15(003).
[ 4 ] The White House. Big Data Across the Federal Government[EB/OL].[2014-08-08].http://whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sh-eet.pdf.
[ 5 ] The Wall Street Journal. Big-Data Success Stories: Splunk[EB/OL].[2014-08-08].http:///ve-nturecapital/2011/10/21/big-data-success-stories-s-plunk/.
[ 6 ] The New York Times. Harvard Releases Big Data for Books[EB/OL].[2014-08-08].http:///2012/04/24/Harvard-releases-big-data-for-books/
[ 7 ] Spolanka. OverDrive announces a series of “Big Data”reports[EB/OL].[2014-08-08].http://libraries.wr-ight.edu/noshelfrequired/2012/04/11/overdrive-an-no-unces-a-series-of-big-data-reports/.
[ 8 ] Xavier Amatrain,Justin flix公布个性化和推荐系统架构[EB/OL].[2014-08-08].http:///article/2013-04-04/2814767-netflix-ml-architecture.
[ 9 ] 云推荐[EB/OL].[2014-08-08].http:///.
[10] 中国科学院.李国杰院士:大数据成为信息科技新关注点[EB/OL].[2014-08-08].http:///xw/zjsd/201206/t20120627_3605350.shtml.
[11] 李奕.大数据应用方式:从数据服务、信息服务到知识服务[N].中国计算机报,2012-07-09(024).
[12] Big data:The next frontier for innovation,competition and productivity[EB/OL].[2014-08-08].http:///Features/Big Data.
[13] 李晨晖,崔建明,陈超泉.大数据知识服务平台构建关键技术研究[J].情报资料工作,2013(2):29-34.
[14] 秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013(2):18-22.
[15] 王天泥.知识咨询:大数据时代图书馆的知识服务增长点[J].图书与情报,2013(2):74-77.
关键词:统计学;教育改革;大数据
一、引言
最早提出大数据时代到来的机构是全球知名的麦肯锡咨询公司,该公司在一份研究报告中指出:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。
大数据是随着互联网技术的广泛应用带来的数据量和数据类型激增而衍生出来的一种现象,但大数据一词不仅指规模大、种类多的数据集,还包括对这种数据集进行采集、处理与分析以提取有价值信息和直接创造价值的技术构架和技术过程。大数据的第一个特征是数据量巨大。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。第二个特征是数据类型繁多、异构性突出,包括网络日志、音频、视频、图片、地理位置信息等等。第三个特征是数据价值密度较低,数据中存在大量重复性和无价值性信息或噪声。如何通过强大的计算技术和统计分析等方法迅速完成数据的价值提纯,是大数据时代亟待解决的难题。第四个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
目前,不同的学科领域对大数据概念有着不尽相同的解释,但各种解释中大致可以从两个方面去理解。首先,大数据概念体现在数据量的巨大、种类的众多及产生速度的飞快,同时产生的数据集极有可能包含着各种半结构化和非结构化数据;其次,大数据概念还体现在对数据进行处理的手段和流程方面,由于数据量的庞大和类型复杂,利用常规的统计软件已经无法对当今的数据进行及时有效的存储、分析及处理。因此,所谓的大数据并不是单纯指数据流量的巨大,还指其结构的复杂和种类的多样,在数据处理和分析上需要采用高端计算平台或高级统计软件,以及海量数据中存在着可挖掘的潜在的大量价值信息与知识。
近年来,随着高速计算机的应用、信息技术的快速发展,特别是云计算技术的发展,使大数据的存储和分析技术得到迅速发展,目前的核心技术有MapReduce、GFS、BigTable、Hadoop,以及数据可视化等。在数据搜集上,可方便地通过在线互联网数据库获取二手数据或一手实时数据。在数据分析上,传统统计学方法采取的是基于统计模型的样本数据分析,而大数据分析技术则是通过高端计算平台,对大数据中的信息进行挖掘。
统计学作为对数据进行处理和分析的科学,必然受到大数据的影响。在大数据时代,统计学教育必须与时俱进,跟上时展步伐。近年来,有不少文献讨论了大数据环境下我国统计学教育的改革问题(例如[1]-[5]),本文在分析大数据时代特征的前提下,进一步讨论我国统计学教育的现状与挑战、统计学教育改革的内容、方法、借鉴和适应时代要求的变革问题。
二、统计学教育的现状与挑战
2013年,教育部对我国统计学专业设置进行一次新的调整,将原来的既可授予理学学位,也可授予经济学学位的统计学专业划分为统计学、应用统计学和经济统计学三个本科专业[6]。根据教育部高等学校统计类专业教学指导委员会2013年11月公布的数据,当时全国有194所高校开设了统计学专业,156所高校开设了应用统计学专业,164所高校开设了经济统计学专业[6]。目前,全国开设这三个统计学专业的高校个数和在校学生人数与2013年相比都有不少的增加。
面对大数据时代,我们目前的统计学教育无论在培养目标和教学内容上,还是在教育方式和人才培养模式上,都存在着亟待解决的挑战性问题。例如,在专业培养目标和人才培养过程中,我们比较重视课程层面上的评价,比较轻视专业层面上的整体评价,缺乏对学生综合能力的反馈机制。
关于教学内容,目前三个统计学专业在统计理论和应用统计两个方面有不同的侧重。统计理论主要包括:抽样理论、实验设计、估汁理论、假设险验、决策理论、贝叶斯统计、半参数和非参数统计、序贯分析、多元统计分析、时间序列分析、小样本理论和大样本理论等。在数据分析中,现今的统计方法基本以结构化数据为主要处理对象,而对非结构化和半结构化数据的分析和工具涉及较少。因此,现今统计学课程及内容已不能满足从事非结构型和半结构型的大数据研究和商业应用对人才培养的需要,必须进行必要的改革。
对于教育方式,鉴于大数据时代要求,统计分析人员需要具备较高的数学和现代统计学基础,具有较高的软件操作能力,掌握一定的大数据收集、整理、分析、处理和挖掘数据的技能。日本学者城田真琴认为:“数据科学家要有计算机科学专业背景,数学、统计方面的素养和使用数据挖掘软件的技能,善于利用数据可视化的手法展现晦涩难懂的信息,而且具备相应的专业知识、眼界和视野,具有适应社会发展和创造价值的能力”。现今的统计学教育方式还不能很好适应大数据时代数据科学人才培养需要,必须进行必要及时的调整和变革。
对人才培养模式,大数据时代不仅要求培养具有数据处理和分析所需的基本素质与技能,更重视培养从海量数据中发现和挖掘价值信息、把握市场机遇、创造利润的潜在能力。面对大数据时代的诸多挑战,现代统计技术、数据挖掘方法、计算机信息技术、软件工具和理念的日新月异,培养统计人才的教育模式也需要相应变化,统计学教育只有与时俱进,主动做出全面的调整和变革才能适应新时代知识进步和激烈人才市场竞争的需要,积极迎接大数据时代的挑战。
大数据时代对统计学教师有更高的要求,统计学教师需要与时俱进,跟上时代步伐。随着互联网、物联网、云计算等信息技术的发展,对数据的分析和处理的技术也随之要求更高,统计学教师固有的知识体系已不能满足培养现代统计人才的需要,必须进一步深化和更新原有的统计学理论知识,而且还需要学习掌握计算机技术、互联网、数据库和信息科学等有关知识和技术,同时还要熟悉处理非结构型和半结构型数据的知识和技能,以适应现代统计学教育对教师的知识结构和基本素质的要求。
大数据时代对统计专业的学生也提出了更高的要求,他们不仅需要掌握现代统计理论、统计方法和专业统计软件,还要学会如何分析、处理来自互联网或各种实际问题中的海量数据,如何利用统计软件和互联网技术进行数据操作,如何借助软件技术和统计准则判断数据质量,如何进行模型选择和评价模型方法的有效性,如何准确清晰地呈现统计分析结果和结论,等等。
2014年11月,美国统计学会了统计学本科专业指导性教学纲要 [7],该教学纲要对统计学专业提出四个方面的要求:(1)具有扎实的数学和统计学基础、强大的统计计算和编程能力,熟练使用统计软件和数据库;(2)分析来自现实问题的真实数据,真实数据是统计专业教育的重要组成部分;(3)掌握多样化的统计模型方法;(4)具有通过语言、图表和动画等方式解释数据分析结果的能力。美国是统计学教育和人才培养最先进的国家之一,该指导性教学纲要代表着美国统计学专业培养人才的基本要求和发展方向,对我国统计教育的改革具有重要的参考价值。以该指导性教学纲要为参考依据,对照我国目前的统计学本科专业教育,无论是在培养目标和课程设置方面,还是在教学内容和教学方法方面,都存在着亟待解决的挑战性问题。
三、统计学教育的改革
大数据时代的统计学教育不仅是各种统计方法、数据挖掘方法和信息技术手段的延续或发展,更主要的是这些方法的集成应用和在实际数据分析中的真实体验。过去,企业数据库价格昂贵,在统计学教育的教学案例或实验课教学中,很少采用真实和海量的数据库资源,基本都是采用过时或虚拟的数据。今天,像百度大数据引擎这样的数据库的逐步对外开放,将有助于开展“线上大数据统计实验”教学。为了适应大数据时代要求,有必要利用网络资源以及各种数据处理软件,搭建线上大数据分析实验教学平台,全面开展大数据统计实验教学的改革。实际上,借助大数据分析平台,本科阶段的统计学教育就可以融人联机分析和数据的可视化教学。其次,要时刻关注大数据分析理论的进展,及时将新理论新方法融入课堂教学内容。
需要指出的是,在大数据时代,经典统计理论和方法并没有过时,但需要进行改进和进一步发展。这是因为,网上采集的巨型数据集往往存在大量的重复性和无价值数据信息,使得大数据价值密度降低。在对这些数据进行分析处理之前往往需要通过去噪、分层、截断、聚类等方法的预处理,将其变成便于进行分析处理的小数据,继而借助于经典统计方法进行分析和处理。因而在大数据时代仍然需要采用传统统计学的小样本理论和方法。所以,即便是在大数据时代,经典统计方法仍然是进行统计分析的基石,其核心地位不可动摇。所以,在大数据时代仍然要强化统计学的基本理论和方法,尤其是在长期发展和实践应用中经过验证的、成熟有效的经典和现代统计方法,在大数据时代仍然没有过时,但需要结合大数据分析的需要对经典统计方法进行必要的发展和改进。
大数据科学需要统计学与数学、计算机等学科的结合。亚马逊大数据科学家John Rauser 认为:“数据科学家是统计学家和计算机工程师的结合体”。为了满足大数据时代的要求,统计学专业的课程设置需要进行必要的调整。应根据新时代人才培养的要求,增设与大数据前沿领域发展相关的课程,如计算机网络和大数据相关的软件应用,同时要加大实验课和社会实践课的比重,引导学生理解和掌握大数据概念、理论、技术和方法,培养其运用大数据的相关分析工具解决实际问题的能力。对于理论课程,除基本统计理论外,还应开设一些较为现代和深入的课程,如现代贝叶斯方法、神经网络、数据挖掘、应用随机过程论等。另外,还应开设与大数据分析相关的关联规则、决策树、机器学习、支持向量机等课程。
为了培养与时代适应的统计学人才,统计学专业教师应不断更新自身的知识结构和价值观念,改变认识数据、收集数据和分析数据的思维,主动学习和补充互联网、现代数据分析技术、数据库和数据挖掘技术,使自己的知识体系不断更新和提升,跟上时展的步伐。
在大数据时代,要注意培养学生适应社会的能力。统计专业人才培养模式应以提高本专业学生数据分析方面的能力,开阔他们的视野,培养其适应社会的能力。应积极引导学生进入实训场所动手操作和锻炼,尝试以企事业单位的财政、金融、保险、统计、咨询和信息公司等部门为主构建专业性教育实践基地。鼓励学生到大数据相关的机构部门、产业园区和企业中去调查研究和实践。此外,统计专业应积极同其他专业进行合作,联合培养适应新时代要求的数据分析人才。鉴于大数据对数据分析人员在计算机技术、行业认知、业务知识、数据分析工具和方法的要求提高,统计学科应主动与计算机、经济学、管理学等相关学科合作,培养学生的计算机能力、专业素质和业务修养。
“它山之石可以攻玉”,关于统计学专业的课程设置,可以参考和借鉴美国统计学会公布的统计学本科专业指导性教学纲要。根据该教学纲要,统计专业的课程设置应该涵盖五个模块[7]:(1)统计方法与统计理论。建立统计模型并对模型的输出结果进行评价,熟悉统计推断,能够从数据分析中得出恰当的结论。(2)数据操作和统计计算。熟练使用一款专业统计软件进行探索性数据分析,发现和清洗数据中的错误记录,具有编程能力和算法思维,可以进行各种数据操作,还应掌握统计计算技术,能够进行模拟研究。(3)数学基础。熟练掌握微积分、线性代数、矩阵论、概率论和数理统计的基础知识。(4)实践训练和表达能力。具有良好的表达和交流能力,善于通过图示和动画等听众易于理解的方式展示分析结论,并且具有团队合作精神和项目领导能力。(5)特定领域的知识。掌握特定应用领域的知识,并用统计学特有的思维方法来分析和解决特定领域的实际问题。
大数据时代是以数据为中心的时代,统计学专业的教育改革必须适应这个时代的要求。统计数据分析中软件应用能力至关重要。在众多统计软件中推荐使用R和SAS软件,因为R是免费开源软件,其统计建模、统计计算和可视化功能强大,更新迅速,是最新统计方法的主要平台,非常有利于培养学生的编程能力和知识更新能力,而SAS软件被很多公司用于数据管理和数据分析,在实际应用领域具有长期而深远的影响,是数据分析不可或缺的专业统计软件。当然,教学中也可以尝试使用其他专业统计软件,例如经济统计专业学生也可使用SPSS软件,但最好会使用SAS或R软件。在加强软件使用和编程能力的基础上,应加强学生统计计算和统计模拟能力的培养。在大数据时代,强调统计计算的重要性是大势所趋。统计模拟技术是伴随着高速计算机和信息技术的快速发展而广泛应用的现代技术,可用来解决传统学科领域中无法解决的问题。例如,在计算技术飞速发展的今天,贝叶斯统计方法过去曾经面临的计算瓶颈正在逐渐消失,基于马尔科夫链蒙特卡洛(MCMC)技术的统计模拟方法在数据分析中的强大威力正在日益显现[8]。
参考文献:
[1] 刘春杰,大数据时代对当代统计学教育的挑战,统计与决策,2015年,第8期。
[2] 孟生旺,袁卫,大数据时代的统计教育,统计研究,2015年,第32卷4期。
[3] 葛虹,韩伟,大数据时代统计教育变革的SWOT分析与发展策略,统计与决策,2015年,第4期。
[4] 张海波,黄世祥,统计学专业学生大数据分析能力的培养方式选择,统计与决策,2014年,第24期。
[5] 李卫东,大数据对统计学科发展的影响,统计与决策,2014年,第13.期。
[6] 教育部高等学校统计类专业教学指导委员会.统计学专业教学单位.http:///category/信息公开/教学单位,2013-11-15.
关键词:大数据;新闻传播;创新路径;数据方法
一、前言
针对现阶段国内的大数据发展状况和互联网技术的发展条件,研究传统的新闻传播正面临的机遇和挑战,从而适时转变新闻传播方式,使之更加符合现阶段技术发展的特点,对新闻工作者而言,是必然的选择。而在大数据时代的背景下,创新新闻传播的路径,强化新闻传播的效果,对传播学的理论发展和新闻发展的实际而言,都具有重要作用。
二、大数据方法和时代特征
(一)海量的数据
大数据一项非常显著的特征在于数据的数量极大。网络上数据的膨胀速度也是以指数上升,而不同用户之间的交流和转载又进一步促进了数据数量的提升。文字、图片、声音和视频的数量不断增加,其海量的数据内容对新闻传播提出了严格的要求。如何从数据时代爆炸式增长的数据中找到合适的内容,需要新闻工作者对此进行创新的研究。
(二)关联性和实时性
互联网的使用者不仅可以信息,更能够搜集、检索和传播信息。数据间的关联性正在变得越来越强,而许多受众随手拍摄生活中的事件、随手传播到网上的行为,又进一步提高了数据的实时性。在这一前提下,如何利用大数据,从看似不相关的数据中整理出其中的相关性,并利用网络平台进行传播,正在成为考验新闻工作者信息搜集能力的工作。[1]
(三)大数据方法和新闻传播创新
大数据的运行方法与传统方式有着极大的不同,大数据可以采用专门的程序和算法进行处理,利用其成果进行对未来发展趋势的预测也变得更加简单。它将社会的整体局势和动态进行全方位的研究和分析,因此在这一背景下,进行新闻传播的创新需要强调两个方面:其一是新闻形式需要创新,降低文字比例,增加图片和表格等能令人迅速理解的内容;其二是新闻内容需要创新,对新闻内容进行整合分析,减少新闻的不确定因素。
三、大数据方法在新闻传播中的应用
(一)数据的有效性
新闻传播最需要强调的仍然是新闻的真实性,这一点在大数据的背景下,就变成了新闻数据的有效性。即使大数据时代的新闻被娱乐化了,但从根本上,新闻强调的仍然是其真实性,也就是说,强调数据的有效性,是新闻传播中大数据方法和技术的最根本的应用方式。通过数据分析技术,解析网络中各种信息的有效性,从而保证新闻内容的真实性,这是保证新闻传播可靠性的根本方式之一。
(二)平台的可靠性
另外,在新闻之前,需要选择可靠的平台。这一平台的选择标准是拥有合适的流量、平台本身具有高度的可靠性。其中后者的重要性比前者要大很多,只有平台本身具有高度的可靠性,才能令受众对新闻内容有着高信任度。[2]在新闻内容本身具有高度真实性的前提下,将其在可靠的信息平台,有助于进一步提高关注度,强化新闻传播的效果。
四、大数据时代新闻传播创新路径
(一)转变思维方式
大数据时代新闻强调的已经不是“前因后果”的完善的因果关系链,而是不同信息之间的联系度。只要具有高联系度,即使不能理解其中的因果关系,也能够放在一起作为“新闻”的一个部分。在这一情况下,新闻工作者在进行新闻传播时,需要转变传统的探究理由的思维方式,转而寻找不同信息中的关联,找到看似毫不相关的信息中具备的联系,将之进行梳理整合,以提高新闻内容的传播价值。
(二)变革分析模式
大数据时代的数据分析模式与传统的分析方式有巨大的差异,其有专业的分析软件来进行数据分析。新闻工作者可以利用有效的数据分析方法,将庞大的数据分析交给计算机运行,通过这种方式,改变数据和信息的分析模式,以降低自身的工作量,提高工作效率和新闻内容的高度准确性。
(三)转变结论方向
大数据时代数据样本的增加,虽然机械的信息处理技术一定会带来某些问题,但它能够处理海量的数据资料,从中得出的结果会因此而更加偏向于对宏观问题的推测。因此,新闻工作者需要转变得出结论的方向,从分析社会中存在的各种“小问题”的前因后果,转而对社会整体变化方向进行宏观的分析和预测。
(四)传统纸媒的应用
即使在大数据时代下,纸媒的生存空间越来越小,但不能彻底放弃传统纸媒。纸媒在现阶段的新闻发展中,其缺陷主要体现于时效性,其真实性、深入性和对思想的指导作用并没有受到影响。在纸媒中具有高度真实性的、能够对事件进行深入讨论的相关内容,以此来引导人们的思想,仍然需要新闻工作者加以重视。[3]
(五)强调微传播平台的力量
微传播平台,指的就是以微信、微博为代表的网络社交平台。这一类的平台在信息传播的速度和广度方面存在着极大的优势,通过数据分析出某一个公众号或微博大V的关注者普遍关心的问题,推出具有针对性的新闻内容,同时利用推送功能加强突发新闻的报道效果。
五、结语
由于大数据时代的到来,新闻传播在面临严峻的考验的同时,也迎来了发展的良机。但如何将大数据时代的方法和技术应用到新闻传播中,对新闻传播的路径进行创新,则是需要深入思考的问题。本文针对大数据时代海量的数据、极高的关联性和实时性,分析大数据方法和新闻传播创新间的联系,指出利用大数据方法进行新闻传播路径创新必须遵循的两个基本原则在于数据的有效性和平台的可靠性。针对大数据方法的特点,新闻传播创新路径需要转变思维方式、变革分析模式、转变结论方向,在不放弃传统纸媒的同时,强调微传播平台的力量,促使新闻传播能力得到显著的提高。
参考文献:
[1]马建平,马瑞.大数据时代新闻可视化传播的创新路径[J].新闻研究导刊,2017,8(03):152-153.
[2]华晓雯.大数据时代新闻可视化传播的创新路径[J].新闻研究导刊,2017,8(02):163.
关键词:大数据;数据挖掘;教学改革
中图分类号:G642.0?摇 文献标志码:A 文章编号:1674-9324(2014)16-0057-02
一、引言
大数据时代最为宝贵的资源是数据,如何有效地分析利用海量数据将是数据挖掘需要解决的全新问题。数据挖掘的相关算法已非常成熟,并且在各个领域已取得了广泛应用。但是大数据环境下的数据挖掘理论与算法需要针对结构化数据、非结构化数据、多媒体数据具有更加强大的运算和处理能力。因此,数据挖掘技术及应用等相关课程应与时俱进地适应大数据的要求,对数据挖掘相关课程的教学内容进行变革。
二、大数据环境特征
Gartner认为大数据是海量的、高增长率和多样化的信息资产,需要新的处理模式才能实现对其发现和优化。维基百科认为大数据所涉及的资料量规模巨大,以至于目前无法通过主流软件工具,在一定合理的时间内对其获取、管理、处理并整理成为能起到决策支持作用的数据资源。大数据是包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术,麦肯锡认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合,因此需要通过数据挖掘实现对大量的结构化和非结构化数据集合进行分析,以便提供有用的数据洞察。大数据一般具有四个主要特征:①数据体量巨大(Volume),随着时间的推移,衡量数据体量的单位从G,T,P到E。②数据种类繁多(Variety),互联网、物联网、传感网的发展,使数据类型变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、E-mail等形式存在的未加工的、半结构化的和非结构化的数据。③流动速度快(Velocity),面对快速动态变化的流式数据,获取、存储及挖掘有效信息的速度都难以用传统的系统进行处理。④价值密度低(Value),数据量呈指数增长加大了获取有用信息的难度,如何快速高效发现隐藏在海量数据中的潜在有价值模式更加困难。
三、数据挖掘系统
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道,但又潜在有价值的信息和知识的过程。数据挖掘系统最初仅支持一个或少数几个数据挖掘算法,发展为与数据库和数据仓库之间存在有效接口而支持数据库和数据仓库,又能进一步挖掘Internet/Extranet的分布式和高度异质的数据,而研究开发分布式、移动式的数据挖掘系统成为第四代数据挖掘系统的重要课题之一,使得数据挖掘系统与其他系统联合提供决策支持的功能。根据数据挖掘系统与数据库或数据仓库的耦合程度,可以将数据挖掘系统分为不耦合、松散耦合、半紧耦合和紧密耦合四种结构。面对大数据环境,半紧密耦合和紧密耦合是在性能和效率方面比较理想的。半紧密耦合是指除了将数据挖掘系统连接到一个数据库或数据仓库系统之外,一些基本的数据挖掘原语还可以在数据库或数据仓库系统中实现,这种设计将提高数据挖掘系统的性能。紧密耦合系统是指将数据挖掘系统平滑地集成到数据库或数据仓库系统中,数据挖掘子系统被视为信息系统的一个部分。根据数据挖掘的研究体系(如图1所示),给出数据挖掘相关课程的主要讲授内容,包括:预测(Forecast),关联规则(Association Rules),聚类分析(Clustering Analysis),粗糙集(Rough Sets),进化计算(Evolutionary Computation,EC),灰色系统(Grey System),模糊逻辑(Fuzzy Logic),人工智能与机器学习(Artificial Intelligence,Machine Learning),决策树(Decision Tree),统计分析(Statistical Analysis),知识获取、知识表示、知识推理和知识搜索(Knowledge Acquisition,Representation,Reasoning and Search),决策与控制(Decision and Control),可视化技术(Visual Technology),并行计算(Parallel Computing)和海量存储(Mass Storage)等。
四、大数据环境下的数据挖掘
大数据的“4V“特征表明对海量的数据分析将更加复杂、更追求速度、更注重实效。大数据环境下的数据挖掘应实现海量数据建模,通过数理模型对海量数据进行整理与分析,发掘在海量数据之中隐藏的分析与决策所需的规律性知识。将数据挖掘作为大数据环境下重要的研究方法或发现新知识的技术工具,而不是把数据本身当成研究目标,与传统数据挖掘方法有密切联系又有本质区别。因此在大数据环境下的数据挖掘相关课程教学中应注意以下变化:①数据预处理:除利用数据仓库加载传统数据,针对大数据分析所涉及到的非结构化数据,应保证输入数据的完整性和相关的ETL(Extraction-Transformation-Loading,数据提取、转换和加载)流程的正确性。②数据存储机制:通过多维立方体实现结构化的多维数据组织与管理,多数是建立在关系数据模型和关系数据库基础之上。而需将非结构化数据考虑进大数据分析时,应采用分布式文件系统,以流的形式访问文件系统中的数据,提供访问拥有超大数据集的高传输率的应用程序(如Hadoop和其他开源的分布式系统基础架构)。③数据挖掘算法处理能力:面对数据规模的增大,需解决数据挖掘算法的效率问题,提高算法的有效性和可伸缩性。④数据挖掘算法处理效率:数据规模的不断增大导致分析处理的时间相应加长,而大数据条件下对信息处理的时效性要求越来越高,应建立简单有效的人工智能算法和新的问题求解方法。
五、小结
大数据时代的到来对数据挖掘的研究和教学都提出了新的挑战。应从数据预处理、数据存储机制、数据挖掘算法处理能力和效率等多个方面进行创新,以适应大数据环境下知识管理与智能决策的需要。
参考文献:
[1]陈燕.数据挖掘技术与应用[M].北京:清华大学出版社,2011.
[2]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,(25):142-146.
[3]Krish Krishnan.Working with Big Data[M].Data Warehousing in the Age of Big Data,2013:15-27.