前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
随着数据库技术的不断发展,数据库和数据仓库已经被广泛地应用于企业管理、产品销售、科学计算和信息服务等领域,数据量的不断增长对数据的存储、管理和分析提出了更高的要求,急需新一代的技术,能够智能化的从大量的数据中提取出有用的信息和知识,于是数据挖掘技术应运而生,且在各行业得到了广泛的应用。如何从海量的数据中找到内在的规律,如何更快更方便地传递、交流、获取有用的信息,挖掘这些激增数据背后隐藏的重要信息并及时进行信息的重组已成为当前我们所探究的热点。
一、数据挖掘概述及分类
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种多学科交叉的全新信息技术,是指从海量的数据中出潜在的、有价值的知识(模型或规则)的过程,反复使用多种数据挖掘算法从观测数据中确定模式或合理模型。也就是根据预定义的目标,对大量的数据进行探索和分析,揭示其中隐含的规律,并进一步将其模型化的先进有效的技术过程。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要探究的重要课题。
数据挖掘涉及多个学科方向,主要包括摘要:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法和技术以及应用等几方面进行分类。按数据库类型分类摘要:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类摘要:文本数据挖掘、多媒体数据挖掘、Web数据挖掘。按数据挖掘的任务有摘要:关联分析、时序模式、聚类、分类、偏差检测、猜测等。按数据挖掘方法和技术分类摘要:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。
二、数据挖掘的基本过程
(1)定义新问题。对目标有一个可行、清楚和明确的定义,同时还包含对一个结果进行衡量的标准。(2)建立数据挖掘库。它主要是指收集数据、维护数据等工作。(3)分析数据。找到对新问题解决影响大的数据字段集和决定是否需要定义导出字段。(4)预备建摸数据。根据新问题的定义,对数据库中的字段变量、记录进行筛选,并根据现有的变量进行转换,生成新的变量和字段。它主要是指为建立模型预备部分数据的过程。(5)建立模型。选择一定的挖掘算法来处理数据,它需考察不同的模型用以判定和选择解决新问题最有效、精确度较好的一种数据挖掘模式。(6)模型的评价和解释。模型建立后,必须有一个对它的结果进行评价、对它的价值进行解释的过程。(7)实施。模型建立并验证之后通常有两种使用方法。一种是提供给分析人员作参考和分析这个模型之后的行动方案及建议。另一种是在应用了模型之后,还需不断地监控其效果,因为事物在不断地发展变化,有可能一段时间后,模型就不再起功能川。在以上数据挖掘的基本过程中,其中数据预备、数据选择、预处理、数据缩减的阶段主要以完成数据仓库为主;目标确定、算法确定、数据挖掘、模式识别和知识评价这几个阶段,主要以挖掘有用的知识为主,为知识发现做预备。
三、数据挖据的应用
数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向摘要:
(一)在金融数据分析中的应用。多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋向;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付猜测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。
(二)在电力业的应用。在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、平安管理、资源管理、投资组合管理、活动分析、销售猜测、收入猜测、需求猜测、理赔分析等。而且当使用数据挖掘系统时,用户会对模型进行调优和定制。这将会逐步积累符合企业自身需要的模型库,成为企业知识库的重要组成部分。
(三)在零售业中的应用。零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费和服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和猜测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋向,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满足程度;提高货品的销量比率,设计更好的货品运输和分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。
(四)在医学上的应用。近年来,生物医学探究有了迅猛地发展,从新药的开发到癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别和探究。在人类基因探究领域具有挑战性的新问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具。利用数据挖掘技术在DNA数据的分析探究中可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传探究中的路径分析等。近期DNA分析的探究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和治疗的新药物、新方法的发现。
(五)在高校和科研单位以及其他领域的应用。主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字图书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。
关键词:数据挖掘 大数据 市场营销 企业决策
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2014)02-0080-02
数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题。数据挖掘己广泛地应用到社会的各个领域和行业,如商业领域中的客户关系、产品生产、市场营销等;金融领域中的股票交易市场、投资评估等;天文学领域的气象预报、气象灾害预测等;教育领域的高校学生管理、高校毕业生就业分析、高校教学质量的评估等。可以说,数据挖掘实是处在知识创造过程中最核心的位置,因此做好数据挖掘工作具有十分重要的意义。
1 数据挖掘的定义和本质
对于数据挖掘一般有两种定义,从广义上讲,数据挖掘,又称数据库中的知识发现,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程,就是从大型数据集中挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。从狭义上讲,数据挖掘则是指从特定形式的数据集中提炼知识的过程。
数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。
2 数据挖掘的发展背景
在这个信息爆炸的时代,如何从信息的大海中发现及时有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为垃圾,甚至成为包袱。因此,面对人们被数据淹没却饥饿于知识的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。激发数据挖掘的开发、应用和研究有如下四个主要的技术理由:(1)超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;(2)先进的计算机技术,例如更快和更强大的计算能力和并行体系结构; (3)对巨大量数据的快速访问;(4)对这些数据应用精深的统计方法计算的能力。数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
国内对数据挖掘的研究晚于国外。国家通过自然科学基金对数据挖掘的研究进行支持,很多科研单位和院校都在这个领域获得了丰硕成果,这些单位包括中科院、清华大学、中国科大、复旦大学等,他们的成果为我国在此领域的发展起到了重要作用,得到了学术界的高度重视。
3 数据挖掘常用的方法
利用数据挖掘进行数据分析常用的方法主要有分类分析、回归分析、聚类分析、预警分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。
(1)分类分析。客户细分需要进行客户特征分析,即用数据来描述或给出客户或潜在客户特征的分析过程。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
(2)回归分析。如何使用数据挖掘来对不同的旨在保留客户的活动中进行建模将对整个客户保持工作起着重要的作用,这也就是流失模型价值所在。流失模型能预测账号在被激活后减少或停止使用一种产品或服务的行为。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
(3)聚类分析。通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好地了解自己的客户,向客户提供更合适的服务。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
(4)预警分析。数据挖掘方法可以为风险分析建立分类定位模型。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。风险分析是提品或服务时存在潜在损失的行业所特有的。常见的风险类型出现在银行业和保险业,银行在放贷时存在金融风险。利用风险分析可以预测一个对象如期还贷或不还贷的可能性。一种贷款如抵押贷款或汽车贷款是安全贷款,另一种贷款如信用卡贷款为不安全贷款。
(5)Web页挖掘。Web因其易于导航、方便链接,融图形、音频、视频信息于一体的优越特性,迅速流行于全球,所载信息量巨大。Web页挖掘是利用数据挖掘技术从万维网的海量信息和数据中提取各种有用模式和信息,其中涉及到Web技术、数据挖掘、计算机语言学、信息学等多个领域的专业知识。对于企业而言,可以通过Web页挖掘、收集与企业生存相关的社会环境信息、市场信息、竞争对手信息、客户信息等,及时对外部环境信息和内部经营信息作出反馈和决策,未雨绸缪,以最快的速度解决企业面对的各种危机和潜在问题。
4 数据挖掘的社会需求和应用
人类早已步入信息社会,信息的重要性毋庸置疑。如何能在信息的海洋中迅速提取那些于我有价值的信息是生存的必要本领和竞争的必要手段,这就需要进行数据挖掘。具体而言,数据挖掘的社会需求和应用主要有表现在四个方面,即辅助研究,改进生产流程,优化市场营销,提高竞争优势。
(1)辅助研究。数据挖掘的辅助研究功能主要表现在医药和生物研究领域。数据挖掘技术可以协助研究人员快速分析巨量的医学数据和医生诊断经验,发现隐藏在海量数据背后的新的、具有学术价值的医学信息,为新药的发现提供一种新的思路和方法,帮助科研人员在大的数据库中发现隐含的知识,更好、更快、更有效地决策,加快药物研发速度,提高药物研发水平。此外,数据挖掘理论中的序列模式分析和相似检索技术等,已经被认为是DNA分析的有效工具,研究者们正在研究如何利用该技术从已经测得的基因数据库中找出各种疾病特定基因序列模式。数据挖掘技术还可以应用到医学图像分析中,借助于这一技术,图像特征能够实现自动提取和模式识别。更加令人欣喜的是,数据挖掘技术在医疗行业的应用,不仅可以协助医生更加准确地对病人进行诊断,还能预测医疗试验、外科手术和药物治疗的效果,对于缓和医患关系,节省治疗成本等都能起到积极作用。
(2)改进生产流程。数据挖掘改进生产流程的功能主要体现在工业领域。目前,数据挖掘已经成功地应用于从晶片制造到咖啡烘焙等一般的生产流程,用领域非常广泛。数据挖掘在改进生产流程中的应用概括地讲就是提取出影响生产进度的因素,避免生产的非正常中断,优化成产,从而节约成本。首先是提取数据,这些数据既包括能产生正面结果的数据,也包括产生负面结果的数据。其次是选择决策树算法依据数据判断出最重要的变量,再经过审定保留那些具有预测能力的变量。最后是进行建模与评估,形成生产规则。需要注意的是,由于不同工厂间的具体情况不同,这些规则并不能从一家工厂直接复制到另外一家工厂,因此数据挖掘工作不是一劳永逸的,应在成功的基础上不断进行研究。
(3)优化市场营销。由于信息的爆炸式增长,商业领域累积的数据库越来越大,不仅占用空间,且无法直接增加价值,由此人们认识到大量数据并非就是大量的信息,数据分析与萃取势在必行。因此,数据挖掘技术从一开始就是为应用而产生的,且迅速应用到了市场营销领域。世界上许多具有创新性的公司都采用数据挖掘的方式改进产品的推广模式,改善营销、销售、顾客服务营运上的不足,寻找最有价值的客户,以最小的成本获取最大的利益。例如银行可以通过分析客户的银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案,这些评价可用于确定客户购买某一具体产品的可能性,使得管理人员不必一一分析基础数据,大大提高了工作效率。对于零售商而言,可以利用数据挖掘技术收集并分析上百万个交易数据,为各分店进行每周和每日的销售预测,还可协助制订季度销售预测、用人计划、存货管理、年度预算等,甚至还能帮助为新的分店选址。以美国拥有1100多家分店、年销售额近110亿美元的Staples连锁零售商店为例,它就是运用数据挖掘方法成功对各家分店进行管理,它采用的数据包括历史销售数据、客户(包括商户和家庭)的统计数据、分店所处的地段特征及该地段的竞争水平等一系列海量数据。卡夫食品公司也是通过对拥有3000万客户资料的数据库进行深入挖掘,得以了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。
数据挖掘在市场营销中的应用是基于“消费者过去的行为是今后消费倾向的最好说明”这一基本假定,通过搜集和分析消费者消费行为的大量信息,以确定消费群体和个体的消费习惯、消费热点、消费层次和潜在的消费需求等,以此为基础,有针对性地进行特定内容的定向营销,不仅节约了营销成本,还大大提高了营销效果,为企业带来更多利润。
(4)提升竞争优势。在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工,以构筑自己的竞争优势。数据挖掘在提升企业竞争优势上主要包括两个方面,一是提升企业自身实力,二是规避外部风险,具体来说主要包括分析企业内部经营信息,搜集外部环境信息,创新优质产品和服务,改善和维护客户关系,进行企业供应链管理,识别风险和欺诈,控制和化解危机等。
5 数据挖掘需要注意的问题
(1)对数据的要求。由于大多数运营商面临的数据在质量、完整性和一致性方面存在很多问题,因此在利用这些数据进行数据挖掘之前,必须先对其进行抽取、净化和处理。
(2)对人员素质的要求。统计数据挖掘分析系统必须与实际紧密相联,在数据挖掘的多个环节中,都要求使用和分析人员不仅仅具备数据挖掘的相关知识,还必须有对企业经营管理流程和行业背景的深刻理解。
(3)数据挖掘的有效性。数据挖掘存在较长的应用周期,数据挖掘所发现的知识和规则必须让决策者理解并采纳,才能将知识转化为生产力,并通过实践不断检验和完善数据挖掘所产生的模型和规则,以使模型更具实用价值。
(4)数据库类型的多样性。一些数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统。同样,对于不同类型的数据,应当有不同的数据挖掘系统。
(5)数据挖掘的局限性。虽然数据挖掘工具使用户不必再掌握高深的统计分析技术,但用户仍然需要知道所选用的数据挖掘工具是如何工作的,它所采用的算法的原理是什么。选用的技术和优化方法会对模型的准确度和生成速度产生很大影响。数据挖掘永远不会替代有经验的商业分析师或者管理人员所起的作用,它只是提供一个强大的工具。每个成熟的、了解市场的公司都已经具有一些重要的、能产生高回报的模型,这些模型可能是管理人员花了很长时间,作了很多调查,甚至是经过很多失误之后得来的。数据挖掘工具要做的就是使这些模型得到的更容易,更方便,而且有根据。
6 结语
总之,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。
参考文献
[1]陈文伟,等.数据挖掘技术[M].北京:北京工业大学出版社,2002.
[2]朱明,数据挖掘.合肥:中国科技大学出版社2002.
数据挖掘技术是当前数据库和人工智能领域研究的热点课题, 本文首先对数据挖掘技术的国内外总体研究情况进行概略介绍,包括数据挖掘技术产生背景、应用领域、分类;然后详细阐述了数据挖掘的各种技术方法,并对数据挖掘的应用领域做了相关介绍。
【关键词】数据挖掘 决策支持 关联规则 模式
1 前言
数据挖掘含义是指从大量、模糊、随机的实际应用数据中,提取隐藏在其内部中、人
们原先不知晓的、却潜在有用的信息和知识的过程。我们把提取出的信息和知识表示为规律、概念、模式、规则等形式。数据挖掘被认为是一门跨多知识领域和学科的新兴课题,它为我们使用数据从简单查询将变为在数据里挖掘与发现知识从而产生对决策行为提供支持。为了能够满足人们从大量数据里发现知识的需求,来自不同领域的专家学者,都致力于研究这个热点课题――数据挖掘,不断研究和产生出新的研究成果。自从加拿大蒙特利尔在1995年召开了首届KDD&Data Mining国际学术会议,此后每年举办一次。通过数年努力, 数据挖掘技术研究取得了丰硕的成果,不少数据挖掘的软件产品,已在欧洲、北美等国家得到广泛的应用。目前,应用广泛的数据挖掘系统有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我国,数据挖掘技术的研究也取得了相当客观的成果。
2 数据挖掘的技术方法
通常情况下,我们把数据挖掘方法分为两大方面,一是统计类型,有概率分析、相
关性、聚类分析和判别分析等常用技术;二是人工智能领域中的机器学习型,通过训练和学量的样品集获得需要的模式或参数。
2.1 遗传算法
遗传算法是基于生物进化过程组合优化方法,它是和计算机科学与生物学结合的产物,由美国密西根大学教授D.J.Holland和他的同事们在1975年首次提出。人们总结的遗传算法基本思想分为两点:第一,将物种进化理论用于求解问题,物种进化又分为变异和遗传两个方面;第二,只有最能适应环境的物种才能生存下来,所以需要反复求解后才可以获得最佳解。遗传算法按照规则产生经过基因编码最初群体,然后从代表问题可能潜在答案的初始群体出发,选择适应度强的个体进行交换和变异,目的是发现适应度更佳的个体,这样一代代地演化,得到最优个体,解码,该最佳个体编码就是对应的问题最佳解或近似最佳解。在遗传算法的使用上,它的优点是对问题要求信息较少,比较高效性和灵活性。在数据挖掘中,经常用于估测其它算法的适合度,同时遗传算法擅长于数据聚类,通过和空间上类比和时间上类比,能够使大量复杂数据系统化、条理化,从而找出他们之间的内在联系,获得有用概念和模式。
2.2 关联分析
在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一。关联规则挖掘就是从大量数据中发现项集之间的相关联系。最著名的关联规则挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有频繁1-项集集合Ll,使用L1查找频繁2-项集集合L2,继而用L2用于L3,反复迭代,一直到不能找到频繁k-项集。并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。
2.3 决策树
决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的知识发掘,并且可以处理高维度的数据。在众多的数据挖掘、统计分析算法中,决策树最大的优点在于它所产生的一系列从树根到树枝(或树叶)的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径。另外,决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响。
国际上最有影响的决策树方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特点在于自变量的挑选标准是:基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂(分割)属性,其结果就是对分割后的结点进行分类所需的信息量最小,这也是一种划分纯度的思想。
决策树技术在数据化运营中的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。
2.4 粗糙集方法
粗糙集理论定位为一种刻划不确定性和不完整性的数学工具,可以有效地分析和处理不一致、不精确、不完整等信息,以从中发现隐藏的不为所知的知识,揭示潜在的规律。该理论是由波兰学者Z.Pawlak教授在1982年提出的,从1992年至今,每年召开以RS为主题的国际会议,推动了RS理论的拓展和应用。
粗糙集是处理模糊数据的有力工具,而要达到这样的目的需要有两个重要的步骤来进行处理―属性约简和值约简,属性约简是对粗糙集合(那些不能区分的集合)进行纵向的简化,把不必要的属性去掉,即去掉这些属性也不会影响对象的区分能力,这样便于以后进一步的简约处理
由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现手段,与基于证据理论的数据挖掘方法、基于模糊理论的数据挖掘方法、基于概率论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。
2.5 神经网络
人工神经网络(Artificial Neural Networks)是指能够模仿人脑神经元联接结构特征并且进行分布式并行信息处理的数学模型。根据人脑的神经元的原理所产生的人工神经网络能够通过不断修正其内部的节点间相互连接的关系达到处理信息的目的。BP(Back Propagation)网络,也称为误差反向传播算法,是目前使用较多也比较成熟的神经网络算法, 1985 年Rumelhart 等人提出,它的实质是通过误差反向传播算法训练数据的多层前馈神经网络,是目前应用最为广泛的神经网络模型。BP 神经网络能够学习和存储大量输入-输出模式映射关系,而且还并不需要预先揭示表现此种映射关系数学模型。它采用的学习规则是最速下降法,主要利用反向传播不断修订网络的权值和阈值,达到建立的神经网络误差的平方和最小。在数据挖掘中,神经网络主要用于获取分类模式。BP 神经网络能够用来聚类、分类和预测等,通常只需要一定历史数据,即把训练样本作设为输入,便能够对训练样本训练,通过学习与存储该数据样本中隐含的知识信息后,能够为后面的数据分析提供必要有用的知识。但是神经网络分类方法获得的模式常常隐藏在网络结构中,不能够显示地表达成为一定的规则,所以不容易被人们理解和解释;而且还需要多次扫描训练数据,网络需要的训练时间较长。所以与其他数据挖掘方法相比较,神经网络用于数据挖掘,要解决好两个关键点:降低不必要的训练时间,增强挖掘结果的可理解性。
2.6 模糊技术
模糊数据挖掘技术是通过利用原有数据挖掘技术同时,与模糊理论相结合,以期从大量数据中发现更为广泛的内容,其挖掘结果将会使用户更容易理解。由于现实生活中,数据之间的关系往往表现为模糊性,因此将模糊理论与数据挖掘技术结合从海量的、不完全的、随机的、含噪声的模糊数据中提取潜在的、未知即通过模糊集合理论对问题模糊评判、模糊决策、模糊模式识别和模糊聚类分析。因为模糊性是客观存在,而且系的复杂性越高,模糊性就越强,通常模糊集合理论是用隶属度来描述模糊事物,所以它为数据挖掘提供了概念和知识的表达、定性定量的转换、概念综合和分解方法。
2.7 可视化技术
可视化技术是指采用计算机图形学和图像处理技术,把数据转换成图形或图像并且在屏幕上显示出来,从而进行交互处理技术。它将信息的模式、数据关联和趋势展示给决策者,决策者能够通过可视化的技术来交互分析数据之间的关系。可视化技术实现过程由四个步骤组成:数据预处理、映射、绘制和显示。数据预处理阶段,针对各不相同的可视化方法和内容,要求对最初数据进行变换处理,设置数据格式和标准,并且要数据压缩和解压缩;在映射阶段,针对不同类型的应用数据,使用不同的映射技术把数值数据转换成几何数据;在绘制阶段将几何数据绘制成目标图像;在显示阶段,将图像数据按用户要求进行输出。在整个过程中,映射功能完成数据的建模功能,是核心。模型可视化的具体方法则与数据挖掘采用算法相关联,如,决策树算法用树形表示;过程可视化可以用数据流图来描述知识发现过程。
3 数据挖掘应用
数据挖掘技术是面向应用的。数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。随着研究的深入,数据挖掘技术的应用越来越广泛。主要集中在以下几方面:
3.1 金融业
数据挖掘技术用于银行行业的存/贷款趋势预测,优化存/贷款策略和投资组合。
3.2 生物信息
在基因工程中的染色体、基因序列的识别分析、基因表达路径分析、基因表达相似性分析、以及制药、生物信息和科学研究等。
3.3 零售业
数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品组合和促销时间商业活动。
3.4 客户关系管理
数据挖掘技术被用于分析客户的行为,分类客户,以此进一步针对客户流失、客户利润、客户响应等方面进行分析,最终改善客户关系管理。
3.5 电子商务
数据挖掘技术被用于在线交互式营销系统的经营模式、市场策略、Web广告效果分析以及在线购物的消费者行为分析,从而优化网站结构,改善网页推荐和商品推荐内容等。
4 结语
综上, 数据挖掘涵盖多种理论和技术,有着广泛应用前景。深入分析研究数据挖掘,应用数据挖掘技术将是我们未来努力的方向。
参考文献
[1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.
[2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.
[3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.
[4]陆汝钤.人工智能.北京:科学出版社, 1996:823-844.
[5]曾黄麟.粗集理论及其应用[M].重庆:重庆大学出版社,1996.
[6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.
[7]何新贵.数据采掘中的模糊技术[J].计算机科学,1998,25(专刊):129-131.
[8]万家华,刘冰,江早.知识发现中的可视化技术[J].计算机科学,2000,27(增刊):131-134.
作者简介
王雅轩(1969-),女,研究生学历。现为大连外国语大学教授。主要研究方向为软件理论与应用。
顼聪(1977-)男,研究生学历。现为大连外国语大学讲师。主要研究方向为智能软件。
关键词:数据挖掘;用户偏好;考试系统;入侵检测
中图法分类号:TP274文献标识码:A文章编号:1009-3044(2010)22-6231-02
Survey on Data Mining Technology
WANG Wen
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.
Key words: data mining; user preference; examination system; intrusion detection system
随着时代的发展,计算机科学在以飞快的速度前进着。在计算机科学的众多领域中,人工智能是最富有挑战性和创造性的一个领域。近几十年来,随着人工智能技术的日渐成熟,人们对人工智能的研究更加深入,对人工智能更加重视。科学界对于人工智能的重要性也已形成共识。
自进入21世纪以来,电子数据获取与计算机技术方面的不断发展以及网络的广泛普及与应用,人们日常生活中接收的数据和信息较以往正以飞快的速度增加,因而形成了独特的知识爆炸时代。就在最近几十年很多超大型数据库的产生使得整个社会发生着天翻地覆的变化,遍及银行存款、超级市场销售、粒子物理、天文学、化学、医学以及政府统计等领域。在这个数字化、信息化时代,这么大规模的数据库以及以后可能诞生的更大规模的数据库的数据管理问题将会是以后对数据处理的一个重要关注点。众多科技工作者共同关注的焦点集中在了如何从这些大型数据库中发现有用的、信息、模式以及如何实现有效的数据处理方法。因而“数据挖掘”(Data Mining) 的新领域逐渐走进了人们的事业,并且在人们的关注和不断研究下飞速发展,这是一个与统计学、人工智能、模式识别、机器学习、数据库技术以及高性能并行计算等领域都有很大相关的新学科,正是计算机学科的一个研究重点。
1 数据挖掘的一般过程
数据挖掘一般分为如下四个步骤(图1)。
1.1 数据预处理
收集和净化来自各种数据源或数据仓库的信息,并加以存储, 一般存于数据仓库中。
1.2 模型搜索
利用数据挖掘在数据库中匹配模型,这个搜索过程可以由系统自动执行,自下而上搜索原始数据以发现它们之间的某种联系;也可以进行用户交互,由分析人员发问,自顶向下寻找以验证假设的正确性。一个问题的搜索过程可能用到许多模型,如神经网络、基于规则的系统(决策树)、机器学习、基于实例的推理等。
1.3 评价输出结果
一般来说,数据挖掘的搜索过程需要反复多次,当分析人员评价输出结果后,它们可能会形成一些新的问题,或者要求对某一方面作更精细的查询,通过反复的搜索过程即可满足分析人员的这种需求。
1.4 生成报告
知识的发现过程可以由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等几个步骤组成。数据挖掘可以与用户或知识库交互,把用户关心的模式提交给广大用户,或作为新的知识存放在知识库中。
2 数据挖掘应用
2.1 数据挖掘在实现网站用户偏好度的应用
数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。使数据能够被更加高效的利用,对无用的数据加以摒弃,是数据挖掘技术最主要的实现形式,也是其最重要的应用方式。传统的数据库中的数据相对于Web的数据而言,其结构性很强,是完全结构化的数据,而半结构化则是Web上的数据最大特点。因而,面向单个数据仓库的数据挖掘较之面向Web的数据挖掘比要简单许多。据统计,网站上的绝大部分内容对绝大部分用户来说是无用的信息。事实是对于某个特定用户来说,其关心的内容仅是网站上极小部分的内容,而网站上提供的更多的内容对于这个用户来说是其不感兴趣的,并且过多的信息往往会掩盖有用的信息,使得用户的查询效率降低,并且对于网站也不是一件利事。
对于Web数据挖掘技术而言,半结构化数据源模型和半结构化数据模型的查询与集成问题是应当首要解决的问题。解决Web上的异构数据的集成与查询问题,有一个模型来清晰地描述Web上的数据是很必要的。因此,针对数据半结构化的Web数据的特点,寻找一个半结构化的数据模型至关重要。并且除此定义一个半结构化数据模型之外,一种半结构化模型抽取技术(自动地从现有数据中抽取半结构化模型的技术)也是应当提出的。因而半结构化模型和半结构化数据模型抽取技术是面向Web的数据挖掘实现的重要前提。
用户浏览网站上的内容时,他会被很的多因素影响,网页的外观,信息标题,网页链接以及个人的兴趣和习惯等等。我们可以设定合理的假设,建立他们之间的模型,利用以上提到的方法解决用户偏好度的问题。
2.2 数据挖掘在在线考试系统方面的应用
数据挖掘在在线考试系统方面的应用最主要体现在题库的构建,下面分别介绍题库的构建中数据挖掘的应用情况。
在设计数据库方面,数据库主要由题库、答案库和答案关键字库构成,题型库又涵括科目、题号、题型、题目、难度、分值等字段;答案库中包含科目、题号、分值、答案以及在同一题中有不同答案时应提供的不同答案序号等字段;答案关键字库中有题号、答案序号、权重和答案关键字。此后在将答案录入答案库。对于客观题而言,仅仅需要录入唯一的答案;但对于主观题而言,则需要尽量给出多个参考答案并将每个答案的关键字及其所对应的权值、答案序号输入答案关键字库。
通常有两类数据挖掘方法:①统计型,应用概率分析、相关性、聚类分析和判别分析等技术得以实现;②通过人工智能中的机器学习,经过训练以及学习输入大量的样品集,以得出需要的模式或参数。由于每一种方法都根据其特点都有其优势以及相应的引用领域,最后结果的质量和效果将受到数据挖掘技术选择的影响,采用多种技术结合的方法,其各自的优势可以达到互补的要求,从而实现最佳配置。下面介绍了两种数据挖掘方法: ①决策树算法:为每个问题的答案构造一个二叉树,每个分支或者是一个新的决策点,或者是一个叶子节点。在沿着决策树从上到下的遍历过程中,对每个问题的不同回答导致不同的分支,最后到达一个叶子节点,每个叶子节点都会对应确定的权值,通过对权值的计算判定得分;②模糊论方法:利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。由于主观题答案很灵活,答案不可能完全匹配,采用此方法将考生答案与答案库中的答案进行对照,以确定答案的正确度,从而更客观准确地评定主观题分数。
2.3 数据挖掘在网络入侵检测系统方面的应用
入侵检测就是通过运用一些分析方法对从各种渠道获得的反映网络状况和网络行为的数据进行分析、提炼,再根据分析结果对这些数据进行评价,从而能够识别出正常和异常的数据或者对潜在的新型入侵做出预测,以保证网络的安全运行。
基于分布式数据挖掘的入侵检测系统要对一个网段上的信息进行全面而细致的监测,同时在网络上多个点进行数据采集,如网关和特别需要保护的服务器等。整个系统构成分为本地分类器、规则学习模块和集中分类器三块基本构件。本地分类器负责对从网络上各个点采集到的数据通过预处理模块去除掉无效数据,并将原始数据处理成为以后进行数据挖掘算法可识别的格式,以实现对数据的初步检测和处理。本地分类器有2个输出:一个输出为分类数据,用于提交给规则学习模块,另外一个为数据摘要,用于提交给集中分类器。规则学习模块负责对标记过的分类数据进行深层次的数据挖掘,从而学习到新的知识。学习到的知识被直接录入到规则库中,这样保证了规则库可以根据网上的变化可以随时达到更新的需求。另外一种方式是通过规则学习模块实现人工训练系统,从而实现升级规则库的需求。最后将分布式数据挖掘的结果形成数据摘要发送给集中分类器,由集中分类器对各点数据摘要进行汇集,从而做出综合判断,达到有效地检测协同攻击的效果,最后将检测结果提交给决策模块。
3 结束语
数据挖掘技术是人工智能学科的一个重要分支,也是现代计算机科学的一个研究重点。现在基于数据挖掘技术的科研可以说是硕果累累,自从人工智能这个概念被提出来之后,其发展一直是计算机学科的热门而且其分支广而泛,都在不同的领域发挥着十分重要的作用。相信在计算机研究人员的不断努力下数据挖掘会在更多的方面服务人们,并且期待着新的理论的提出。
参考文献:
[1] 何克抗.建立题库的理论[M].长沙:国防科技大学出版社,1995.
[2] 刘波,段丽艳.一个基于Internet的通用题库系统的设计与实现[J].华南师范大学学报:自然科学版,2000(1):39-44.
[3] 王实,高文.数据挖掘中的聚类方法[J].计算机科学,2000,27(4):42-45.
本课的教学对象为七年级学生,这个年龄段的学生自主和独立意识较强,具备一定的信息搜集、处理、表达能力,喜欢在学习的过程中体验和理解事物,但分析思考问题缺乏深度。在日常学习、生活中,学生经常要对数据做搜集、整理、运算、统计和分析工作,但他们的认知大多只停留在表层,仅学会了数据加工的一些基本操作,缺乏从数据挖掘角度分析数据的意识,更不会运用统计学方法寻找蕴藏在数据之中的规律,借助它解决学习和生活中的实际问题。
学习内容分析
本课是苏科版七年级初中信息技术第三章第3节的内容,主要包括“数据挖掘的作用”和“数据挖掘的过程”两个部分,可深入细分为“什么是数据挖掘”“数据准备”“数据挖掘”“规律表示”四个内容。教学中,为了让学生深刻体会数据挖掘的意义和价值,教师应鼓励他们对数据进行多角度加工与分析,找到规律或有用的信息,用恰当的方式直观地表达出来,学会搜集、分析身边的数据,用数据说话,让数据挖掘更好地服务于生活与学习。
教学目标
知识与技能目标:理解数据挖掘的概念,体会数据挖掘的作用。
过程与方法目标:尝试进行数据挖掘,经历数据挖掘的一般过程。
情感态度与价值观目标:树立用数据说话、用数据指导生活的思想意识。
教学重难点
重点:数据挖掘的概念及数据挖掘的一般过程。
难点:数据准备及挖掘的过程。
教学策略
数据挖掘是一种强大的分析数据的方法,因涉及到专业软件和统计学术语、数学模型等,会让学生难以理解。而日常使用的WPS表格,作为数据挖掘的有效工具,可以让学生在分析具体数据的过程中,掌握数据挖掘的方法。因此,本节课教学应让学生从已有经验出发,运用WPS表格中的简单工具,学习数据挖掘的一般方法。
“数据挖掘”对学生而言,是一个全新的概念,概念的建构需要一步步地不断累积,从表层到内涵,逐步深化。学生只有在了解了“数据挖掘”的基本含义,并尝试挖掘的基础上,才能体会其作用和意义。所以,笔者设计了层层递进的学习活动(情境再现,感受数据挖掘―案例研习,认识数据挖掘―比较空气质量,尝试数据挖掘―同比空气质量,再探数据挖掘―畅想未来,展望数据挖掘),并且在活动中适时搭建学习所需的“支架”,来帮助学生完成知识的建构。笔者通过一系列的活动,让学生在做中学,在学中思,在思中用,在情境化的技术活动中,归纳出数据挖掘的方法,从而树立用数据说话、用数据指导生活的思想意识。
教学过程
1.情境再现,感受数据挖掘
活动1:情境再现,感受数据挖掘。
①猜一猜:不同的人群浏览同一个网页时,所看到的内容是否一致。
②观察凤凰网的广告区域截图,在组内交流(如下页图1,不同人群浏览的同一网页,推送的广告不同)。
③京东为什么能够根据个人喜好推送商品?
小结:京东在挖掘和分析用户浏览行为的基础上,进行定向产品推广。
设计意图:思维总是由问题开始的,激发问题,能让学生积极主动地参与到学习活动中。以京东广告推送功能来设置情境,把两种不同的浏览行为对照比较,设置悬念,第一时间抓住学生,激发学生学习新知识、新技术的渴望。
2.案例研习,认识数据挖掘
活动2:学生观看视频,并思考、总结。
①安保为什么使用热力图(如图2)?(对百度的定位数据、搜索数据进行挖掘,把握人群密集点动态趋势,帮助警方提前疏导、化解安全风险)
②百度大数据对旅游有什么作用(如图3)?(对用户搜索数据深入挖掘,预测热门旅游景点)
③导航是如何规划路径的(如图4)?(对道路环境、天气情况、特征日等数据进行挖掘和分析,得出每条道路在不同环境或不同时间的路况规律,确定最优的交通路线)
师生对数据进行分析、总结(如表1)。
小结:数据挖掘是指从大量数据中寻找其规律的技术。数据挖掘的目的主要有三个:把握趋势、预测和求最优解。
设计意图:选取日常生活中运用数据挖掘的三个典型事例视频――热力图、旅游预测、导航,借助半成品表格作为输出支架,归纳出数据挖掘的概念和数据挖掘的三个目的。体会挖掘数据价值性的同时,认识数据加工的重要性,为数据挖掘的学习做好铺垫。
3.比较空气质量,尝试数据挖掘
师:图5中空气质量预报实现了数据挖掘的哪一种目标?(把握趋势)盐城市空气质量如何?借助熟悉的WPS表格工具,尝试挖掘空气质量状况。
活动3:比较盐城、秦州、淮安等周边城市空气质量状况。
①登录中国空气质量在线监测分析平台(http:///historydata/),建立盐城周边三市空气质量状况工作表(如图6)。
影响空气质量的因素很多,AQI指数是衡量空气质量的重要指标。
教师演示:浏览数据,提取数据,组成工作表(如图7)。
②计算各市4月份空气质量指数AQI的平均数。(提示:AVERAGE公式使用方法以及自动填充柄的使用)
③比较4月份空气质量状况。(结论:质量指数平均值大小依次是盐城、秦州、淮安)
师:根据质量指数,利用函数工具计算平均数,得出空气质量状况,其实就是数据的挖掘。数据挖掘的一般过程如图8所示。
设计意图:从全国空气质量在线监测分析平台搜集数据,选择WPS函数工具挖掘数据,并对挖掘结果加以解释,来建构数据挖掘的一般过程。在尝试数据挖掘的过程中,学会运用计算思维解决问题,借助流程图总结挖掘过程,有助于学生从整体上把握知识,进一步促进认知体系的构建。
4.同比空气质量,再探数据挖掘
师:通过挖掘比较,我们得出盐城市4月份空气质量在周边城市当中最好,各市以前的空气质量状况如何?
活动4:比较各市2014年、2015年空气质量数据,说明哪一年空气质量更好(如图9)。
①在选定城市后,思考如何同比质量。
②选取函数或图表工具,完成挖掘。
③规律表示。
④从“我的数据分析报告”中的各组中任选城市,从“2014年数据、2015年数据”工作表中,选取数据到“同比空气质量”进行分析(如下页表2)。
小组汇报挖掘过程和得出的结论,形成对数据挖掘的新认识。
小结:用平均数比较,各市两年的数据基本相同,但是合格月份数不一定相同,同比AQI低的月份数也不相同。学生同比之后发现,2015年空气质量好于2014年。
设计意图:学生借助分析报告,以分组合作的形式,再次经历挖掘数据的过程,找到规律或有用的信息,加深对挖掘过程的理解。鼓励学生对数据进行多角度的加工与分析,选择合适的工具进行挖掘,体现了多元化的思想。
5.畅想未来,展望数据挖掘
观看视频(如上页图10,图10中左图为京东慧眼的视频截图,右图为基因测序的视频截图),想象:数据挖掘技术的广泛应用,对生活会产生怎样的影响?
如今,数据挖掘改变了传统的生活模式,未来将会产生更加深远的影响。因此,我们应学会搜集、分析身边的数据,用数据说话,挖掘数据创造出更智慧的生活方式。
设计意图:通过视频播放,让学生深度感受“数据挖掘”与生活息息相关,挖掘数据将给人们生活带来的改变,培养学生搜集、分析身边的数据,用数据说话的意识。
点 评
如今,数据挖掘已被广泛应用在各个领域。什么是数据挖掘?顾名思义就是从庞大的数据中挖掘宝藏(信息、知识、见解等)的方法和过程。显然,对于初学者而言,这是一个全新的概念,仅靠上述说明难以理解它的含义。在传统教学中,教师往往让学生背诵记忆这些内容,学生并没有形成概念的深层理解。为此,董老师从理解数据挖掘出发,选取数据挖掘的三个典型事例――热力图、旅游预测、导航,精心组织学习活动,在半成品表格的引导下,归纳出数据挖掘的三个目的――把握趋势、预测和求最优解,体会挖掘数据的价值,进而概括出数据挖掘的概念。