前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:数据挖掘;神经元;方法;应用;发展
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 12-0000-02
一、引言
伴随信息技术的迅猛发展,数据库规模与应用的不断扩大,大量数据随之产生。新增的数据包含了重要的信息,人们希望更好地利用这些数据,并通过进行更高层次的数据分析,为决策者提供更宽广的视野。
现今,很多领域已建立了相应的数据仓库。但人们无法辨别隐藏在海量数据中有价信息,传统的查询方式无法满足信息挖掘的需求。因此,伴随着数据仓库技术不断发展并逐渐完善的一种从海量信息中提取有价潜在信息的崭新数据分析技术------数据挖掘(Data Mining)技术应运而生。
二、数据挖掘概念
数据挖掘技术从1990年左右开始,发展速度很快,数据挖掘技术的产生和不断发展可使得人们对当今世界的海量数据中隐藏着人们所需要的商业和科学信息等重要信息进行挖掘。数据挖掘运用到交叉学科,涉及到,包括Database、AI、Machine Learning、人工神经网络(Artificial Neural Networks)、统计学(statistics)、模式识别(Pattern Recognition)、信息检索(Information Retrieval)和数据库可视化等,因此数据库目前还没有明确的定义。通常普遍认可的数据挖掘定义是:从数据库中抽取隐含的、以前未知的、有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法。
三、数据挖掘方法
由于数据挖掘技术研究融合了不同学科技术,在研究方法上表现为多样性。从统计学角度上划分,数据挖掘技术模型有:线形/非线形分析、回归/逻辑回归分析、单/多变量分析、时间序列/最近序列分析和聚类分析等方法。通过运用这些技术可以检索出异常形式数据,最后,利用多种统计和数学模型对上述数据进行解释,发掘出隐藏在海量数据后的规律和知识。
(一)数据挖掘统计
统计学为数据挖掘技术提供了判别方法与分析方法,经常会用到的有贝叶斯推理(Bayesian reasoning; Bayesian inference)、回归分析(Regression analysis)、方差分析(Analysis of Variance,简称ANOVA)等分析技术、贝叶斯推理是在估计与假设统计归纳基础上发展的全新推理方法。贝叶斯推理在与传统统计归纳推理方法相比较,所得出的结论不仅根据当前观察得到的样本信息,还将根据推理者过去相关的经验和知识来处理数据挖掘中遇到的分类问题;回归分析是通过输入变量和输出变量来确定变量之间的因果关系,通过建立回归模型,根据实测数据求解模型的各参数,若能很好的拟合,则可根据自变量进一步预测。统计方法中的方差分析是通过分析研究中估计回归直线的性能和自变量对最终回归的贡献大小,从而确定可控因素对研究结果影响力的大小。
(二)聚类分析(Cluster analysis )
聚类分析(Cluster analysis)是将一组研究对象分为相对同质的群组(clusters)的统计分析技术。 同组内的样本具有较高相似度,常用技术有分裂/凝聚算法,划分/增量聚类。聚类方法适用于研究群组内的关系,并对群组结构做出相应评价。同时,聚类分析为了更容易地使某个对象从其他对象中分离出来的方法用于检测孤立点。聚类分析已被应用于经济分析(Economic analysis)、模式识别(Pattern Recognition)、图像处理(image processing)等多种领域。
(三)机器学习(Machine Learning)
机器学习方法经过多年的研究已相对完善,通过建立人类的认识模型、模仿人类的学习方法从海量数据中提取信息与知识,在很多领域已取得了一些较满意的成果。因此利用目前比较成熟的机器学习方法可以提供数据挖掘效率。
(四)数据汇总
数据库中的数据和对象经常包含原始概念层上的详细信息,将数据集通过数据立方体和面向对象的归纳方法由低概念层抽象到高概念层,并对数据归纳为更高概念层次信息的数据挖掘技术。
(五)人工神经网络(Artificial Neural Networks)
神经网络是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。近年来在解决数据挖掘中遇到的问题越来越受到人们的关注,源于人工神经网络具有良好的自组织自适应性、并行处理、分布式存储和高容错等特性,并通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。
(六)遗传算法(Genetic Algorithm)
遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。遗传算法可直接对结构对象进行操作,不存在求导和函数连续性的限定,能自动获取和指导优化的搜索空间,自适应地调整搜索方向。遗传算法已被人们广泛地应用于多种学科领域。
(七)粗糙集
粗糙集是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。粗糙集理论应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
四、数据挖掘技术发展趋势
当前,数据挖掘技术不断创新与发展,数据挖掘技术开发研究人员、系统应用人员所面对的主要问题:高效、有效的数据挖掘方法和相应系统的开发;交互和集成的数据挖掘环境的建立以及在实际应用中解决大型问题。
五、小结
数据挖掘技术涉及到多种学科技术,如:数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索及空间数据分析等。因此,数据挖掘是非常有前景的研究领域,随着数据挖掘技术的不断发展,它将会广泛而深入地应用到人类社会的各个领域。
参考文献:
[1]罗可,蔡碧野.数据挖掘及其发展研究[J].计算机工程与应用,2002
[2]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000
[3]刘毅勇.情报分析智能辅助决策方法及其军事应用[M].北京:国防大学出版社,2001
[4]唐晓萍.数据挖掘技术及其在指挥控制系统中的应用[J].火力与指挥控制,2002
[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997
[6]吴修霆.SAS数据挖掘技术的实现[J].微电脑世界,2000, Vol.14:pp44-45
[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125
关键词:数据挖掘;用户偏好;考试系统;入侵检测
中图法分类号:TP274文献标识码:A文章编号:1009-3044(2010)22-6231-02
Survey on Data Mining Technology
WANG Wen
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.
Key words: data mining; user preference; examination system; intrusion detection system
随着时代的发展,计算机科学在以飞快的速度前进着。在计算机科学的众多领域中,人工智能是最富有挑战性和创造性的一个领域。近几十年来,随着人工智能技术的日渐成熟,人们对人工智能的研究更加深入,对人工智能更加重视。科学界对于人工智能的重要性也已形成共识。
自进入21世纪以来,电子数据获取与计算机技术方面的不断发展以及网络的广泛普及与应用,人们日常生活中接收的数据和信息较以往正以飞快的速度增加,因而形成了独特的知识爆炸时代。就在最近几十年很多超大型数据库的产生使得整个社会发生着天翻地覆的变化,遍及银行存款、超级市场销售、粒子物理、天文学、化学、医学以及政府统计等领域。在这个数字化、信息化时代,这么大规模的数据库以及以后可能诞生的更大规模的数据库的数据管理问题将会是以后对数据处理的一个重要关注点。众多科技工作者共同关注的焦点集中在了如何从这些大型数据库中发现有用的、信息、模式以及如何实现有效的数据处理方法。因而“数据挖掘”(Data Mining) 的新领域逐渐走进了人们的事业,并且在人们的关注和不断研究下飞速发展,这是一个与统计学、人工智能、模式识别、机器学习、数据库技术以及高性能并行计算等领域都有很大相关的新学科,正是计算机学科的一个研究重点。
1 数据挖掘的一般过程
数据挖掘一般分为如下四个步骤(图1)。
1.1 数据预处理
收集和净化来自各种数据源或数据仓库的信息,并加以存储, 一般存于数据仓库中。
1.2 模型搜索
利用数据挖掘在数据库中匹配模型,这个搜索过程可以由系统自动执行,自下而上搜索原始数据以发现它们之间的某种联系;也可以进行用户交互,由分析人员发问,自顶向下寻找以验证假设的正确性。一个问题的搜索过程可能用到许多模型,如神经网络、基于规则的系统(决策树)、机器学习、基于实例的推理等。
1.3 评价输出结果
一般来说,数据挖掘的搜索过程需要反复多次,当分析人员评价输出结果后,它们可能会形成一些新的问题,或者要求对某一方面作更精细的查询,通过反复的搜索过程即可满足分析人员的这种需求。
1.4 生成报告
知识的发现过程可以由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等几个步骤组成。数据挖掘可以与用户或知识库交互,把用户关心的模式提交给广大用户,或作为新的知识存放在知识库中。
2 数据挖掘应用
2.1 数据挖掘在实现网站用户偏好度的应用
数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。使数据能够被更加高效的利用,对无用的数据加以摒弃,是数据挖掘技术最主要的实现形式,也是其最重要的应用方式。传统的数据库中的数据相对于Web的数据而言,其结构性很强,是完全结构化的数据,而半结构化则是Web上的数据最大特点。因而,面向单个数据仓库的数据挖掘较之面向Web的数据挖掘比要简单许多。据统计,网站上的绝大部分内容对绝大部分用户来说是无用的信息。事实是对于某个特定用户来说,其关心的内容仅是网站上极小部分的内容,而网站上提供的更多的内容对于这个用户来说是其不感兴趣的,并且过多的信息往往会掩盖有用的信息,使得用户的查询效率降低,并且对于网站也不是一件利事。
对于Web数据挖掘技术而言,半结构化数据源模型和半结构化数据模型的查询与集成问题是应当首要解决的问题。解决Web上的异构数据的集成与查询问题,有一个模型来清晰地描述Web上的数据是很必要的。因此,针对数据半结构化的Web数据的特点,寻找一个半结构化的数据模型至关重要。并且除此定义一个半结构化数据模型之外,一种半结构化模型抽取技术(自动地从现有数据中抽取半结构化模型的技术)也是应当提出的。因而半结构化模型和半结构化数据模型抽取技术是面向Web的数据挖掘实现的重要前提。
用户浏览网站上的内容时,他会被很的多因素影响,网页的外观,信息标题,网页链接以及个人的兴趣和习惯等等。我们可以设定合理的假设,建立他们之间的模型,利用以上提到的方法解决用户偏好度的问题。
2.2 数据挖掘在在线考试系统方面的应用
数据挖掘在在线考试系统方面的应用最主要体现在题库的构建,下面分别介绍题库的构建中数据挖掘的应用情况。
在设计数据库方面,数据库主要由题库、答案库和答案关键字库构成,题型库又涵括科目、题号、题型、题目、难度、分值等字段;答案库中包含科目、题号、分值、答案以及在同一题中有不同答案时应提供的不同答案序号等字段;答案关键字库中有题号、答案序号、权重和答案关键字。此后在将答案录入答案库。对于客观题而言,仅仅需要录入唯一的答案;但对于主观题而言,则需要尽量给出多个参考答案并将每个答案的关键字及其所对应的权值、答案序号输入答案关键字库。
通常有两类数据挖掘方法:①统计型,应用概率分析、相关性、聚类分析和判别分析等技术得以实现;②通过人工智能中的机器学习,经过训练以及学习输入大量的样品集,以得出需要的模式或参数。由于每一种方法都根据其特点都有其优势以及相应的引用领域,最后结果的质量和效果将受到数据挖掘技术选择的影响,采用多种技术结合的方法,其各自的优势可以达到互补的要求,从而实现最佳配置。下面介绍了两种数据挖掘方法: ①决策树算法:为每个问题的答案构造一个二叉树,每个分支或者是一个新的决策点,或者是一个叶子节点。在沿着决策树从上到下的遍历过程中,对每个问题的不同回答导致不同的分支,最后到达一个叶子节点,每个叶子节点都会对应确定的权值,通过对权值的计算判定得分;②模糊论方法:利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。由于主观题答案很灵活,答案不可能完全匹配,采用此方法将考生答案与答案库中的答案进行对照,以确定答案的正确度,从而更客观准确地评定主观题分数。
2.3 数据挖掘在网络入侵检测系统方面的应用
入侵检测就是通过运用一些分析方法对从各种渠道获得的反映网络状况和网络行为的数据进行分析、提炼,再根据分析结果对这些数据进行评价,从而能够识别出正常和异常的数据或者对潜在的新型入侵做出预测,以保证网络的安全运行。
基于分布式数据挖掘的入侵检测系统要对一个网段上的信息进行全面而细致的监测,同时在网络上多个点进行数据采集,如网关和特别需要保护的服务器等。整个系统构成分为本地分类器、规则学习模块和集中分类器三块基本构件。本地分类器负责对从网络上各个点采集到的数据通过预处理模块去除掉无效数据,并将原始数据处理成为以后进行数据挖掘算法可识别的格式,以实现对数据的初步检测和处理。本地分类器有2个输出:一个输出为分类数据,用于提交给规则学习模块,另外一个为数据摘要,用于提交给集中分类器。规则学习模块负责对标记过的分类数据进行深层次的数据挖掘,从而学习到新的知识。学习到的知识被直接录入到规则库中,这样保证了规则库可以根据网上的变化可以随时达到更新的需求。另外一种方式是通过规则学习模块实现人工训练系统,从而实现升级规则库的需求。最后将分布式数据挖掘的结果形成数据摘要发送给集中分类器,由集中分类器对各点数据摘要进行汇集,从而做出综合判断,达到有效地检测协同攻击的效果,最后将检测结果提交给决策模块。
3 结束语
数据挖掘技术是人工智能学科的一个重要分支,也是现代计算机科学的一个研究重点。现在基于数据挖掘技术的科研可以说是硕果累累,自从人工智能这个概念被提出来之后,其发展一直是计算机学科的热门而且其分支广而泛,都在不同的领域发挥着十分重要的作用。相信在计算机研究人员的不断努力下数据挖掘会在更多的方面服务人们,并且期待着新的理论的提出。
参考文献:
[1] 何克抗.建立题库的理论[M].长沙:国防科技大学出版社,1995.
[2] 刘波,段丽艳.一个基于Internet的通用题库系统的设计与实现[J].华南师范大学学报:自然科学版,2000(1):39-44.
[3] 王实,高文.数据挖掘中的聚类方法[J].计算机科学,2000,27(4):42-45.
随着科技的进一步发展,已经带动着各大领域的创新和发展。而我国在近年来,城市信息化的普及也在不断推进,网络技术的改革和发展也显得格外重要。而特别很多企业对于自身的信息和数据储存、共享以及处理都格外注重,要求技术本身要包含安全性、便捷性以及可靠性。,而是在大数据提出后,数据挖掘技术已经成为了一种新的主流技术,而研究数据挖掘技术的理念、方法以及应用领域,将对我国工程施工领域的未来带来更多的机遇和挑战。
关键词:
大数据时代数据挖掘技术分析和研究运用数据挖掘技术,也被称为数字处理技术,顾名思义,就是对于目前各大企业的内部数据,进行整理、调整、挖掘实施以及评估等一系列处理操作,其主要的目标是保证全局数据都能够得到充分的优化。而大数据则是区分于以往抽样调查的方法,而是对于全局数据进行分析,从而保证分析的全面以及完成。而大数据技术也包含4个优点,即高数量、高速度、多元化以及高价值。而笔者将通过本文,就大数据时代的数据挖掘技术与应用进行分析和探讨。
1相关概念的简介
1.1大数据的概念关于大数据的理念提出,可以追溯到麦肯锡研究院于2011年的《大数据:创新、竞争和生产力的下一个新领域》,其中阐述的观念就涵盖数据方面,即数据已经融入到了人们的日常生活中,也是生产运作的一个重要因素。而大数据的运用,对于消费以及生产水平都是一种有效的提升提升,根据美国曾经的《大数据研究和发展倡议》资料,截至2011年一年,全球总的数据就增加了1.8ZB,而进行人均计算,相当于每个人都具有至少200GB的数据资源,而且这一数据还在呈现出日益增长的趋势,根据统计计算,这一数值将会按照约为50%/年的速度增长。
1.2数据挖掘作为一个新型学科,数据挖掘技术源于20世纪的80年代,那时其效用与目前存在本质差异,科学家最初研究大数据,主要是用于一些人工智能技术的开发。简而言之,技术层面上,数据挖掘就是一个对数据进行发掘创新的过程,即要求目标数据具有隐蔽性、挖掘价值以及挖掘潜力,而且需要操作者在一堆冗杂的、随机的、模糊的数据库中进行挖掘;而对于商业层面上来说,数据挖掘就是在一些大量的数据信息中获得规律以及价值信息,从而为决策提供重要的知识凭据。
2数据挖掘的研究手段
对于数据挖掘而言,不同的研究手段将是其开展的重要基础,而研究手段的决定,主要需要依靠科学的计算为依据,分析和对比数据中存在的一些不为人知的规则,然后通过研究手段的改变去应付不同的问题,对于实际操作来说,就是针对不同的数据找出不同的解决方法,而常见数据挖掘的研究手段主要可以分为四类,即聚类研究、分类和预测以及关联研究。
2.1聚类研究将抽选的数据或者对象的库进行类似“分类”的聚类划分,然后再将其中的相同或者相近的数据划分为一个组类,由此建立起多个组类开展研究的过程。整个过程突出的是一种无知识基础、无监督管控的学习过程。而整个过程由于分类研究有本质的差异,因为聚类研究在事先根本无法得到目标的重要属性数据,而这种分析方法主要可以用于多个区域,例如心理、统计、医药、销售以及数据识别等,而根据其隶属度的取值,有能将其分为两种研究方法,即硬聚类与模糊聚类,对于前者来说,就是将目标按照影响标准进行划分,即目标如果属于某类,必定不属于其他类;而对于后者来说,主要取决与隶属度的取值不同。而划分过程可能会将目标划分入多个聚类中。此外聚类的计算方法也能分为多种,即包含密度算法、层次算法、划分算法、网格算法以及模型算法等等。
2.2分类与估测对于分类与数值估测来说,都是属于是问题预测方式,其中前者要求估测各个类中的标号,这些标号都是分散且无规律的,而估测方法可以采用函数模型,要求模型类型为连续值函数。分类估测作为数据挖掘的起始工作,主要需要反应已经获知的训练数据库的特点,从而根据以上基础完成其中对每一类的情况以及特点完成相应的分类操作,而整个操作也是受到督促的,对于一般的分类算法可以有决策树、粗糙集、贝叶斯、遗传等算法,而估测主要是基于分类以及回归基础,估测数据将来的动向,即包含局势外推、时间序列以及回归分析几类。
2.3关联研究关联研究是源于自然生物间微妙的关系,而某事情的发生和发展也会引发连锁的事情发展,也就类似所谓“蝴蝶效应”的定义。而关联研究的研究目标即是研究物与物之间的微妙关系,包含一些依赖关系等等,从而找出其中的规则,基于规则,分析将来的动向。以购物为例,分析购物者的心理规律以及习惯,可以从他们对于购物的一系列表现,例如购物篮的物品类型、放置规律、购物消费理念、购物环境需求等等,而掌握这些规律,足以让一个销售企业获得巨大的消费市场以及商机。
3大数据时代的数据挖掘的运用
3.1数据准备准备流程需要依附于研究者已经建立起长期且丰富数据资源的数据库,而根据这些无规则的原始数据进行相应的挖掘前的准备的工作,例如数据的处理、择取、清除、推敲以及转变,作为基础的流程,数据准备操作在整个流程中起到重要的基础作用。
3.2数据挖掘开展数据挖掘操作,需要根据挖掘对象的情况择选最优的计算方法,从而获取其中的规律性,例如对应采用决策树算法、分类算法、神经网络算法以及Apriori算法等。
3.3数据挖掘的模式评估研究模式评估的对象主要是通过数据挖掘处理过程数据,而评估流程是了解、研究且取得其中数据的规则,然后对数据进行转变“翻译”成通俗易懂的语言,供人们去研究和思考。
3.4数据挖掘的知识应用知识应用是数据挖掘的最后一步,通常知识运用就是一种现实运用的过程,通过数据准备、挖掘、研究评估,最后将结果数据或者规律用于现实中,从而体现数据的本身的价值,这就是知识应用的内涵。
4大数据时代的数据挖掘的运用
4.1市场营销方面市场营销行业已经是目前数据挖掘采用最多的行业,数据挖掘的作用主要体现在的对于消费者群体的消费习惯以及行为进行解析,从而改变销售方法,提升产品的销售量,此外,除了一些购物消费以外,数据挖掘技术以及拓展到了各大金融行业,例如保险行业、银行行业以及电子商务行业等等。例如:在市场营销方面,采用数据挖掘中的聚类研究,即客户一系列无规则、无意识的行为数据,对他们进行识别,即根据客户的忠诚度、消费意识进行分类,帮助企业寻找其中的潜在客户以及固定客户群。
4.2数据挖掘的科学分析科学本身就是一个寻找规律、发现规律以及利用规律的过程,而且任何科学研究都是需要基于数据作为基础,所以数据挖掘对于科学领域也具有重要的意义和价值,特别是针对一些未知的事物、领域或者知识,通过数据挖掘可以有效展示数据规则。例如对于太空行星的分析,遗传基因DNA的数据以及遗传规律等。
4.3制造业与其他行业不同,制造业运用数据挖掘的目的主要是产品质量检查方面,例如研究产品的数据,找出其中规则。分析整体生产流程,解析其中过程,找出影响生产质量以及效率的问题,然后通过对这些问题进行解决,提升企业经济效益。对于制造业而言,数据挖掘运用主要体现在决策方面,即首先通过数据筛选,获取有用的知识和数据,然后采用决策树算法,统计决策,然后选择其中正确的决策,即像根据目前产品的流行情况,预测目前生产产品的受欢迎度,然后决策生产的时间以及周期。
4.4教育方面对于教育行业来说,最重要的除了教师的教学方法以外,学生的学习情况、心理动向以及教学评估都是十分重要的,采用数据挖掘技术,则可以有效将这些数据通过分类、筛选以及处理,得出有效的数据规则,供学校教学改革时进行参考。例如:教学质量评估数据挖掘模块的开发,即将教学质量相关的项目通过QSLSevrer进行整合和存储,例如教学准备、教学内容、教学方式以及教学态度等,最后学生可以进行自行浏览并且完成评估,而评估结果则会上传系统进行最后通过数据挖掘,筛选其中有用的信息,再通过Apr1ori算法挖掘其中关联规律。
5结语
虽然数据挖掘技术不是一项新兴的技术,但是其还具有较大的研究价值与运用前景,特别是在特殊领域的运用,对于一系列数据进行科学冗杂的处理,然后分析其中规则价值,可以有效提升各大行业的经济效益。
参考文献
[1]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,11(33):7831-7833.
[2]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,12(04):63-71.
关键词:数据挖掘;决策算法;遗传算法;近邻算法
中图分类号:TP301 文献标识码:A 文章编号:1674-7712 (2013) 04-0065-01
一、数据挖掘概念及技术
数据挖掘就是又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其实实质是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。其方法如下:
(一)人工神经网络:数据挖掘中使用最为广泛的技术,神经网络的数据挖掘方法就是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据中发现用于预测和分类的模式。神经元网络适用于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、关联、演变分析和离散点分析。
(二)决策树归纳算法:从关系数据库中提取关联规则是主要的数据挖掘方法之一,挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式,适合于探测式知识的发现,广泛用于医学、制造和生产、金融分析、天文学和分子生物学。
(三)遗传算法:分类和预测是数据分析的两种重要形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要方法包括:决策树,判定树、贝叶斯法、BP神经网络算法、遗传算法、粗糙集、模糊集等。预测方法有经典的统计方法、神经网络和机器学习等。
(四)近邻算法。是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这方面知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到宏观,以满足不同用户不同层次决策的需要。
(五)规则推导:属于无指导学习。对象应该根据最大化类的相似性、最小化类的相似性的原则进行聚类或分组。
(六)复杂类型的数据挖掘:是数据挖掘技术的当前一个重要的研究领域,极大提升了CRM数据分析能力的深度和广度,主要包括:多媒体数据挖掘、文本挖掘和web挖掘等。
二、数据挖掘的实施
数据挖掘研究具有广泛的应用前景,它可以应用于决策支持系统,也可以应用于数据库管理系统,现在关键问题是如何实施,以下谈论数据挖掘步骤如下:
(一)理解数据和数据的来源(understanding)。
(二)获取相关知识与技术(acquisition)。
(三)整合与检查数据(integrationandchecking)。
(四)去除错误或不一致的数据(datacleaning)。
(五)建立模型和假设(modelandhypothesisdevelopment)。
(六)实际数据挖掘工作(datamining)。
(七)测试和验证挖掘结果(testingandverification)。
(八)解释和应用(interpretationanduse)。
由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。
三、数据挖掘应用现状和存在的问题
数据挖掘所有处理的问题就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的消息,归纳出有用的结构,作为企业决策的依据。在零售业中商家从顾客购买商品发现一定的关系,提供打折购物卷等;保险金融行业利用数据挖掘可以辨别出欺诈行为;在企业中,半导体生产和测试过程差生大量数据,可以分析提高产品质量;可以电子商务网站进行分析,识别用户的行为模式,优化网站,提供个性化服务。当前引用最广的领域包括:数据库营销、交叉分析的市场分析行为,客户流失性分析、客户信用记分、欺诈发现、客户群体区分。
目前面临的问题:(1)数据挖掘的基本问题是数据的数量和维数,数据结构非常复杂。(2)面对庞大的数据,现有的统计方法等都遇到了问题。(3)面对海量数据,对数据变化的情况汇总分析做出考量和评价。(4)对于各种不同的模型应用,其应用效果进行有效的评价。(5)如何对互联网等非标准数据进行分析。(6)数据挖掘过程中必须保证涉及到了数据安全性和隐私性,加强防护措施。(7)数据挖掘结果必须和专业知识结合。
四、数据挖掘未来发展的前景
数据挖掘基于关系模式、DBMS系统、SQL查询等语言的方法理论为基础,涉及多学科技术的集成,包括数据库和数据仓库技术、统计学高性能计算、模式识别、神经网络、、机器学习、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析。有专门用于知识发现的数据挖掘语言;寻求数据挖掘中的可视化方法;在英特网上建立数据挖掘服务器并与数据库服务器配合,实现数据挖掘;加强对非结构化的数据挖掘如文本、图形视屏、图像、声音乃至于多媒体数据挖掘技术。交互发现、提供交互、个性化服务;能够自动完成知识的维护和更新。
参考文献:
关键词 数据挖掘;关联规则;典型关联;Apriori算法
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)15-0030-03
当今社会人们对计算机应用提出了更高要求,如今人们慢慢的意识到关系数据库有很多缺点和限制,这种问题又推动了数据库在更深领域上的研究。当前专家们对数据库的研究内容主要是把数据库技术与其他技术相结合,然后应用到特定领域中,这种研究现在已经取得了骄人的成绩。
1 数据挖掘技术
1.1 数据挖掘概念
从数据挖掘的本质上说它是一种具有更高商业价值的新型信息处理技术,数据挖掘技术的作用是对数据的应用来说的,其目的是使人们从低层次的联机查询过渡到对数据决策支持分析预测上,从而成为更高层次的应用。
1.2 数据挖掘技术的分类
关于数据挖掘针对其挖掘的对象,大致的可以做出以下分类,具体分为时态数据库、异质数据库、文本数据源、关系数据库面向对象数据库(Object-Oriented Database)、空间数据库、遗产数据库、多媒体数据库以及web等比较具有针对性的挖掘对象。针对数据挖掘的方法大致的可以归纳为:计算机学习法、数理统计法、信息聚类分析法、遗传算法Genetic Algorithm、神经网络Neural Network探索性分析法、不确定性推理和近似推理法、数据分析法、证据理论和元模式法、数据集成方法、当代数学分析法等。
根据数据挖掘技术的知识类型可以分为:广义范围的知识挖掘、差异范围的知识挖掘、关联范围的知识挖掘、预测范围的知识挖掘等。
1.3 数据挖掘的应用分析
根据麻省理工学院内部数据整理其科技评论杂志对数据挖掘技术的应用分析提出了10大新兴的科学技术数据挖掘能够在未来5年对人类的生产生活带来重大影响。根据种种数据分析所表明的问题我们不难发现数据挖掘技术面向实际应用方面不是一时的,随着时代的发展社会信息化进程不断加剧各行业的业务操作也随之逐渐向现代化流程转变,这一转变促使企业在处理业务时产生大量的业务信息数据。对于一般地企业内部的业务信息数据来说,其主要是由企业进行商业运作而产生的数据,这些数据的量一般比较少。这是都是企业为了获得市场分析而进行收集的,关于此类的数据挖掘的应用终将成为企业进行高层次数据分析,为行政决策提供技术支持的骨干技术。
1.4 数据挖掘技术和方法
1)统计方法。统计就是查找事物的数量或规律,数据挖掘技术中使用统计方法主要目的就是从事物的数量上来推断其规律,通常都是在事物的数据上来找线索,然后根据这些线索进行假设,然后根据这些假设去验证其可行性,这种方法最大的优点就是精确性。
2)模糊集。模糊集顾名思义就是不清楚,没有针对性。模糊集的数据处理分为两个方面一个方面是不完整的数据,另一个方面就是不确定的数据。模糊数据主要处理这两种数据,在这两种数据的处理上要比以往的数据处理更加方便有效。
3)支持向量机。向量机就是一些数学理论,支持向量机就是建立在某些数学理论上的结构风险。它主要的思想就是在一个高空的多维空间中找一个超平面,利用这个超平面把这两类进行隔开,这样就可以保证最小分类的错误率。它的一个很重要的优点就是可以处理一些线性问题。
4)规则归纳。规则的归纳就是对数据进行相关的统计,其主要反映数据项中的一些属性和集合,其中用的最多的归纳算法就是AQ法,它是归纳法中比较典型的,数据挖掘技术是目前计算机信息技术领域比较前言的研究方向,数据挖掘技术可以从数据库中找出一些潜在的、位置的信息和知识。
2 时态约束关联规则挖掘问题及算法
2.1 聚焦挖掘任务,提高挖掘效率
数据挖掘理论最初的研究侧重点是模型的建立以及算法的设计。随着应用于不同的场合,得出的结果证明单纯而又孤立的挖掘工具效果并不理想。传统的数据挖掘项目中,会进行详尽而反复的调研分析,并根据用户的需求制定细致的任务计划,最终的结果却并不理想,不能得到想要的结果。在算法中,如果想要得到用户的挖掘目标,除了算法之外,还需要有特定的实现机制,使得我们的挖掘计划能够转变成对一个系统工作的控制,这样才能使得挖掘项目能有期望的结果。这样的约束,不需要局限于某一个挖掘数据的阶段,在任何阶段都可以实现。而这样的算法机制,也是交互式数据挖掘算法的基本形式,通过这样的过程,来达到更好以及快速地完成挖掘任务。
2.2 保证挖掘的精确性
从数据挖掘的算法也可以看出,结果具有不可预测性,而正因此,对于算法运行的过程中,遇到的问题也是难以把握的,所以算法还需要加上反馈机制,通过这样的反馈,来进行验证结果并修正算法中的数据,如果这个过程中,挖掘到的数据是正确的,但也未必是用户所侧重的,所以数据挖掘的结果不仅要具有逻辑上的正确性,还要能够满足用户的主观偏好;也就是既要准确,还要可信且符合用户需求。而约束就是这样实现的,通过约束发现算法中的问题并及时校正算法,以最终能够满足各项需求。
2.3 控制系统的使用规模
数据挖掘算法的实现过程容易陷入一个误区,只侧重由一个系统处理所出现的问题,而忽略了对于控制系统的规模大小的考虑,这样的结果就是适得其反,问题并不会得到很好地解决。而约束数据挖掘的原理在于,系统的增量式扩充得到实现,确定了用户的需求和目标之后,通过约束参数的形式,来实现对一些有待解决的问题的验证,而这些数值的确定,可以通过实验的交互式输入实现,以找到较优值。而这样的约束过程,可以在数据挖掘的不同阶段加以实现;而在数据的预处理过程中,设置的约束个数既要能够保证挖掘的最终结果,又要注意保持数据的规模;在数据挖掘的过程中,对于整个项目的细分之后的子目标,也可以加上约束,以能够快速达到约束的目的;当然也可以对不同类型的问题加以不同的约束条件,以更好地解决问题;尤其是对于层级较多或者维度较高的数据,可以选择合适的约束来达到问题的转化或者简化。对于约束类型,时态约束下的关联规则指的是,一次数据库扫描挖掘算法,可以在一定程度上,减少I/O的个数,但是在数据量不断上升的过程中,对于计算机内存的占用也越来越大,而且是线性地增加,所以怎样很好地控制ISS的容量变得很有必要,而且这样也能够一定程度上减少对CPU的占用。为了这个问题的有效改善,我们使用了两种方法,一个是有效地约束时态数据库,用户所不感兴趣的时间范围内的信息去除;二是待处理的数据要进行分批处理,经过一定的数据结构进入内存,这样有效地将数据进行组织。而对于没有重叠部分的时区,可以生成独立的关联规则,减少了对计算机硬件资源的占用,而且很好地改善了精确度
问题。
3 数据分割下的挖掘问题及算法
对于理论基础比较成熟的算法―Apriori算法,研究的侧重点已经变为效率问题,人们也提出了各种的改进算法,本文选区几种比较有代表性的加以介绍。
3.1 减少事务的个数
这样的原理在于,当需要处理的事务不包含长度为k的大项集,那么也一定不包含长度为k+1的大项集。在算法处理的过程中,就可以将这样的事务滤去,在下轮扫描过程中,就可以不需要那么多的事务集。
3.2 基于划分的方法
这类算法比较典型的是频繁项目生成算法,该算法原理在于:把数据库分解成逻辑上互不交叉的部分,而每次只需要单独考虑一个分块,在这样的分块中,研究怎样能够发掘频繁项目集;而对于怎样将数据进入存储中,可以把需要处理的分块放入计算机内存中,这样有利于算法的并行处理,数据量相对于不分块前减少,提高了数据挖掘的速度。
3.3 基于hash的方法
在上述的发现频繁项目集的算法中,有人提出了改进算法,基于杂(hash)技术产生频繁项目集。而这也是他们在实验基础上提出的,因为实验中,他们发现频繁项目集的产生过程中,计算量主要集中在2-频繁项目集上,他们通过杂凑技术来对这个问题加以解决,把需要扫描的项目分发于不同的Hash桶,而对于每对项目来说,最多只可能在一个特定的桶内,然后通过实验分析,可以有效地降低了候选集的产生。
3.4 基于采样的方法
基于抽样技术的产生频繁项目集的算法的原理在于:通过对数据库进行抽样,产生一些可能成立的规则,然后通过数据库的未被抽样数据,进行检验,这些关联规则是否有效。其实这个算法本身相对比较容易实现,并且能够极大地减少数据挖掘过程中所付出的I/O代价,而不利的地方在于,抽样数据的随机性以及由此带来的结果的偏差比较大。抽样原理是统计学常用方法,虽然其得到的结果精确性可能并不尽人意;如果能被运用恰当的话,可以在精度符合要求的情况下使得挖掘效率大大地提高。
3.5 尽量减少数据库的扫面次数
早在1997年,Brin等一些研究人员就提出了一种用来减少数据库扫面次数的算法,这种算法实际上就是通过下层分析方法来提前处理。换句话说,当我们正在运行k-项集时,如果发现(k+1)-项集有极大可能会是频繁项目集,那么我们就直接将两者进行并行运算,进而得出(k+1)-项集支持度。这样的做法能够在很多程度上降低数据库扫描次数,从而在运行效率上要优于Apriori算法。
3.6 并行挖掘
数据分布技术的出现使得我们可以对数据子集进行深层次挖掘,而且在不同子集之间我们还可以开展并行计算。多层次关联规则挖掘就是并行挖掘中的关键技术之一,所谓多层次关联规则可以用上图来进行描述。在很多事务数据库中,某些项所隐含的概念有很多层次。
4 案例分析
这里我们以《天道》项目为例进行流失用户预警分析,通过其8、9两个月的相关数据来判断12月《天道》所有登陆用户的流失可能性和对应的流失概率。
序号 名称
1 单月总在线时长onlinetime
2 单月总登陆次数times
3 账户累计登陆总时长totalonlinetime
4 首登时间firstlogintime
5 月充值金额
6 当前等级playerlevel
7 阵营
8 游戏币总额
注:如若条件允许,能加入玩家的当前经验,玩家的游戏社交属性值,活跃度,及玩家的客服记录,玩家的来源广告媒体等信息将会使此模型的研究更有价值。
模型评估是运用Clementine的分析节点对已建立的客户流失预测模型进行精确性分析,评价指标为对未经分类处理的测试数据进行正确分类的。准确率,即“预测正确率= 正确预测个数/测试样本数×100%”。通过分析计算我们可以明确的看出(如下图所示),训练样本的精确度为81.42%,测试样本的精确度为81.46%,此模型的精确度已较理想,不过我们还可以通过增加样本容量(取三个月的游戏玩家信息,或者半年的游戏玩家信息),调整模型中的参数来提高模型的正确率。
基于上述分析,我们建立模型并分析:
分析结果显示:
1)3890
2)onlinetime>220363,样本权重为9%,流失275个,比例为7%,虽然比例较小,但这个部分的账户应是非常有价值的用户,若采取个性化的服务,应会带来更大的价值。
3)796
4)796
5)0
6)88
5 结论
数据挖掘技术与关联规则挖掘算法所包含的内容有很多,本文只是简单介绍了其中较为重要的一部分。在今后的工作中,笔者将继续致力于该领域的研究工作,以期能够获得更多有价值的研究成果。
参考文献
[1]孟海东,李丹丹,吴鹏飞.基于数据场的量化关联规则挖掘方法设计[J].计算机与现代化,2013(01):8-11.
[2]陆新慧,吴陈,杨习贝.空间关联规则挖掘技术的研究及应用[J].计算机技术与发展,2013(05):26-29,33.