前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘论文范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
系统采用C/S+B/S结构,主要由前端数据采集设备(位移及载荷传感器)、站点客户端、数据库及Web服务器等组成。各部分采取分布式协同处理运行方式,站点客户端利用前端采集的数据独立分析计算,分析完成后上传至数据库服务器,并通过网页服务器对外。
2系统数据
2.1系统数据结构系统采用MicrosoftSQLServer,创建了WPGUI与WPCHQ数据库来管理3万余口油井数据采集、处理及存储等,建设数据表65张(见主要数据表的关系图2),主要包括生产井的完井数据、静态数据、动态数据、采集数据、原油物性数据、机杆管泵等技术数据,同时系统保存了油井近两年功图电参数据(每天每口井到少100张),以及根据这些数据分析计算出来的结果和汇总生成的数据。
3数据挖掘应用
数据挖掘是从大量数据集中发现可行信息的过程,是统计分析技术、数据库技术及人工智能技术的综合。面对油井工况实时分析及功图计产系统大量的油井生产完备数据,长庆油田充分利用数据挖掘技术,对数据进一步清理、集成、转换、挖掘应用,深化功图系统数据分析,先后开展了动液面计算,系统效率在线实时监测、区块动态分析研究等,并应用于油田现场,取得了较好的效果,既节约了生产成本,又方便了现场管理应用,进一步提升系统在长庆油田数字化前端的核心地位。
3.1区块动态分析
油井生产中,每天都会获得大量的实时生产数据,目前系统主要对单井完成工况分析及产液量计算,如何通过分析和处理这些数据,及时全面了解油田区块产油量、压力、含水等变化规律是数据挖掘应用又一问题。长庆油田开展了基于油井工况诊断及功图计产系统的区块动态分析,从空间和历史角度,对油井分类、分级、分层次进行统计分析,挖掘生产数据里有用的信息,提炼区块共性问题,并按照设计的模板(区块指标统计图表、供液能力分析、产量分析、故障井分析等)每月30日自动生成全面及时的区块油井生产动态分析,从而指导区块生产管理,实现油田的精细管理,为油田开发决策提供依据。
4结束语
随着长庆油田数字化建设的不断深入,各种生产、研究、管理等数据库不断增加,如何深化数据应用,准确迅速从数据库是提取有用信息,已成为是数字油田生产管理的迫切需求。在基于油井工况实时分析及功图计产系统数据挖掘应用中我们积累了不少经验,拓展了系统功能,提升系统在长庆油田数字化前端的核心地位。在今后应用中,油田数据挖掘应用注意几个问题:
(1)数据是数字油田的血液,为了保证数据挖掘效率,在数据库建设中要规范数据存储格式,保证数据源及数据类型的统一,同时加强数据审核,注重数据入库的质量;
(2)数据挖掘中尽可能使用可视化工具,一幅图胜过千句话,数据挖掘可视化主要包括数据可视化、挖掘结果可视化、挖掘过程可视化等;
[关键词]数据挖掘数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
数据仓库是管理智能循证医学支持系统的基础,搭建数据仓库后,要充分地调取数据仓库的有效资源,必须要有强大的工具对数据仓库的资源进行规划整理。OLAP(On-lineAnalyticalProcessing,在线分析处理或联机分析处理)是一个应用广泛的数据仓库调用方法。它可以根据应用人员的指令,快速准确地对大量复杂的数据进行搜索查询,并以直观的容易理解的形式将搜索结果展示给医院决策者,使他们能够迅速全面地掌握医院的运营现状。
2采用可视化图形操作分析技术
可视化分析技术能够整合各式不同的数据来源或数据仓储系统,利用MicrosoftSQLServerAnalysisServices构建多维结构数据库(Cube),而后存取、分析商业数据,通过鼠标的拖、拉、点、选,操作各种维度与量值,迅速产生各式的分析图表与统计结果。可视化的图形操作能为用户迅速提供决策报表与在线分析处理(OLAP)等重要分析功能。运用专业工具所提供的报表(Reports)、实时查询(AD-HocQuery)、联机分析处理(OLAP)等重要商业智能的强大分析功能,使医院获得最全面、迅速的数据洞悉能力。具体功能如下:
(1)表定制及报表的整合,在报表灵活性和报表开发易用性等方面具有突出的优势,其报表是通过图形界面下的鼠标拖拽操作来直观的完成的,无须编写任何脚本或者代码,即可实现复杂格式的报表。
(2)优秀的BI前端图形展示功能,支持目前流行的几乎所有图形展现方式;而且图形之间可以任意组合应用,使支持的图形展现方式以几何级的方式增长。
1.1结果优化中遗传算法的应用遗传算法由达尔文进化论与孟德尔遗传变异论进行模拟后得到,该算法所采用的算法因子具有随机性,故设备故障的出现往往不会受到常规故障规则的限制,但是遗传算法在实际应用过程中,其对故障的整合分析,并不是盲目式的,而是针对机械设备状态运行情况,以设备最优化为基本原则进行不断完善计算进行的。若设备状态监测和故障诊断当中,直接采用了与设备情况相应的参数进行适值计算,但又不需要对优化参数进行明确计算,在针对部分无法明确计算得到的设备参数时,即可采用遗传算法对结果进行优化。遗传算法的智能性与并行性较强,利用该方法,可以对设备故障当中还未得到有效解决的部分复杂问题进行妥善处理。目前,遗传算法在设备运行函数的优化、设备模式的识别以及设备运行信号的整合处理等相关工作当中有着较为全面的应用,在将复杂的运行数据进行优化时,遗传算法具有较为良好的性能。综合其相关特点,在建立设备状态监测和故障诊断的模型时,可采用该技术使得模型更为合理化,使得设备状态监测与故障诊断的结果更为准确。以滚动轴承的状态监测与故障诊断为例。在实际工作当中,运用各类运算符集,对滚动轴承的原始性特征向量进行测量后,采取最优的组合方式获得新型向量,配合采用遗传算法得到最终的滚动轴承参数,并利用分类法,对各项间距进行了调整,使得滚动轴承的诊断参数更为准确。此外,利用该方法,还有效区分了滚动轴承的不同工作状态,测量结果较为全面,效果显著。
1.2模糊集理论的应用要点该方法通过模糊集合与模糊推理两种方法,其研究测试的对象是各类不确定性因素,属于传统集合理论的创新。模糊集理论在设备状态监测和故障诊断中的应用,主要包含了两个方面。一方面,是在相关数据概念的形成时,采用不准确和较为模糊的语言变量,根据人们习惯,对设备状态的变化及变量变化状态进行描述。具有较强的直观性,且相关人员在接受该类概念时,也可以更方便的理解接受;另一方面,该方法通过提炼模糊性规则,在建模时模糊化,使得机械设备的控制、预测以及故障诊断等过程拥有更为广阔的空间。
1.3基于实例分析的方案优化及调整该种方法拥有较为简单的思路,在对设备未来运行情况进行预测时,系统会匹配与设备目前情况相似的实际案例,并从以往的解决方法中选出最佳的解决方案,再结合设备实际情况进行相应调整。此类方法的应用范围较广,且得到的计算结果也相对准确,但同时也具有一定缺陷,即无法全面整合以往设备数据及解决规律,缺乏充足的继承性。该方法进行故障诊断的基本理念是,在选红枣解决方法的过程中,利用历史诊断方法成功案例为奠基,进行全面的推理工作,并采用类比和联想法,较为全面的对故障进行诊断。
1.4多种数据挖掘法的联合应用除上述几种数据挖掘技术外,实际工作中还涵盖了以传统数据统计为基础的统计分析方法、人工神经网络元技术、等多种方法,考虑到每一种方法或多或少具有局限性,故为了有效提高各类方法的应用效果,可以将各类方法进行配合使用,代表性的算法组合类型如表1所示。
以遗传算法和模糊集理论的配合采用为例。由于模糊算法,主要是利用了最大隶属原理和阀值原理,故可以按照不同故障的发生原因以及故障征兆的相互联系,在综合考虑的基础上对机械设备故障的可能原因进行全面分析。而该方法在运用的过程中,会对各类故障征兆进行约简化从而得到较为普遍的规律,但是所得到的规律也可能存在不可靠问题。故在实际应用模糊集理论的同时,配合采用遗传算法,通过对模糊集理论所得到的结论及规则进行全面优化,使得诊断的结果更为准确与高效。上述案例方法在涡轮机故障诊断过程中进行应用时,可先建立完善的涡轮机故障集,在此基础上采用模糊集理论对涡轮机故障进行诊断,配合遗传算法对涡轮机故障规律进行优化,使得最终故障诊断结果更为准确。除遗传算法与模糊集理论课进行配合使用外,其他各类方法也可以根据设备实际情况进行搭配,使得最终诊断结果更为准确有效。
2结束语
[论文摘要]在电子商务中,数据挖掘有助于发现业务发展的趋势,帮助企业做出正确的决策。本文对目前电子商务中的Web数据挖掘方法进行了总结,并对电子商务中的Web数据对象进行了分类,对网络数据挖掘的作用进行了分析,为今后电子商务中实用Web数据挖掘软件的开发与应用提供了参考。
一、电子商务和数据挖掘简介
电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上银行、网上支付结算等多种类型的电子商务形式。电子商务正以其成本低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。
数据挖掘(DataMining)是伴随着数据仓库技术的发展而逐步完善起来的。数据挖掘主要是为了帮助商业用户处理大量存在的数据,发现其后隐含的规律性,同时将其模型化,来完成辅助决策的作用。它要求从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取人们事先不知道的但又是潜在有用的信息和知识。数据挖掘的过程有时也叫知识发现的过程。
而电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术涉及到Internet技术学、人工智能、计算机语言、信息学、统计学等多个领域。
二、Web数据挖掘对象的分类
Web数据有3种类型:HTML标记的Web文档数据,Web文档内连接的结构数据和用户访问数据。按照对应的数据类型,Web挖掘可以分为3类:
1.Web内容挖掘:就是从Web文档或其描述中筛选知识的过程。
2.Web结构挖掘:就是从Web的组织结构和链接关系中推导知识。它的目的是通过聚类和分析网页的链接,发现网页的结构和有用的模式,找出权威网页。
3.Web使用记录挖掘:就是指通过挖掘存储在Web上的访问日志,来发现用户访问Web页面的模式及潜在客户等信息的过程。
三、电子商务中数据挖掘的方法
针对电子商务中不同的挖掘目标可以采用不同的数据挖掘方法,数据挖掘的方法有很多,主要包括下面3大类:统计分析或数据分析,知识发现,基于预测模型的挖掘方法等。
1.统计分析。统计分析主要用于检查数据中的数学规律,然后利用统计模型和数学模型来解释这些规律。通常使用的方法有线性分析和非线性分析、连续回归分析和逻辑回归分析、单变量和多变量分析,以及时间序列分析等。统计分析方法有助于查找大量数据间的关系,例如,识别时间序列数据中的模式、异常数据等,帮助选择适用于数据的恰当的统计模型,包括多维表、剖分、排序,同时应生成恰当的图表提供给分析人员,统计功能是通过相应的统计工具来完成回归分析、多变量分析等,数据管理用于查找详细数据,浏览子集,删除冗余等。
2.知识发现。知识发现源于人工智能和机器学习,它利用一种数据搜寻过程,去数据中抽取信息,这些信息表示了数据元素的关系和模式,能够从中发现商业规则和商业事实。利用数据可视化工具和浏览工具有助于开发分析以前挖掘的数据,以进一步增强数据发掘能力。其他数据挖掘方法,如可视化系统可给出带有多变量的图形化分析数据,帮助商业分析人员进行知识发现。
3.预测模型的挖掘方法。预测模型的挖掘方法是将机器学习和人工智能应用于数据挖掘系统。预测模型基于这样一个假设:消费者的消费行为具有一定的重复性和规律性,这使得商家可以通过分析收集存储在数据库中的交易信息,预测消费者的消费行为。按消费者所具有的特定的消费行为将其分类,商家就能将销售工作集中于一部分消费者,即实现针对四、Web挖掘的作用
通过收集、加工和处理涉及消费者消费行为的大量信息。确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体未来的消费行为,然后对所识别出来的消费群体进行特定内容的定向营销,节省成本,提高效率,从而为企业带来更多的利润。
1.优化Web站点。Web设计者不再完全依靠专家的定性指导来设计网站,而是根据访问者的信息来设计和修改网站结构和外观。站点上页面内容的安排和链接就如超级市场中物品的摆放一样,把相关联的物品摆放在一起有助于销售。网站管理员也可以按照大多数访问者的浏览模式对网站进行组织,按其所访问内容来裁剪用户与Web信息空间的交互,尽量为大多数访问者的浏览提供方便。
2.设计个性化网站。强调信息个性化识别客户的喜好,使客户能以自己的方式来访问网站。对某此用户经常访问的地方,有针对性地提供个性化的广告条,以实现个性化的市场服务。
3.留住老顾客。通过Web挖掘,电子商务的经营者可以获知访问者的个人爱好,更加充分地了解客户的需要。根据每一类(甚至是每一个)顾客的独特需求提供定制化的产品,有利于提高客户的满意度,最终达到留住客户的目的。
4.挖掘潜在客户。通过分析和探究Web日志记录中的规律,可以先对已经存在的访问者进行分类。确定分类的关键属性及相互间关系,然后根据其分类的共同属性来识别电子商务潜在的客户,提高对用户服务的质量。
5.延长客户驻留时间。在电子商务中,为了使客户在网站上驻留更长的时间就应该了解客户的浏览行为,知道客户的兴趣及需求所在,及时根据需求动态地向客户做页面推荐,调整Web页面,提供特有的一些商品信息和广告,以使客户满意。
6.降低运营成本。通过Web挖掘,公司可以分析顾客的将来行为,进行有针对性的电子商务营销话动,可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率。可以得到可靠的市场反馈信息,降低公司的运营成本。
7.增强电子商务安全。Web的内容挖掘还包括挖掘存有客户登记信息的后台交易数据库。客户登记信息在电子商务话动中起着非常重要的作用,特别是在安全方面,或者在对客户可访问信息的限制方面。
8.提高企业竞争力。分析潜在的目标市场,优化电子商务网站的经营模式,根据客户的历史资料不仅可以预测需求趋势,还可以评估需求倾向的改变,有助于提高企业的竞争力。
五、小结
本文介绍了在电子商务中可以被用来进行数据挖掘的数据源,以及可用于电子商务中的基于Web上的几种数据挖掘技术。将数据挖掘技术应用于电子商务,对这些数据进行挖掘,可以找出这些有价值的“知识”,企业用户可以根据这些“知识”把握客户动态,追踪市场变化,做出正确的针对性的决策,比如改进网站、向各类用户推出个性化的页面,或者向高流失客户群提供优惠政策进行挽留等等。但是在电子商务中进行Web的数据挖掘时还有很多问题需要解决。例如,如何解决不同国家不同地区存储Web数据的语义不一致性,如果提供更安全、快捷的服务方面还有很多工作要做。
参考文献:
[1]郝先臣张德干尹国成赵海:用于电子商务中的数据挖掘技术研究.小型微型计算机系统[J].2007(7)786~787
[2]赵焕平等:WEB数据挖掘及其在电子商务中的应用.福建电脑[J].2008(1)167
[3]石岩:Web挖掘技术在电子商务中的应用.科技情报开发与经济[J].2006(7)235~236