前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇挖掘技术论文范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
电子商务既包括了低层次的电子贸易等,还包括了利用Internet网络开展的贸易活动,在多个环节中实现。电子商务的发展极大地改变了销售商和顾客之间的关系,在纺织业电子商务采用Web数据挖掘主要包括以下几点作用。电子商务进行Web数据挖掘的数据源主要包括查询数据、Web页面、在线市场数据等。服务器数据主要是指用户在访问电子商务网站中所产生的各种信息,如服务器Web日志文件。查询数据通过搜索引擎产生的查询数据,是一种比较典型的数据。服务器数据是网络信息的中转站,服务器数据一般具有防火墙功能,是网络信息的中转站,采用缓存功能,能够大大减少服务器的网络流量,加快运行速度。任何一个电子商务网站在Web数据挖掘过程开始之前需要进行数据挖掘,包括数据的准备、挖掘操作以及解释过程等。Web数据挖掘应用到纺织业电子商务中,能够帮助企业更好的掌握生产状态,更加快速的提出企业的销售信息,准确把握市场销售的变化,进而提高纺织企业对市场的应对能力,也能提高企业对生产的控制和管理能力,最大程度利用人力资源和物理资源,提高经济效益。客户关系管理是一种以客户为中心的经营策略,指导企业的开发发展和销售,提高企业的竞争能力,采用Web数据挖掘技术能够最大限度的利用客户资源,对客户进行分类,寻找潜在的价值,加强纺织业客户的管理工作。企业的信用状况将会严重影响企业的发展,利用Web数据挖掘技术能够跟踪调查企业的经营情况,为保证体系提供数据资料。客户在选择任何一种销售商并没有太大差别,企业本身想要留住客户,就需要想办法让客户驻留更长的时间,想要根据客户的习惯来设计,就需要了解客户的兴趣和需求,动态调整页面,满足用户的需求,挖掘客户访问信息,进而了解客户的需求。根据序列发现客户浏览行为的信息,明白客户的需求,根据顾客的需求来设计别出心载的界面,增加客户的驻留时间。Web数据挖掘在应用中能够帮助纺织企业更好的挖掘潜在的信息,商家可以根据潜在客户的需求和愿望来进行分类,正确的分类新客户,判断潜在的新客户,强化显示客户的需求,保证企业获得更高的客户收益。纺织业电子商务在应用Web数据挖掘中能够改进Web站点的设计,提高站点的效率。纺织业电子商务Web数据挖掘的使用不在依照专家来进行设计,而是根据客户的意愿来进行设计,利用关联规则来进行推理,发现潜在的规律,为客户的下次访问提供帮助。纺织业电子商务应用Web数据挖掘能够改变营销机制,在一般企业的宣传中可以看到,花费大量的资金来进行宣传,所起到的效果不是很好,若是通过电子产品的的方式就能得到更好的营销效果。
2、纺织业电子商务面向Web挖掘的新型架构
2.1Web数据挖掘的流程
采用数据挖掘技术流程为特征信息的识别制定目标问题的描述关联分析聚类决策树等。纺织业电子商务网络在挖掘数据中首先需要记录调库眼特征,包括购买历史、广告历史等信息。目标制定流程是寻找不同的隐含模式,关联分析主要是发现顾客喜爱的商品组合,聚类则是找到能够提供访问者特征的报告,决策树就是流程图,采用最少的步骤解决问题。先记录访问者的条款特征,当访问者访问网站时能够逐渐积累访问者的数据,交互信息包括广告历史等。在网上进行交易的最大优点在于能够有效的评估访问者的反应,采用数据挖掘技术能够得到更好的效果。电子商务网站想要将顾客购买信息这些信息集中在一起,容易出现浏览中出现遗漏的情况,在流程设计中采用聚类,能够确定网站的数据,向不同的访问者提供相应的报告。
2.2纺织业电子商务面向Web挖掘的新型架构
2.2.1Web挖掘关键技术
Web服务的体系结构主要动作构成包括服务注册中心、服务请求者、服务提供者等,服务提供者就是一种可通过网络地址访问的实体,服务请求者是一个应用程序的服务,服务注册中心是联系服务提供者和请求者。Web服务协议可以分为网络传输层、消息层、模型层等。网络传输层是Web服务协议栈的基础,可以采用任何格式,要求具有安全性、性能以及可靠性。数据表示层主要是提供数据描述手段,标准数据建模语言主要是XML。基于XML的消息层提供一个松散的、分布环境,是在分布式的环境中交换信息的轻量级协议。服务描述层主要是提供认识机制,服务分线层在实现中创建一个独立的开放框架,发现Web服务的功能,Web服务工作流语言是协议栈顶层的标准语言。Web服务的关键技术主要包括SOAP协议、WSDL描述方式等,SOAP协议是分布式环境中交换信息的简单协议,能够与现有通信技术最大程度地兼容,独立于应用程度对象模型、语言和运行平台等,本身不定义任何应用语义,一个SOAP信息是一个XML文档,AOAP规范主要由信封、编码规则、绑定等组成,AOAP信封定义整体的消息表示框架。移动Agent技术应用到电子商务中有非常大的优势,移动Agent技术具有响应性、自主性以及主动性等特征,应用到电子商务系统中能够减少电子商务活动的通信代价,减少网上原始数据的流量。电子商务中的教育要求包括访问流程信息,要求系统对环境的变化做出实时的反应,由中央处理器将移动Agent派遣到系统局部点激活消除隐患。
2.2.2Web挖掘平台设计
产品的功能实现在Web数据挖掘平台的设计中至关重要,要求数据挖掘平台具有动态、可伸缩性,能够根据市场需求的变化而随之变化,还要求具有足够的稳定性和可靠性。在进行架构设计时,需要注意架构的合理性、简洁性和可扩展性。根据数据挖掘、Web服务和相关结束,设计数据挖掘架构,见图1所示,Web服务的组合由Agent负责,待返回结果后,能够有效解决数据的分布性、可扩展性等,负责服务之间的通信,降低网络通信的负担,减少相应时间,实现挖掘算法库的动态管理。在挖掘平台的设计中,各种挖掘算法均采用采用Web服务封装,实现挖掘系统与算法的耦合。各个Agent模块之间相互独立。架构逻辑层主要分为4层,数据存储层为最底层,数据处理层主要包括Web服务的架构和数据挖掘的是吸纳,在Agent环境中将XML文件转换,将查询结果再打包成XML文档,形成模式集合最后提供给客户信息,把访问层和逻辑层设计为数据访问的功能封装。客户端的设计主要包括胖客户端和瘦客户端,大部分的系统功能集中在胖客户端。典型的Agent结构应用到Web服务,其他的Agent搜寻和定位这些系统。移动Agent应用到Web数据挖掘中能够弥补很多的不足。在Web挖掘架构设计中,独立出了搜索引擎,使得搜索引擎更加具有灵活性。传统的数据挖掘引擎主要包括算法调用模块和算法管理模块等,算法分布Agent子模块股则命令的传输,向UDDI请求,删除已有的挖掘算法等功能,UDDI服务器与Agent相互交换信息生成算法的WSDL文档,将信息保存到UDDI服务器上,完成任务。
3、Web挖掘原型系统的实现
目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术,但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别,目前基本上都使用IBMSPSSModeler平台的决策树和逻辑回归经典算法识别垃圾短信用户,由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。为建立白名单和科学封堵模型相结合的垃圾短信治理模式,实现精细化、行为级、高效性的垃圾短信治理,本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别和治理。相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。
2大数据挖掘的原理与优势
大数据是指数据量很大(一般是TB到PB数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主,大数据具有4V特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比。
3数据挖据流程和模型选取
3.1数据挖掘的主要流程
数据挖掘主要包括以下6大步骤。
(1)商业理解:确定挖掘目标以及产生一个项目计划。
(2)数据理解:知晓有哪些数据,以及数据的特征是什么。
(3)数据准备:对数据作出转换、清洗、选择、合并等工作。
(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。
(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。
(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。
3.2垃圾短信治理指标体系设计
垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中,用户通信行为信息包括活动轨迹、终端IMEI和数据业务访问等信息。
3.3模型的选取
对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为,通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。
3.3.1现有垃圾短信识别模型的优势与不足
识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。其中,神经网络因本身算法的复杂性,造成模型结果解释性较差,模型落地较困难而很少在实际项目中使用。目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。决策树模型主要具有以下优势:模型非常直观,容易让人理解和应用;决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。但是,使用决策树作为垃圾短信用户识别模型主要存在以下不足。
(1)决策树最大缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。
(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。
(3)容易出现过拟合。当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。
(4)决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因分箱丧失某些重要信息。尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。
相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等,逻辑回归技术是最成熟,得到广泛应用,逻辑回归模型主要存在以下不足。
(1)变量之间的多重共线性会对模型造成影响。
(2)应删除异常值,否则它会给模型带来很大干扰。
(3)逻辑回归模型本身不能处理缺失值,所以应用逻辑回归算法时,要注意针对缺失值进行适当处理,或者赋值,或者替换,或者删除。
3.3.2垃圾短信识别预测模型选取
鉴于目前研究者对垃圾短信识别使用的决策树和逻辑回归模型存在较多不足之处,本文从模型算法上对其进行改进,力求得到更加科学合理的垃圾短信识别预测模型。本文使用的数据挖掘模型为随机森林模型。
3.3.2.1模型简介
随机森林(RandomForest)算法是一种专门为决策树分类器设计的优化方法。它综合了多棵决策树模型的预测结果,其中的每棵树都是基于随机样本的一个独立集合的值产生的。随机森林和使用决策树作为基本分类器的Bagging有些类似。以决策树为基本模型的Bagging在每次自助法(Boostrap)放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。而随机森林也是进行许多次自助法放回抽样,所得到的样本数目及由此建立的决策树数量要大大多于Bagging的样本数目。随机森林与Bagging的关键区别在于,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,就连每个节点变量产生都有相当大的随机性。随机森林让每棵树尽可能生长,而不进行修剪。随机森林算法主要包括决策树的生长和投票过程。随机森林中单棵树的生长可概括为以下几步。
(1)使用Bagging方法形成个别的训练集:假设原始训练集中的样本数为N,从中有放回地随机选取N个样本形成一个新的训练集,以此生成一棵分类树。
(2)随机选择特征(指评估指标,以下同)对分类树的节点进行分裂:假设共有M个特征,指定一个正整数m<M,在每个内部节点,从M个特征中随机抽取m个特征作为候选特征,选择这m个特征上最好的分裂方式对节点进行分裂。在整个森林的生长过程中,m的值保持不变。
(3)每棵树任其生长,不进行剪枝。Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低偏差的分类树,同时保证了分类树的分类效能(Strength),分类树的分类效能是指分类树对新的测试数据的分类准确率。
3.3.2.2随机森林分类预测模型的主要优势
(1)随机森林的预测精度高,它可以产生高准确度的分类器。
(2)可以处理相当多的输入变量。随机森林不惧怕很大的维数,即使有数千个变量,也不必删除,它也会给出分类中各个变量的重要性。
(3)当在构建随机森林模型时候,对GenerlizationError估计是无偏估计。
(4)随机森林在设计上具有很快训练速度,训练出结果模型不必花费大量时间。
(5)对缺失值和极端值具有很强容忍能力,即使有较多缺失数据仍可以维持准确度。
(6)当遇到分类数据不平衡时,可以较好地平衡误差。
(7)随机森林算法并不会导致过拟合。定义组合分类器的总体分类效能s为:s=Ex,ymg(x,y)。若用ρ表示每棵分类树之间相关度的均值,则随机森林的泛化误差PE的上界可由下式给出:PE*≤ρ(1-s2)/s2。当随机森林有相当多的分类树时,随机森林的泛化误差几乎处处收敛于一个有限值。因此,随着森林中分类树数目的增长,随机森林算法并不会导致过拟合。
(8)随机森林在模型训练过程中,能够对特征之间的相互影响行为做出检测。随机森林算法具有以上优势,在垃圾短信治理预测中具有应用的优势,本文采用随机森林模型作为垃圾短信用户的分类预测。综上所述,随机森林模型主要在不会出现过拟合、训练精度高、能处理大量输入变量并输出变量重要性3个方面优越于决策树模型;在容忍缺失值和极端值方面明显优越于逻辑回归模型。随机森林模型在算法设计上有效弥补了决策树和逻辑回归模型的不足之处,在垃圾短信识别分类预测中具有较好的应用价值。
3.3.2.3垃圾短信数据挖掘模型构建
通过前述的商业理解确定了垃圾短信识别业务需求,并进行数据理解构建了垃圾短信识别指标体系,再抽取需要的数据,并进行数据清洗、转换、衍生变量计算等步骤,具备了建模的目标数据,接下来的任务就是通过随机森林模型构建垃圾短信分类预测模型,对垃圾短信用户进行识别。
3.4用户分类治理策略
通过随机森林模型的识别,根据用户是垃圾短信发送者的可能性评估,制定不同的治理策略,如图3所示。实际的执行过程中,需要根据清单的范围大小,适当的调整预测概率门限,以保证策略执行的效果,同时避免过多的正常用户的业务感知受到影响。
4垃圾短信治理平台的实现
4.1系统架构
垃圾短信治理平台的数据来源较多,需要处理的数据量也非常大,因此,数据采集和数据处理过程是相互影响的过程。垃圾短信治理平台的系统架构图如图4所示。
(1)数据采集层:是垃圾短信治理平台与多个数据库来源的安全访问接口,通过数据采集层实现数据挖掘和分析所需要的基础信息:用户属性信息、用户卡号信息、用户业务记录、用户的位置信息和消费记录。
(2)数据处理层:需要根据数据挖掘的需求,将采集的基础数据转换为业务服务层可以使用的数据,通过对基础数据进行整形、清洗和预处理,为后续的数据挖掘做好数据准备。
(3)业务服务层:主要包括应用和安全服务两个部分,应用包括数据查询统计服务、用户查询服务和GIS应用服务,同时,补充报表服务和文件管理服务以方便日常的工作。通过外部接口服务,可以部署相应的权限管理、数据管理维护以及注册服务等,降低系统的风险,保证信息的安全传递。
(4)功能模块:主要是根据客户需求,定制开发的功能单元,功能模块的个数以实际部署的情况为准。以图4垃圾短信治理平台的系统架构图某省公司的定制模块为例,主要包括指标查询模块、垃圾短信治理模块、用户综合信息分析模块和市场支撑应用模块4个部分。
4.2效果展现
针对不同的部门或用户,垃圾短信治理平台展现不同的数据,主要包括以下的结果展现方式。
(1)治理效果掌控:通过指标查询系统,及时掌握垃圾短信的治理效果,发现工作的成果和风险,达到及时发现问题并快速响应的目的。
(2)治理效率提升:通过垃圾短信治理模块,快速准确识别垃圾短信源头并定位区域,下发至地市公司快速处理,减小垃圾短信带来的不良社会影响。
(3)实现预先管控:通过用户综合信息分析模块,可以对潜在的具有垃圾短信源头特征的风险终端进行监控、通过外呼、资费信息等情况,提前发现和治理潜在垃圾短信源。
(4)渠道规范化:市场部门通过渠道信息和卡号信息,对一些垃圾短信来源集中的渠道的发卡进行监督和严格控制,从源头上减少垃圾短信的源头。
1分类。分类技术可解决事件的归类问题,在应用时,不仅可以完成数据分析的任务,还能对未来的数据类型进行必要的预测,比如,充分运用分类技术对客户的具体倾向进行预测,确定客户是否对相关研究感兴趣,该技术方法也可应用在医疗领域,针对患者的病情,通过分类技术选取适宜的药物。
2回归。回归技术的核心为已知变量的数值,在此基础上,对其他种类的变量实施必要的预测。在一般条件下,回归技术充分发挥了线性回归的实际效果,但从现实的角度讲,并不是所有问题都能用基本的线性回归进行分析和解决的,为了更好的适应这些实际的问题,相关人员对此也正在着手研究全新的方法,并已取得了显著的效果,许多新型分析方法应运而生,比如逻辑回归以及神经网络等。
3时间序列。时间序列技术实际上就是以过去的变量为基础,分析和预测下一阶段变量的方法。与回归技术相同,同样都是运用现有的组员完成预测任务的,但资源的时间序列是存在一定差异的。时间序列技术通常是在完整的时间流中截选一个时间区间,对应数据形成一整套单元,最后将此单元在时间流上进行滑动,从而获取训练集。
4描述型。图形与可视化工具是十分重要的,是相关人员完成快速分析任务的重要手段之一,改善了传统数据的枯燥与乏味,不仅实现了数据整体的分析,还能对其中的每一个细节实施细致的观察与分析,在图形模式的支持下,人们可以更容易的了解到数据信息中潜在的相互关系和模式。
5关联分析。关联分析技术是指在数据库中快速获取数据的相关性。较为常用的技术方法主要有两种,分别为关联规则与序列模式,其中关联规则是在相同时间中存在的不同项之间的相关性,而序列模式的研究对象主要为具体的事件。
6聚类。聚类技术实质上就是数据库的分类,组间差别尽可能的明显,而同一组内的数据要尽可能的相似或相同。聚类技术与分类技术存在很大的区别,在实施聚类以前,并不了解数据组的具体数量,分组的方法和依据也不知晓,所以在聚类完成以后,需要得到专业人士的分析和解释。
二、经济普查的根本目的与重要意义
1.根本目的。经济普查是为了充分了解我国产业现阶段发展的具体规模和实际效益,并创建完善的基本单位数据库和对应的管理系统,为社会可持续发展方针的落实奠定坚实的基础,同时也为国民经济的快速发展献计献策。经济普查的基本目标是了解情况,建立相应数据库则是必要的手段,最终目的是促进我国国民经济的快速发展与壮大。
2.重要意义。经济普查数据信息属公共产品范畴,既是党和政府认识我国基本国情的重要依据,也是判断各行业发展与走向的有效方法。经济普查的全面开展与落实,可以为广大人民群众开创更多的就业渠道,改善人们的生活质量,使国民经济的改革与建设更加完善与全面。
三、经济普查数据挖掘方法的应用
1.注册服务器。在经济普查中运用书库挖掘方法,首先应注册服务器。分析服务器是数据分析的主体,有着不可取代的作用,因此分析服务器一般为首要的注册对象,其他种类的注册对象都是它的一部分。通常情况下,分析服务器名称要与对应网络名称保持一致。
2.创建数据仓库。在分析服务器注册完成以后,即可在该服务器的基础上建立各类数据库,由于数据库中还缺乏具体的对象,因此可认定该数据库为空。为了使其发挥出更好的挖掘效果,还需充分考虑实际情况,创建适宜的研究对象。在计算机硬盘中寻找对应的安装目录,并在下分的子文件找到并观察经济普查工作的数据库,确定文件的实际大小,在文件中存在数据库操作方面所需的文件,这些文件主要以事件日志及数据的方式存在,且初始物理大小均为1M,在运行时一般以10%的速度增长。
3.建立索引。在上述操作完成以后,即可建立经济普查相关的数据库,但数据库本身只是一种数据信息的存储单元,想要使其发挥出最佳的效果,还需在数据库的基础上建立数据表,并建立与SQL操作所对应数据源,实际情况中满足选取条件的数据源有很多种,由于该操作事先已经完成了数据表的建立,所以该数据库中的数据类型仅有SQL这一种形式。
4.连接数据源。一般而言,数据库创建完成以后的首要建立目标为数据源,数据源在数据库中具有指定源数据的作用,数据库的基本数据类型有很多种形式,为了满足数据库使用的基本需求,可在同一种数据库中设置多种数据源。连接数据源是为了让数据挖掘更好的进行,在数据源连接完成以后,可在相关软件的支持下,完成数据挖掘的各项操作。
四、结语
[关键词]文本挖掘人 文社科 技术应用
[分类号]TP391
[文本挖掘概述
文本挖掘(text mining)是一个跨学科的交叉研究领域,涉及到数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。目前关于文本挖掘并没有统一的定义,关于文本挖掘的名称亦有“文本数据挖掘(text data mining)”或“文本知识发现(knowledge discovery in text)”等不同说法。一个比较广泛使用的定义是:文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。它是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。
一个完整的文本挖掘过程一般包括预处理、模式挖掘、模式评价等多个步骤,其中包含了多种文本处理与挖掘技术,如数据预处理技术中的分词、特征表示、特征提取技术,挖掘分析技术中的文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测等技术以及信息展示中的可视化技术等。
文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,因此可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识,目前在很多领域得到了广泛应用。文献计量的结果表明,近年来国际上文本挖掘的研究论文呈迅猛上升势头。以“text mining”为主题词在Web of Knowledge(WoK)中检索可得与文本挖掘相关的论文3 049篇(截至2010年),且呈逐年上升的趋势。从WoK学科统计来看,目前文本挖掘技术的研究主要集中于计算机科学、计算生物学、数学、医药信息学、生物化学与分子化学、信息科学、医学等自然科学领域,论文总数占文献总量的82%。相比而言,人文社会科学领域的论文则较少,两者之和为18%,其中人文科学仅为1%。
由于互联网时代学术资源生产与传递方式的变化,以新的方法和技术从海量文本中发现隐含的知识和模式,成为情报学中最有前景的领域之一。由于人文社科文献的非结构化特征更加明显,文献中包含的隐性内容更多,能否在人文社科领域成功运用文本挖掘就成为了检验文本挖掘的方法论优势的试金石。本文以文本挖掘的几个关键技术——信息抽取、文本分类、文本聚类、关联规则、模式发现与可视化技术为主要线索,分析发现文本挖掘技术在人文社科研究中的应用特点,以便为人文社科研究中更加自觉地应用文本挖掘方法提供新的思路。
2、信息抽取应用
信息抽取(information extraction)是文本挖掘的前-端技术,它从文本对象中抽取预先指定的实体、关系、事件等信息,形成结构化的数据并输入数据库。信息抽取所获得的结构化信息片段从一个角度反映了文本内容的内在特征,因此通过机器学习等方法可以从中发现知识、挖掘知识,为科学研究提供有力的支持。
信息抽取作为一门独立的内容处理技术,其本身在商业、情报分析、数字图书馆等领域有着广泛的应用,已有较多专门的信息抽取系统投入商用。在人文社科研究中,信息抽取常常作为文本挖掘的一个重要步骤,作为知识发现技术的前端和基础。文献构建了基于信息抽取的文本挖掘模型,均把信息抽取作为文本挖掘的一个重要组成部分,是提高文本挖掘效率的一个手段。不仅讨论了信息抽取对文本挖掘的作用,而且证实了通过文本挖掘得出的规则对信息抽取系统具有指导作用。除了作为文本挖掘的前端技术,信息抽取技术在改善信息检索、辅助知识发现方面在人文社科研究中有着较多的应用。
2.1 改善信息检索
传统的信息检索只能通过关键词与文档的匹配返回与用户需求相关的文档,而信息抽取则可以帮助用户直接定位所需的信息,无需阅读文档的全部内容。由于在处理海量数据时具有出色表现,信息抽取在多个人文社科领域得到了应用。在古典文学研究领域,德国莱比锡大学承担的eAQUA项目从古典文献资料(公元前3000年一公元600年)中抽取特定领域的知识,并通过eAQUA门户免费提供这些知识。在文献中,英国伦敦国王学院的Matteo(2010)介绍了一个信息抽取在古典文学中的应用研究项目,该项目旨在对当代关于古希腊和拉丁文学作品进行研究的二手文献进行实体抽取,并提供与原始文献之间的关联,从而提供更高级的信息展示和检索功能。在社会学领域,英国联合信息系统委员会(JISC)资助的ASSERT E’’项目综合利用信息抽取、文本聚类等技术提供了一个自动生成文献综述的系统。信息抽取技术与信息检索技术互相融合渗透,为人文社科领域海量信息资源的获取提供了极大的便利。
2.2 辅助知识发现