首页 > 文章中心 > 数据挖掘总结

数据挖掘总结

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘总结范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

数据挖掘总结

数据挖掘总结范文第1篇

随着我国经济社会发展,旅游业已经成为促进经济增长方式转变的重要产业, 旅游业是现代服务业的龙头产业,旅游信息的分析处理与应用对于旅游业建设来说至关重要。旅游业的发展需要大量旅游数据的支撑,但是,传统手工方式处理数据,难以发现数据的价值,海量旅游数据往往没有被充分利用,而数据挖掘技术则为旅游数据的高校利用创造了条件,提供了可能。对旅游业海量数据进行挖掘、分析、预测,提出相应的解决方案,研究意义重大。

一、旅游业数据挖掘国内外研究现状

随着我国的旅游业的迅猛发展,旅游产业正迈向国际化的轨道,传统旅游业积累的海量数据,没有被有效利用,资源被极大浪费。将数据挖掘引入到旅游产业是大势所趋。

当前数据挖掘在旅游信息化建设中的应用与研究情况主要集中在高校理论界的研究, 大多数研究仅仅是学术研究,真正运用到旅游行业的文章多是从某个具体的方面出发,针对个别应用进行数据挖掘的融合。笔者主要研究决策树方法在旅游信息化建设中的应用。目前,决策树算法有CLS算法、ID3算法、C4.5算法、CART算法、SLIQ算法、Z统计算法、并行决策树算法和SPRINT算法等。不同算法在执行效率、输出结果、可扩容性、可理解性、预测的准确性等方面各不相同。总的来说,这么多决策树算法各有优缺点,真正将数据挖掘运用到整个旅游信息化建设中还有很多问题需要解决。

二、旅游业数据挖掘算法选择

数据挖掘中常用的基本分类算法有决策树、贝叶斯、基于规则的算法等等。

其中,决策树是目前主流的分类技术,己经成功的应用于更多行业的数据分析。在关联规则挖掘研究中,最重要的是Apriori算法,这个算法后来成为绝大多数关联规则分类的基础。聚类算法也是数据挖掘技术中极为重要的组成部分。与分类技术不同的是,聚类不要求对数据进行事先标定,就数据挖掘功能而言,聚类能够可以针对数据的相异度来分析评估数据,可以作为其他对发现的簇运行的数据挖掘算法的预处理步骤。

各种算法分类模型建立有所不同,但原理是大致相同的。笔者考虑决策树算法结构简单,便于理解,且很擅长处理非数值型数据,建模效率高,分类速度快,特别适合大规模的数据处理的优点,结合旅游产业数据特点,故作重点分析。

三、旅游业数据挖掘系统需求分析

旅游业数据挖掘系统的基本特点如下:统计旅游兴趣;购物消费趋向;推荐其感兴趣的旅游景点;在后台管理中,通过决策树算法对游客数量、平均年龄、景点收费、游客来自地区等进行分析总结,为旅游消费者和旅游管理者提供服务:为消费者提供吃住行购娱乐天气各方面信息查询、机票、车船票、酒店、景区门票、餐饮等方面的预定与现金支付、第三方支付、消费者评价、在线咨询等方面的便利、快捷服务。为管理者提供推荐、游客管理、线路管理、景点管理、特色服务管理、机票管理、在线咨询管理、旅游客户关系管理等服务,提高整体服务效率和水平。

四、旅游业数据挖掘系统的实现

旅游业信息管理系统包括游客信息管理与游客信息分析两个子模块。根据系统日常运行出现的问题及时对系统进行维护,如添加或者删除某个模块功能,系统整体运行速度的更近等。系统运用数据库层、持久化层、业务逻辑层、表示层四层体系结构, 主要利用ID3算法达到旅游数据信息的快速、准确分类。考虑了游客与酒店之间的关系、游客与旅游路线之间的关系、游客与旅游景点之间的关系、游客与机票、车票之间的关系、管理员与游客之间的关系、逻辑结构设计。程序之间的独立性增加,易于扩展, 规范化得到保证的同时提高了系统的安全性。

详细功能设计包括:用户登录、用户查询、预定及支付、后台管理、旅游客户管理和数据分析等方面。本系统中主要运用Java语言就行逻辑上的处理。系统主要使用 Struts2和Hibernate这两个框架来进行整个系统的搭建。其中Struts2主要处理业务逻辑,而Hibernate主要是处理数据存储、查询等操作。系统采用Tomcat服务器。系统模块需要实现酒店推荐实现、景点推荐实现、天气预报实现、旅游线路实现、特产推荐、数据分析展现功能、报表数据获取、景区客流量变化分析实现等。需要进行后台信息管理等功能测试以及时间测试、数据测试等性能测试。

五、旅游业数据挖掘算法方案中存在的一般性问题及其改进

数据挖掘总结范文第2篇

关键词:数据挖掘技术;高职院校;教学评价;应用

中图分类号:G4

文献标识码:A

doi:10.19311/ki.1672-3198.2016.29.119

随着高校教学信息化的不断进步,教学管理过程中积累了大量的数据。但这些数据只是简单的业务统计,并未进行整理和分析。教学评价是教学质量监控体系的重要内容之一,如何把握其内涵以及最终的目的,是教学实践过程中的难点之一。充分应用数据挖掘技术能够对教学评价过程中的大量数据进行加工处理,从而为教学管理人员提供正确的决策,促进教学质量的提升。教学评价的科学性对于教学质量的提高具有重要意义,因此利用数据挖掘技术对教学评价的数据进行分析,能够有效提高高职院校的教学质量。

1 高职院校教学评价现状

高职院校教学评价主要是教务处对每个学期教师的教学质量进行评估,一方面教务处将评价表发放给学生或是网络评价,学生根据教学质量评价表中的内容给教师评分;另一方面教学督导和同行听课后给出相应的评价,最终形成教师的教学评价最后得分。教务处将教师的得分进行排名,并确定考核的等级。这种传统的教学评价对于教学质量的提高具有一定的作用,但是仍然存在诸多弊端,影响评价的准确性。近年来高职院校越来越重视对教学的评价,但教学评价缺乏一定的科学性。

1.1 对教学评价的认识模糊

近年来,高职院校虽然越来越重视对教学的评价,但是对教学评价的意义、教学评价在教学管理中的作用认识仍比较模糊。当前部分高职院校的教学评价还停留在初级阶段,没有意识到科学的教学评价在教学管理中的重要性,因此教学评价指标的科学性有待进一步完善。

1.2 教学评价理论薄弱

很多教学管理者对教学评价的理论知识比较薄弱,同时高职院校与专业的研究机构缺乏足够的合作,致使教学评价理论缺乏系统性,教学评价理论难以发挥应有的作用。很多高职院校教学评价工作人员并未接受过专业的评价理论培训,导致教学评价只是停留在表面,难以向深层次推进。

1.3 教学评价手段比较落后

高职院校目前采用的教学评价手段比较单一,评价技术相对落后。虽然很多院校开始采用模糊数学的方法进行评价,也取得了长足的进步,但是教学评价还是沿用现成的技术,并没有根据自身的特点进行创新和改进。

2 数据挖掘的分类与算法

2.1 数据挖掘技术的分类

2.1.1 根据任务分类

根据数据挖掘技术的任务进行分类,主要包括分类模型数据挖掘、总结、聚类、关联规则、序列发现以及依赖模型和异常发现等。

2.1.2 根据方法分类

根据数据挖掘技术的方法进行分类,主要分为分类算法、关联规则算法、最近距离算法和支撑向量机算法。

决策树分类法是应用最为广泛的算法,采用自上而下的归纳方法来总结数据规律,决策树的数据总结清晰明了,并且每个节点都使用信息增益度量来选择测试属性。简单讲,这种方法就是以树形结构来体现大数据的特点和挖掘结果。决策树具有多种算法,较早的如Quinlan在1986年提出的ID3算法和Leo-Breiman所提出的CART算法。决策树算法将数据有原则的进行分类,剔除无用或者用处不大的信息,从而实现大数据整理的高效性,在预测模型中应用广泛。所谓关联规则算法是通过数据之间的关联性建立一张关系网,从而找到解决某一问题的重要数据和条件,也就是通过对某种现象的检测来获得结果。关联规则算法使大数据清晰化,能够显示有用结果,减少统计时间。同时,该方法支持间接的数据挖掘和对变长数据进行处理,它计算的消耗量是可以预见的。最近距离法(KNN)的原理是以空间中的某个向量为样本,与其相邻的空间内与其相似的向量的统计就可以用相同的方法来统一。该方法的优势在于避免了其它方法的样本不平衡状态。由于该方法主要是依靠周边邻近的样本,样本数量有限,不能通过由判别类域的方法来确定类别,所以常用于样本之间重叠或交叉较多的空间。支撑向量法是建立在统计学理论的基础上的,靠机器来完成,是现代智能化统计的雏形。其原理在于将给定的有限的数理训练样本进行准确无误的折衷,从而提高的推广能力。

2.2 数据挖掘的过程

数据挖掘其实就是不断的反馈,其重要包括数据准备阶段、数据挖掘阶段以及评估和表示阶段。

2.2.1 数据准备阶段

数据挖掘技术应用的前提是准备数据,教师教学质量评价的所有数据均来自于系统数据库,所需数据主要有学生评价数据、同行评价数据、教师自评数据和专家评价数据等,这些数据的获取可以直接提取数据库表的内容。另外,还要综合调查问卷的数据。数据准备完成后,需要对全部数据进行预处理,使其满足数据挖掘格式。

2.2.2 数据挖掘阶段

依据数据的具体性质,选择合适的处理技术,常用的技术有聚类分析、归纳技术、关联技术以及神经元网络等技术,常用的算法有BP算法、ID3算法等。然后使用选择的技术和算法对数据进行挖掘。

2.2.3 评估和表示阶段

将教学评价的原始数据,利用数据挖掘技术转换为更加容易理解、关系明确的形式,采用统计学方法评价数据分析的结果,进而获得最佳的模式,同时还要预测可能发生的多种情况,为决策者提供多个方案。

3 数据挖掘技术在高职院校教学评价中的应用

教学评价的任务就是通过科学的手段,构建数据挖掘的模型,并将模型应用到高职院校的教学管理中。教学评价模型要尽量降低人为因素的干扰,重新调整教学评价中的属性权重。决策树算法在商业领域应用范围较广,并且成效明显,但是目前在教学评价中的应用还比较少,我们主要对决策树算法的应用进行分析,构建决策树模型,将其具体应用到高职院校的教学评价中。决策树模型能够在海量的数据中分析出可能影响学生、同行、专家评价结果的重要因素,能够建立教师的教学行为和教学质量之间的关系,进而发现相应的规律,为以后的教学评价服务。

3.1 数据挖掘技术在教学业绩评价中的应用

高职院校对于教学质量的评价一直缺乏科学的评价方法,因此教学评价的结果缺乏合理性,教学评价的效果较差。数据挖掘技术的应用,能够构建科学的、合理的教学质量评价体系,并由专门的部门负责测评,这样教师教学质量的评定就有了准确性,进而可以将教学等级作为评价的硬性指标,教师的晋级就有了理论依据。我们将其具体的应用分析如下:

(1)在成绩方面,多数高职院校是以期末成绩和平时成绩来评价学生,奖励结果多以奖学金的形式出现。采用传统的方式进行评价,只能单方面的靠成绩的数字来评价学生,而应用数据挖掘技术可以挖掘成绩背后的影响因素,实现对比分析和全面分析。从而对学生的学习成绩做出正确的评价,并且在教学环节中采用必要对策。(2)在考试试题的出题中,数据挖掘技术能够剖析学生的特点,从而针对性的出题,帮助学生发现学习中存在的问题。(3)教学评价。这是我们研究的重点,在这一过程中,教学评价源于教师,但是评价对象却是学生。在传统的评价中,我们往往忽视了对学生这一主体的作用,使用数据挖掘技术之后,评价的主体为学生,结合多种因素进行评价,从而根据学生的需求进行教学方法与课程设置的改革。使学生的学习过程循序渐进,更容易进入角色,提高学生学习的自信心。对影响学生的学习因素每个学期都要进行分析,利用管理系统并结合数据挖掘技术,就能更自如地完成教学改革,促进教学质量的提高。

3.2 数据挖掘技术在教学诊断中的应用

教学评价能够使教师明确自身教学目标的合理性,教学方法和教学手段选择是否科学合理,教学内容的重点和难点是否清晰,进而根据实际情况合理调整自身的教学策略,不断改进与完善教学方法。数据挖掘的结果可以使教师有针对性的解决教学中的问题,教学评价不仅仅要为教师的教学状况进行判断,同时对于教学改革的方向也提出了明确的要求,其能够引导教师树立科学的教学观和正确的质量观,使教师可以清楚自身的不足和今后的努力方向,督促教师不断转变教学思想,对教学的过程进行改革,发挥教师自身的主观能动性和创新精神,最终实现有效的教学改革。

3.3 数据挖掘技术在教学管理中的应用

教师教学质量的评价主要由教学主管部门完成,因此教学主管部门要利用数据挖掘技术科学的收集数据,并选择合适的算法进行分析和处理,通过数据库资料分析出提升教学质量的关键因素,然后将这些因素反馈给高职院校管理层。教学管理人员根据数据挖掘分析的结果可以及时制定正确的改进措施,进而发挥教学管理的功能。教学评价结果对其他教师具有良好的借鉴作用,有利于不断提高教学质量。

4 总结

教学评价是高职院校教学管理的重要组成部分,对我国高职院校教学质量的提高具有十分重要的作用。数据挖掘技术是信息化发展的产物,它能够处理海量的数据信息,提取出信息之间的关联,发现相应的规律,以此来服务于教学评价。数据挖掘技术通过不同的算法,可以找出影响教学质量的因素,进而使决策者可以指定正确的决策,提升高职院校的教学质量。因此高职院校在教学评价工作中,要加大数据挖掘技术的应用,使教学评价能够更好的为提升教学质量服务。

参考文献

[1]董琳.数据挖掘技术在高职院教学评价中的应用研究[J].电脑知识与技术,2013,(4).

[2]江敏,徐艳.数据挖掘技术在高校教学管理中的应用[J].电脑知识与技术,2012,(8).

[3]吕慎敏.基于数据挖掘的高校教学管理决策支持系统研究[D].济南:山东师范大学,2012,(6).

[4]高晓佳.数据挖掘在教育信息化中的应用研究[J].电脑知识与技术,2012,(2).

数据挖掘总结范文第3篇

Abstract: This paper briefly introduces the basic anti-money laundering procedures,mainly analyzes data mining technology and its application in anti-money laundering system.

关键词:数据挖掘技术;反洗钱程序;应用

Key words: data mining technology;anti-money laundering procedures;application

中图分类号:TP39 文献标识码:A文章编号:1006-4311(2010)21-0031-01

1反洗钱基本程序

1.1 定义目前关于洗钱的定义有很多种,国际上并没有一个统一的定义。但洗钱的本质就是利用资产、资金转换(转移)过程中所造成的信息缺失、信息隐蔽、信息不完整、信息不真实、信息复杂而使犯罪所得收益的原始来源和性质无法识别或追溯,从而掩盖和隐瞒其真实信息。

1.2 基本程序我国的反洗钱基本程序分为采集、监测分析和移交三个步骤:第一步,大额和可疑交易报告的收集。第二步,大额和可疑交易报告的分析和甄别。第三步,可疑交易线索移送。

1.3 反洗钱工作的主要问题①巨量数据报表和高误报率。②预设标准易于被洗钱分子规避。③无法自动适应洗钱形势变化。

2数据挖掘技术

2.1 数据挖掘定义数据挖掘(Date Mining),是指从大量的、不完全的、模糊的、随机数据中揭示出隐含的、先前未知的、并有潜在价值的信息和知识的过程。数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,是帮助发现隐藏在数据中知识和信息的有力工具。

2.2 数据挖掘任务①数据总结。②分类。③关联分析。④聚类。

2.3 数据挖掘流程引入数据挖掘技术应用于反洗钱系统中,完成从大量数据中自动提取出模型的过程。在建立攻击检测系统过程中消除人为因素和特定因素,为其开发一个更加系统化的方法,即开发一套能从各种审计数据中产生攻击检测模型的自动工具。我们应用关联分析和序列模式分析等算法,发现特征之间的关联和与时序有关的联系,从而完成对用户数据的收集与特征选择过程。

2.4 常用的数据挖掘算法①决策树。首先,通过一批已知的训练数据建立一棵决策树;然后,利用建好的决策树对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程,因而可以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。在反洗钱领域,决策树算法可以按照事前已经制定的决策模式对各种报告数据进行分类,最终以一种类似树状的决策结构显示出来,为分析者提供一个推力框架,帮助其摸清整个洗钱活动的过程并了解某一具体的洗钱操作在整个洗钱链条中的作用。决策树方法精确度较高,容易理解,效率也比较高,因而比较常用。②神经网络。神经网络系统由一系列类似于人脑神经元的处理单元组成,这些单元被称为节点。节点通过网络彼此互连,如果有数据输入,他们可以进行确定数据模式的工作。神经元网络可以通过本身所包含的无数个神经元持续不断地对报告数据进行反复计算,对某项资金流动是否牵涉洗钱活动进行认定,自动发现洗钱线索,并能通过自动学习制定出最为有利的反洗钱整体分析方案,提高数据分析效率。③相关规则。这是一种简单却实用的关联分析规则,它描述了一个事务中某些属性同时出现的规律和模式,依据一定的可信度、支持度、期望可信度、作用度建立相关规则。④K-nearest邻居。邻居就是彼此距离很紧的数据。该方法认为相邻数据必然有相同的属性或行为。因此,可以通过K个邻居的平均数据来预测该特定数据的某个属性后行为。⑤遗传算法。在反洗钱领域,遗传算法可以在发现可疑洗钱活动后沿最优路径追踪洗钱的各步操作,帮助分析人员总结大额可疑交易数据中所隐藏的洗钱疑点或疑点组合的发现规律,保证分析时能够发现某项洗钱活动的最重要线索,方便后期调查工作的顺利开展。⑥联机分析处理。其典型的应用有对银行信用卡风险的分析与预测、市场营销策略制定等,主要是进行大量查询操作。

3数据挖掘技术在反洗钱系统中的应用

3.1 系统的整体设计反洗钱系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性。到目前为止,研究人员已经提出实现了许多方法,但没有一种模型能够满足完全检测的要求。由于系统的设计和实现都取决于设计人员自身的知识储备和其对已知反洗钱形式的了解程度,因而系统的效率和环境性都受到了限制。

基于数据挖掘技术的智能反洗钱系统的核心就是从事件序列数据(训练数据)中挖掘正常和异常行为规则,构建规则库,在此基础上,再根据发现的证据进行反洗钱识别。

我们采用数据挖掘方法实现整个过程,并将它划分为三个过程。

①特征提取。②规则发现,对不同类型的数据,采用不同的数据挖掘算法发现其中的规则。③建立好规则库后,对每一次发现的证据,就可以根据规则来判断是否属于反洗钱行为。

3.2 基于数据挖掘的智能反洗钱模型的设计根据上面介绍的体系结构、数据挖掘方法和智能检测体系,我们设计了一种基于数据挖掘的智能反洗钱系统。其系统结构包括如下组件:数据处理、审计数据库、数据挖掘引擎、特征提取器、数据挖掘引擎、规则库、数据检测引擎和决策响应中心。

自适应数据挖掘反洗钱系统的工作原理如下:①活动监测Agent采集来自外部网络环境的各种数据,并把这些数据传送给协同Agent,协同Agent对从活动监测Agent来的数据进行过滤、格式转换等预处理,然后将数据存入审计数据库中;②审计数据库组件存储数据,并利用数据库查询技术产生训练数据集,同时特征提取器采用数据挖掘技术对当前用户行为进行分析,从中提取出当前用户行为特征;③数据挖掘引擎利用数据挖掘技术对审计数据库中的数据和提取出的特征进行学习,从中提取出有关行为特征和规则,建立异常模式和正常行为轮廓,从而建立检测模型,并存入规则库中;④数据检测引擎接受来自特征提取器的数据特征和数据挖掘引擎建造的模型与来自规则库中的正常规则进行分析,将分析结果送给决策中心;⑤决策中心分析判断结果以决定是否报警或更新规则库。

来自多个地方的数据,主要通过如下方式进行处理和转换。

①数据处理。②数据补齐。③数据汇总。

数据挖掘总结范文第4篇

随着我国的旅游业的迅猛发展,旅游产业正迈向国际化的轨道,传统旅游业积累的海量数据,没有被有效利用,资源被极大浪费。将数据挖掘引入到旅游产业是大势所趋。当前数据挖掘在旅游信息化建设中的应用与研究情况主要集中在高校理论界的研究,大多数研究仅仅是学术研究,真正运用到旅游行业的文章多是从某个具体的方面出发,针对个别应用进行数据挖掘的融合。笔者主要研究决策树方法在旅游信息化建设中的应用。目前,决策树算法有CLS算法、ID3算法、C4.5算法、CART算法、SLIQ算法、Z统计算法、并行决策树算法和SPRINT算法等。不同算法在执行效率、输出结果、可扩容性、可理解性、预测的准确性等方面各不相同。总的来说,这么多决策树算法各有优缺点,真正将数据挖掘运用到整个旅游信息化建设中还有很多问题需要解决。

二、旅游业数据挖掘算法选择

数据挖掘中常用的基本分类算法有决策树、贝叶斯、基于规则的算法等等。其中,决策树是目前主流的分类技术,己经成功的应用于更多行业的数据分析。在关联规则挖掘研究中,最重要的是Apriori算法,这个算法后来成为绝大多数关联规则分类的基础。聚类算法也是数据挖掘技术中极为重要的组成部分。与分类技术不同的是,聚类不要求对数据进行事先标定,就数据挖掘功能而言,聚类能够可以针对数据的相异度来分析评估数据,可以作为其他对发现的簇运行的数据挖掘算法的预处理步骤。各种算法分类模型建立有所不同,但原理是大致相同的。笔者考虑决策树算法结构简单,便于理解,且很擅长处理非数值型数据,建模效率高,分类速度快,特别适合大规模的数据处理的优点,结合旅游产业数据特点,故作重点分析。

三、旅游业数据挖掘系统需求分析

旅游业数据挖掘系统的基本特点如下:统计旅游兴趣;购物消费趋向;推荐其感兴趣的旅游景点;在后台管理中,通过决策树算法对游客数量、平均年龄、景点收费、游客来自地区等进行分析总结,为旅游消费者和旅游管理者提供服务:为消费者提供吃住行购娱乐天气各方面信息查询、机票、车船票、酒店、景区门票、餐饮等方面的预定与现金支付、第三方支付、消费者评价、在线咨询等方面的便利、快捷服务。为管理者提供推荐、游客管理、线路管理、景点管理、特色服务管理、机票管理、在线咨询管理、旅游客户关系管理等服务,提高整体服务效率和水平。

四、旅游业数据挖掘系统的实现

旅游业信息管理系统包括游客信息管理与游客信息分析两个子模块。根据系统日常运行出现的问题及时对系统进行维护,如添加或者删除某个模块功能,系统整体运行速度的更近等。系统运用数据库层、持久化层、业务逻辑层、表示层四层体系结构,主要利用ID3算法达到旅游数据信息的快速、准确分类。考虑了游客与酒店之间的关系、游客与旅游路线之间的关系、游客与旅游景点之间的关系、游客与机票、车票之间的关系、管理员与游客之间的关系、逻辑结构设计。程序之间的独立性增加,易于扩展,规范化得到保证的同时提高了系统的安全性。详细功能设计包括:用户登录、用户查询、预定及支付、后台管理、旅游客户管理和数据分析等方面。本系统中主要运用Java语言就行逻辑上的处理。系统主要使用Struts2和Hibernate这两个框架来进行整个系统的搭建。其中Struts2主要处理业务逻辑,而Hibernate主要是处理数据存储、查询等操作。系统采用Tomcat服务器。系统模块需要实现酒店推荐实现、景点推荐实现、天气预报实现、旅游线路实现、特产推荐、数据分析展现功能、报表数据获取、景区客流量变化分析实现等。需要进行后台信息管理等功能测试以及时间测试、数据测试等性能测试。

五、旅游业数据挖掘算法方案中存在的一般性问题及其改进

数据挖掘总结范文第5篇

关键词:就业信息;数据分析;挖掘技术;研究

中图分类号:TP311.13

随着数据挖掘技术的不断发展和数据管理的广泛运用,数据信息中存在着大量的决策意义,但是数据利用很低,局限于就业率的统计等。学生大学期间,顺利就业是一个非常重要的环节。对学生就业的指导是当今学校所面临的主要课题。在信息数据中找出规律,直接反映一定时期内的整个社会的就业状况、职业动态及其发展趋势。供职业指导人员指导就业工作和择业者选择职业的重要依据。

1 数据挖掘的定义和传统数据的区别

大量数据中挖掘或者提取的知识,也就是说把人们数据中潜在隐含的数据中有用的信息转化为知识的过程来运用。数据挖掘与传统的数据分析都是查询、报表、联机运用分析,但是,他们不同的区别在于没有明确假设的前提下去挖掘信息、发现信息、发现其中隐含的知识,所得到的信息应该是具体实用有效的信息。数据挖掘通过预测未来趁势以及行为,做出前瞻的,基于知识的决策[1]。

2 了解数据挖掘的基本步骤

数据挖掘的基本步骤主要有以下几个方面,分别是收集数据:收集可以从多个数据源中去收集,并获取资料,然后对数据进行整合;数据选择:分析所有收集到的数据,并决定选择数据和排除数据中无效,无利用价值的数据;数据清洗:检查收集的数据是否满足挖掘的条件,目的是将数据质量提升到符合所选择的分析的需求上去,从而保证数据信息的正确性和一致性;数据的转换:将已有的数据根据挖掘信息分析的要求进行分析和逻辑性的转换;建立模型:选择合适的算法进行合理而准确的验证;结果分析:对挖掘结果进行解释与实际现状相结合进行可视化的分析;知识同化:将分析所得到的知识集成到就业信息的运用当中去,进行决策供毕业生参考。

3 数据挖掘中的应用

3.1 数据挖掘在WEB中的应用

数据挖掘使用就业网站功能开发是通过就业网页内容的挖掘,主要是针对文本的内容进行挖掘,实现对网页内容的聚类整合,达到对就业信息的分类浏览和检索[2]。对用户所提的问题和历史的记录进行有效的分析扩展,从而提高检索的效率性。运用数据的挖掘技巧进行关键词改进和加权算法,这样就可提高就业信息的传播效果。利用数据挖掘的技术效果建立更深的访客量并加以进行精准的预测模式,从而达到真正智能型的个性化网络服务。

数据的收集是一个比较复杂的过程所涉及的东西也比较广泛,这对于就业信息的挖掘是一件比较困难的事情,从而我们就要学会应用数据应用流程,掌握挖掘的流程并学会运用。数据挖掘流程应用流程如图1所示。

图1 数据挖掘流程图

这一流程图有利于针对就业问题的提出问题进行分析,从而发现学生整体就业情况和学生的成绩、专业、区域等相关信息数据的关联。为数据准备打下基础,根据不同的数据可以显示不同的问题,采用数据仓库进行选择,通过选择、抽样和汇总等方式来选择符合就业条件的子集,最终建构特定的数据库挖掘。

3.2 就业市场预测

数据挖掘的主要价值在于通过数据信息从中提取有效的信息内容,从中找其规律,为就业者提供参考数据和借鉴的效果,通过历史就业信息数据的显示作为参考,针对不同专业的就业率、升学率、行业分布比例、地域分布比例等与其他院校进行数据上的比较并进行就业形势的综合分析,从中发现值得总结的信息。另外对历史数据的总结和对用人单位信息的记录,对每年就业率数据的横向比较,结合历史数据的纵向比较,通过对历年的就业地域进行分析情况及其就业层次分布情况,从而做到全面的观察就业的发展状况,形成对市场发展状况进行全面的监控,并为今后的工作提供参考数据。

3.3 毕业生分类信息挖掘

由于传统的数据无法满足大家的需求,所以我们就要对数据进行分析提取,学生数据中存在着大量情况,利用这些数据结合当今社会就业的就业形势,以通过数据挖掘的技术对毕业生资料进行构建。统一进行数据化毕业信息资料、并针对性别、专业、特长、技能、就业意向等因素进行分门别类,形成一套可视化信息图系统,从而方便用人单位进行面向主体的信息抽选,最终提高就业效率[3]。

3.4 数据挖掘中的反馈进行教学改革

学生的就业不仅仅就意味着教学工作的结束,也是对教学工作的最后一次检验。是通过就业总结来发现教学中出现的问题,从而分析对教学的反馈作用集中体现了数据的挖掘的教学价值和技术性价值。

为实现教学与人才市场相结合,从而保证并充分就业,有必要进行人才培养模式教学内容、教学方法和教学手段进行全方位的调整和改革,进行统一和机制改革[4]。专业设置和社会需求的有机结合、社会适应性与岗位针对性的统一结合,主动学习与社会实践的有机结合,整体的稳定性与适当的灵活性相结合,建立完善的专业预警制度。

4 数据挖掘中应注意的问题

数据挖掘的目的是把隐含的一大批看来无用杂乱无章的数据集中起来,取其精华,去其糟粕的进行合理的运用与判断。在实际运用中,进行数据挖掘并做出准确的判断。如果信息收集的不全就会导致部分数据错误,影响到分析的情况,这样就会违背数据挖掘的原则[5]。因此就要实现数据的科学化、专业化,但是在这个的前提条件下还需要注意几个小问题。(1)确保决策的目标性和科学性。决策目标是指在一定的环境下和内部条件下,在市场调查和研究中的基础上要预测出所要达到的效果、目的。(2)合理的进行数据的维护,数据挖掘得到的结果全部靠数据的提供,由于数据结构的复杂性,因此对数据挖掘要进行探索、分析变量、这样就可解决问题。分析数据中隐含的趁势,在具体的就业数据分析中要对这个趁势进行应有的考虑看其是否有探讨价值并进行评价。(3)进行科学的抽样,面对如此庞大而复杂的数据,只能对数据进行抽样选取,并进行探讨分析,不同的人对同样的数据进行分析会产生不一样的结果,将大家的数据进行综合才可进行保障就业的可靠性。(4)注重数据的私有,安全性、以及专业性,数据在挖掘的过程中要涉及到数据的私有安全和安全度,数据挖掘的结果是不确定性的,要和专业知识相结合才可确保数据提供的准确内容。

5 结论

数据挖掘技术的应用在不断的扩展中,也受到了学术界的广泛运用,当前的就业形势越来越严峻,尤其是针对应届毕业生,将数据挖掘运用到就业信息分析上,可以给就业者提供准确的就业内容,减少就业者从业的盲目性,促进教育、就业、社会三者关系的有机融合,从而达到可持续发展。数据挖掘技术要想得到有效的运用,就必须掌握其内涵,分析数据的技巧,从而能够更好的为学生服务。

参考文献:

[1]王晓燕,何月顺,杨文强.基于数据挖掘技术的高校教学方法研究[J].科技经济市场,2009(02).

[2]董芸.数据挖掘与统计分析[J].统计与决策,2010(09).

[3]陈树冬.论开拓高校毕业生就业市场[J].经济研究导刊,2011(19).