首页 > 文章中心 > 数据挖掘课程

数据挖掘课程

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘课程范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

数据挖掘课程

数据挖掘课程范文第1篇

关键词:统计学;数据挖掘;案例驱动

中图分类号:G712 文献标志码:A 文章编号:1674-9324(2014)40-0069-02

一、前言

近年来,数据获取和数据存储技术快速发展,各种数据库、数据仓库中存储的数据量飞速增长。人们关注的焦点要从噪声、模糊的随机数据中提取重要的信息、知识,数据挖掘的出现,提供了一种有效解决“数据丰富而知识贫乏”问题的方法。

数据挖掘作为统计专业的核心课程,是学生必须掌握的职业能力课程。根据高职生的知识结构体系和培养目标,我们采用案例驱动教学方法,以学生为主体,案例为主线,教师为主导,对案例进行分析,学习案例所涉及的相关知识点,从而会利用相关软件工具对数据进行分析,挖掘数据间的知识。

二、数据挖掘中案例驱动教学的实施

(一)合理高职高专统计专业数据挖掘课程教学目标

数据挖掘是集数据库技术、统计学习、机器学习、模式识别、可视化等学科的一个新兴交叉学科,又包含了聚类分析、关联规则分析、分类等,每一种挖掘又有不同算法,是一门理论性、实践性及综合性较强的课程。其知识内容丰富,内容深浅不一,各种方法变化快,新方法层出不穷,这对师生都提出了严峻的挑战。

高职高专将培养高等技术应用型专门人才为根本任务,以适应社会行业发展需求为基本目标,结合本院统计专业学生的专业技能特点,我们将本门课程的教学目标定位为:掌握数据挖掘课程涉及的基本概念,提高信息分析能力,能从收集到的数据信息中利用有效的软件工具CLEMENTINE进行知识“挖掘”;要根据实际情况制定合理完整的数据模型并进行评估,这些评估要具有可视性,才能有效地解决问题,而使数据挖掘更具有合理性。

(二)如何驱动教学来设计数据挖掘案例

1.介绍案例驱动教学法。案例驱动法是在“哈佛大学”的情境案例教学课起源,是一种探索性和协作性学习的教学模式。整个授课过程围绕着同一个目标和几项任务“教授”,学生通过对课程的学习、资料的查找和知识的整合,通过充分思考和与实践相结合,提高自身能力。这种案例驱动的教学法可以让学生提高学习兴趣,发展学生自身的能力。同时能让教师更好地发挥促进学生学习、引导学生成功的功能。

案例驱动法是把教学内容和目标通过一个任务来体现,把教材内容重新整合,老师的授课和学生的接受都围绕这个任务完成。

案例驱动法可以充分发挥学生的主体地位,从而改变传统的关于师生关系的观念,让学生从被动学习到主动学习,真正爱上学习,提高自己的创新、自学和实践能力,同时要求老师在授课中给予学生正确的引导、促进、组织和控制,这样可以增强同学间的协作精神和学生的独立意识。通过学生的自主学习和探索,可以改变原来枯燥的学习方式。对于数据挖掘这门课程,内容深奥,既要求学习一定的理论知识,又要求掌握数据挖掘的使用方法,因此我们引入使用案例驱动的教学方法。

2.数据挖掘案例教学的实施规划。利用CLEMENTINE软件工具进行数据挖掘,将数据挖掘看成一个以数据为中心的循序渐进的螺旋式数据探索过程,该过程分为业务理解、数据理解、数据准备、建立模型、方案评估和方案实施六大部分。因此,在教学过程中,我们围绕数据挖掘的六大部分,在每一部分,讲解基本的数据挖掘技术原理;对于数据挖掘算法,只要求掌握相关算法使用的方法和使用的场合,并会使用专业的数据挖掘工具CLEMENTINE,此应用的前提条件要求对学生进行数据挖掘;将教学的亮点和重点放在案例分析和实际应用上,要对学生进行动手能力的训练。

在教学的过程中,最重要的是案例的选取。通过参考教学大纲和教学目标,对教学案例进行精心设计,可以提高学生的分析能力,提高学生发现问题和解决问题的能力,才能更好地将教案落实,并形成具体的项目。根据数据挖掘课程的特点和具体内容,我们通过某些小案例引入一些相关知识,并且采用学生能够接受的一个大案例让学生使用成绩数据模型组织整个教学过程。

我们的课程内容按数据挖掘过程分为六大部分,按照每一部分的教学目标我们设计了多个不同的小案例如下。

(1)药物研究数据和学生参加社会活动数据案例:通过这两个数据模型掌握在CLEMENTIME软件工具中利用软件中SOURCES选项卡的多种节点读入多种文件类型(如TXT文件、EXCEL文件、SPSS文件等)的数据,掌握读入数据的数据类型,掌握APPEND节点、MERGE节点合并数据的方法。

(2)移动客户数据案例:通过利用移动数据让学生掌握TYPE节点进行变量说明的方法,会使用该节点进行有限变量值和无效值的调整,会使用DATA AUDIT节点对数据质量进行评估和调整;掌握数据中对离群点、极端值和缺失值的调整,对数据进行质量管理;会使用AGGREATE对数据进行分类汇总;利用FILLER节点对变量值重新计算,会用RECLASSIFY节点实现变量值进行调整;会对数据进行筛选、样本子集划分等处理;了解数据分析特征,把握数据间相关性强弱的基本手段;利用压缩样本量、简约变量值或变量降维等方法对样本量庞大的数据进行精简。

(3)决策树模型案例:了解C5.0决策树算法,会建立决策树模型,学会归纳和提炼现有数据包含的规律,建立分类预测模型,会分析结论,用于对未来新数据的预测。

(4)人工神经网络模型案例:了解人工神经网络算法,掌握人工神经网络建立的步骤,建立B-P反向神经网络模型,预测分析结果。

(5)贝叶斯模型案例:了解贝叶斯网络算法,掌握贝叶斯网络结构的组成和构建,会用TAN贝叶斯和马尔科夫毯网络解决从庞大数据中寻找输入变量之间的相关性,输入变量的组合取值对输出变量的影响,用网络结构直观展示它们的关系。

在设计小案例的同时,我们还选择学生既熟悉又感兴趣的综合项目案例选题:学生成绩数据、图书管理数据、电信服务数据等,让学生带着问题进一步学习课程,在学习中寻找方法解决项目中遇到的问题。当课程结束后,各项目组呈交项目数据模型和报告,且项目组长要向所有同学按数据挖掘的六大部分讲解分析报告。

3.案例驱动教学的成效。围绕案例进行教学的“数据挖掘”课程除了采用案例驱动教学法,还要增加学生的实际训练能力,都取得了明显的效果,从以下五个方面体现:①学生要主动提出问题,同时积极主动地参与课堂教学,才能提高学生分析和处理问题的能力;②增强学生的自主学习能力,要求学生通过小组讨论的形式和实际训练让学生以积极主动的态度处理和解决一些技术问题,从而提高自学能力;③学生间要注意培养团队合作能力的,也要具有竞争意识;④课程学习结束后,普遍反映对利用CLEMENTIME软件工具进行数据挖掘的自信心提高,能够进一步提高对专业的认知,独立解决一些数据统计分析的问题。

三、结束语

数据挖掘是统计专业的专业课程,其内容繁多、深奥,把基于案例驱动的教学模式引入《数据挖掘》课程,学生在学习过程中,实现了整个数据挖掘的流程,在基于项目的技术应用中深入理解了数据挖掘的理论知识。学生要将所学的理论知识和实践相结合,从而有效提高自己的操作技能和知识水平,培养了自己应用数据挖掘技术解决实际问题的应用能力和创新实践能力。

从教学效果来看,通过将理论教学和实践相结合,案例教学法整合了各种学习工具和教学资源,这样才能充分发挥学生的主观能动性,培养和提高学生的主观能动性,同时增强学生分析和处理问题的能力,今后,我们将继续完善数据挖掘的教学案例,研究和总结教学经验,使整个教学环节更加完善合理。

参考文献:

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,(26).

[2]覃义,杨丹江,刘忆宁.《数据挖掘》本科教学的体会与创新[J].科技信息,2012,(10).

[3]李国荣.培养统计专业学生动手能力和创新能力的探索[J].统计教育,2007,(9).

[4]白忠喜,鲁越青,梁伟,等.校政企共建基地开展基于项目驱动的实践教学改革[J].中国大学教学,2011,(2).

[5]焦国华,黄健柏,黄晖.数据挖掘技术在钢铁行业的应用[J].系统工程,2010,(28).

数据挖掘课程范文第2篇

关键词:数据挖掘;数据预处理;挖掘算法;Web挖掘;个性化推荐

中图分类号:G642 文献标识码:A

文章编号:1672-5913(2007)14-0027-03

1引言

数据挖掘是一门综合性的交叉学科,它融合了概率统计学、数据库技术、数据仓库、人工智能、机器学习、信息检索、数据结构、高性能计算、数据可视化以及面向对象技术等,在保险业、电信业、交通业、零售业、银行业正在被越来越广泛深入地使用,同时在生物学、天文学、地理学等领域也逐渐显现出技术优势,特别是在客户关系管理系统、个性化网站设计、电子商务系统、搜索引擎等方面数据挖掘技术显示出了独特的魅力。数据挖掘技术正在以一种全新的概念改变着计算机应用的方式。

从最近计算机技术的发展以及学生就业方面来看,对本校的应用性本科生开设“数据挖掘技术”课程迫在眉睫。但数据挖掘给人的感觉就是“高深莫测”,当前数据挖掘领域主要是博士生、硕士生研究的领域,数据挖掘课程也只在一些重点大学的研究生或高年级的本科生中开设,应用型本科院校以及一些高职高专几乎都没有开设此类课程。这限定了数据挖掘作为一门既有理论又有实践价值学科的应用和推广,笔者认为很可惜。从计算机专业的学生的毕业设计以及就业角度分析,相当多的同学以后会从事电子商务类软件的开发,而这类应用目前都渐渐基于Web作为应用平台,面对的是海量的数据信息,因此让学生掌握数据挖掘的思想和方法对提高计算机素养很有必要。即使将来从事控制、通信、游戏、图像处理等软件开发,数据挖掘的思想和方法也很容易找到用武之地。

2数据挖掘课程开设的可行性分析

从计算机技术发展以及学生就业反馈的信息,笔者觉得数据挖掘的思想、方法以及算法对应用型本科生是很重要的,并且让学生掌握好这门课程也是完全可能的。我校从1998年以来一直在高年级本科生中开设了“人工智能”课程,但从教学效果上来看,很不理想。“数据挖掘技术”这门课程在不少地方很像“人工智能”,“数据挖掘技术”课程中的一些思想就是从“人工智能”中发展过来的,但是“数据挖掘技术”课程与“人工智能”课程有一个本质的区别,就是数据挖掘从诞生的一开始就是面向大量的、实际的数据库信息,因此,具有极强的应用性,如果将“数据挖掘技术”课程看做是“数据库技术”课程的自然延伸,同时充分利用数据结构、人工智能、面向对象技术与方法、Web技术、概率统计等课程的基础,就能够将“数据挖掘技术”课程开设好。于是两年前,笔者在应用型本科生中做了尝试,就是取消原来的“人工智能”课程,取而代之的是“数据挖掘技术”课程,从两年的教学实践以及教学效果上看,行之有效。并且在教学中发现,虽然数据挖掘技术要用到人工智能的一些思想和方法,但没有“人工智能”课程作为前导课程,没有任何影响,因为,数据挖掘中的一些人工智能思想在“数据挖掘技术”课程的教学中是自成体系的,并且是以比“人工智能”中的方法更加简单、更加直接、更加面向应用的方式。开设“数据挖掘技术”课程必须以下列的课程作为基础(前导课程),当然这些课程都是一些常规课程。

1) 必须深入学习一门程序设计语言,通过这门语言的学习可以掌握程序设计的基础知识,并且掌握面向对象思想开发的精髓,能够进行可视化程序设计。学习程序设计绝不是记住程序设计语言的语法就行了,而要努力做到将应用中的思想变为程序。这一点是计算机专业学生的基本素养。这一环节没有做好,其余的计算机专业的专业课程,如数据结构、操作系统、数据库原理、编译原理、软件工程等就无法学习,即使学了,也不能真正掌握。笔者从计算机发展和应用角度,推荐学习C/C++和Java,要求对C++的模板以及STL或Java的数据结构类(在Java的util包中)能够较好掌握。

2) 掌握“数据结构”课程,特别是“数据结构”课程中的树的特点和应用。在“数据结构”课程中,树主要以二叉树为主,对于一般的树,在当前的“数据结构”课程的教学中都是将一般的树转化为二叉树来进行处理的,但是在数据挖掘中这样不太方便。数据挖掘中的很多算法都涉及到树的应用,并且大多都是不太规则的树,在数据挖掘中,采用树的思想与Java中的数据结构类或C++中的STL相结合的方法,能够得到很好的效果。

3) 掌握“数据库技术”课程中数据库操作的特点和应用。数据挖掘的对象主要是数据库中的数据,但作为数据挖掘对象的数据库的数据信息量往往很大,因此,为了提高挖掘的效率,需要建立数据仓库,或者需要在算法上加工,尽量减少扫描数据库的次数。

4) 掌握“Web技术”。这是因为Internet已经广泛应用并且深入人心,未来的软件相当多的都是基于Web平台之上,因此,对于Web挖掘不仅重要,而且具有直接的应用价值。当前Internet上的软件如一些知名网站、搜索引擎以及一些电子商务系统,采用了数据挖掘技术,得到了很多有价值的信息或提高了个性化能力,大大增强了企业的竞争力。因此,掌握“Web技术”课程对Web挖掘很有裨益。

5) 熟悉“概率统计”课程中的思维方式,对各种分布以及条件概率能够熟练掌握,在数据挖掘中的分类、关联规则等领域很多挖掘方法都灵活运用了概率统计中的思想和方法。

从“数据挖掘技术”课程的教学实践中明显看出,主要需要以上几门课程,并且教学结束后发现,学生不仅能够掌握数据挖掘的思想、方法以及算法,通过对一些主要的挖掘算法的实现,对“数据库技术”、“程序设计语言”、“数据结构”、“Web技术”以及“概率统计”掌握得更加深刻,将“数据挖掘技术”作为“数据库技术”的自然延伸,是“程序设计语言”、“数据结构”、“Web技术”以及“概率统计”的综合运用得到良好效果。

3 “数据挖掘技术”课程的设置

一门课程的设置,不仅要根据当前计算机技术的发展,同时也要根据当前学生的就业需求,充分考虑到应用型本科学生的特点。两年前,经过多方面的考虑以及参考了各种国内国外数据挖掘的教材以及论文后决定,“数据挖掘技术”课程教学学时定为32课时,讲课22学时,上机实验10学时。在这个总的学时定下来之后,就是对“数据挖掘技术”课程的内容设计,这是最重要的环节。精选出的内容不仅要反映数据挖掘的特点以及最新发展,还要结合应用型本科生的特点,要具有很强的针对性,重点要突出,要能够“学以致用”。最后“数据挖掘技术”课程的教学内容如下:

1) 数据挖掘综述2学时。本讲侧重于从两、三个具体应用领域进行分析得出采用数据挖掘技术的重要性与必要性,可以选取客户关系管理、体育竞技、信息安全和商业欺诈等作为案例,然后给出完整的数据挖掘定义和数据挖掘技术的分类,以及数据挖掘需要的一些前导课程的知识要点。

2) 数据挖掘过程及当前数据挖掘的软件工具2学时。数据挖掘的过程是数据抽取与集成、数据清洗与预处理、数据的选择与整理、数据挖掘以及结论评估。本讲重点讲解挖掘的过程,强调数据预处理对挖掘的重要意义,对于缺省的值、残缺的值等的处理方法。让学生对数据挖掘的整体过程有清楚的理解。然后介绍一下当前流行的商品化数据挖掘软件如IBM的IntelligentMiner和加拿大Simon Fraser 大学的DBMiner。

3) 关联规则挖掘与序列模式挖掘6学时。在介绍关联规则原理的基础上,主要介绍著名算法Apriori及其改进、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每个算法需要2学时,对每个算法要进行彻底分析,不仅能够理解算法的原理、思想以及过程,还要分析算法提出人为什么会提出这种算法,在日常生活中的含义是什么,算法的优点和缺点是什么,以及如何用Java或C++来编程实现该算法。最后,对多层次关联以及数量关联规则挖掘做个简单介绍即可。

4) 分类技术4学时。介绍分类的原理,主要讲解ID3和C4.5、朴素贝叶斯分类,简单介绍一下BP神经网络的分类。对于C4.5要求能够从原理上把握整个算法,能够进行连续值的离散化处理,理解C4.5比ID3的优势所在;对于朴素贝叶斯分类,要深刻理解该分类的原理以及贝叶斯信念网络的工作原理。特别的,对于FP_TREE以及C4.5算法的实现,需要用到不规则树,提出用C++或Java解决这种不规则树的方法。

5) 聚类技术4学时。在介绍聚类的重要性和分类的基础上主要介绍划分聚类PAM算法思想以及基于密度聚类DBSCAN,对于当前重要的聚类STING和CLIQUE做个简单介绍。最后,比较聚类和分类的不同之处。

6) Web挖掘与个性化推荐技术4学时。对于Web挖掘从内容挖掘、访问行为挖掘和结构挖掘三个方面进行讲解,重点讲解个性化技术。对基于最小关联规则集的个性化推荐以及基于协作筛的个性化推荐作深入剖析,并指出在当今网站设计中的重要意义。

7) 上机实验设计。精选五个上机实验。第一个实验是关联规则的Apriori算法或FP_Tree算法的实现,两个任选一个,如果选择Apriori的话,需要采取一些效率改进措施;第二个实验是序列模式挖掘中的AprioriSome算法;第三个实验是分类技术中的ID3或C4.5算法,这两个算法的主体相同,任做一个即可;第四个实验是聚类中的PAM或DBSCAN算法,两个任选一个;第五个实验是利用协作筛进行个性化网站的智能推荐。以上五个实验每个实验2学时,建议编程语言采用Java或C++,最后挖掘结果具有可理解性。

当然,以上的课程内容设计会随着数据挖掘技术的发展,不断进行微调,以适应不断变化的计算机技术发展与社会需求。

4 “数据挖掘技术”教学实践总结

两年前,虽然已对“数据挖掘技术”课程作了充分准备,但在刚开设这门课程的时候,很担心这门“高深莫测”的课程的教学效果。但经过两年的教学实践发现,这门课程的教学效果比预想的还要好。通过对该门课程的学习,学生不仅基本掌握了数据挖掘的基本原理和算法,同时对以前的一些主干课程如数据结构的理解和运用有了非常深刻的认识。更为重要的是,本课程的五个实验都是数据挖掘领域中最经典、最重要的算法,通过对这些算法的编程实现,不仅理解了数据挖掘关键算法的精髓,同时,这些数据挖掘算法实现的程序经过不断改进、加工,性能不断提高,由于都是源代码,可以将这些算法应用到一些实用的软件系统如客户关系管理系统、个性化网站中去,收到良好效果。此外,在网上的一些数据挖掘论坛中,经常看到一些初学数据挖掘的研究生或技术人员很想看一看数据挖掘经典算法的具体程序实现,我们也将这两年不断改进的程序源代码作为免费资源赠送给了不少同行,也为数据挖掘的推广应用贡献了微薄之力。

5结束语

“数据挖掘技术”课程的教学尝试目前主要针对的是本校应用型计算机专业本科生,虽然收到了良好的效果,但“数据挖掘技术”绝不仅仅是计算机专业学生才需要掌握的课程,对于我校通信系、电力系、自动化系等工科专业,经济系、管理系甚至一些文科类的学生也很有价值,因此,怎样在非计算机专业的应用型本科生中开设好这门新兴课程,甚至在高职高专学生中也开设好这门课程,则是需要作进一步的探索和尝试。

参考文献:

[1] 毛国君. 数据挖掘原理与算法[M]. 北京:清华大学出版社,2005.

[2] 陈文伟. 数据挖掘技术[M]. 北京工业大学出版社,2002.

[3] 余力. 电子商务个性化[M]. 北京:清华大学出版社,2007.

A Test to Applied College Students on Teaching Data Mining

XU Jin-bao

(Dept. of Computer Engineering, Nanjing Institute of Technology,

Nanjing 211100,China)

Abstract:Data mining becomes more and more important in nowadays. To applied college students, mastering the basics and methods of data mining technology demands immediate attention. This article gives some suggestions on how to teach these students well. The content of data mining technology course and experiments are selected elaborately. Mining technologies such as association rule , data classification, clustering , web mining and personalized recommendation are emphasized.

数据挖掘课程范文第3篇

关键词:数据挖掘;程序设计;教学

中图分类号:G64 文献标识码:B 文章编号:1672-5913(2007)02-0057-03

1程序设计课程与数据挖掘技术概述

程序设计课程是培养学生软件开发能力的一门课程。目前国内的理工类学校或相关专业普遍都为学生开设了程序设计课程。一直以来,如何了解多数学生在学习程序设计中所遇到的困难,如何帮助学生克服学习中的障碍,都要靠教师多年的教学经验来解决。这种传统的教学方法显然不能满足知识更新迅速的计算机教学过程。因此需要研究如何从学生提交的程序作业中利用数据库技术及时发现问题和解决问题。数据挖掘(Data Mining)技术是近年来新兴的数据管理与分析技术,主要用于发现数据中隐藏的线索,辅助人们进行科学分析和决策。数据挖掘普遍需要三个阶段:数据准备、挖掘操作和结果表达。下面以C语言为例介绍在程序设计课程教学中,对学生程序作业进行数据挖掘的一种应用方案。

2程序设计课程的数据挖掘过程

2.1 数据准备

根据程序设计课程的教学特点,我们按错误的严重程度将所有学生提交的程序作业的评阅结果归纳为以下5类,即题目错误、编译时语法错误、编译时语法警告、编译后运行结果不完全正确、编译后运行结果完全正确。为了对学生程序作业中的问题进一步分析原因,我们对以下8类数据进行分析,即功能模块函数序列、逻辑结构序列、语句类型序列、表达式序列、运算符序列、标识符序列、数值常量序列以及简化的字符常量序列。

要将文件形式的源程序分解为以上8项数据,就需要按语法规则完成以下步骤:

(1) 过滤程序中的注释信息和空白字符,产生预处理元素序列;

(2) 根据#include和#define等标记替换用户指定的包含文件和宏定义等预处理元素;

(3) 对照语法元素表,进一步将程序分解为关键字、标识符、常量、运算符、定界符等语法元素序列;

(4) 将数值常量以空格为连接符连接为一个数值常量序列;

(5) 将字符及字符串常量保留%d等格式字符和\n等转义字符后删去多余字符,以空格为连接符连接为一个简化的字符常量序列;

(6) 将所有运算符以空格为连接符连接为一个运算符序列;

(7) 将用户变量名和函数名统一编码后与程序中的关键字构成标识符序列;

(8) 将运算符与标识符及常量以空格为连接符连接为一个表达式序列;

(9) 将程序中的语句分类为表达式语句、函数调用语句、空语句、复合语句、if语句、else语句、switch语句、case语句、while语句、do语句、for语句、break语句、continue语句、return语句和goto语句,并组织成语句类型序列;

(10) 对语句按分号和大括号等定界符划分为模块函数序列;

(11) 将模块内语句按顺序、选择、循环的分类构成逻辑结构序列。

2.2 挖掘操作的过程

由于篇幅所限,下面仅以程序设计教学中的典型题目“温度转换”的数值常量序列和运算符序列为考察数据具体描述挖掘过程。

(1)数据清理

首先将数据准备阶段的各类数据与评阅结果组成一个数据记录集(如表1所示)。由于分析的目的是找出教学中造成学生程序错误的主要因素,而题目错误仅仅是因为学生操作马虎,与掌握程序设计的能力并不相关,因此把评阅结果全部正确的和题目错误的记录过滤掉,只保留评阅结果为语法错误、语法警告和运行错误的记录(如表2所示)。

(2)构造1项侯选集,发现频繁1项集

将所有数据作为1项集中的元素,构造1项侯选集,并计算不同元素的数量,如表3所示。保留其中数量较多的元素,滤掉其它元素,得到频繁1项集,如表4所示。

(3)构造2项侯选集,发现频繁2项集

将所有频繁1项集元素两两组合,构成侯选2项集,并计算组合后的数量,如表5所示。保留其中数量比较多的元素,滤掉其它元素,得到频繁2项集{=/*(-),编译警告}。

2.3 结果表达和解释

保留下来的2项集的两个元素分别代表了错误类型和造成该类型错误的主要语法元素序列,即现有数据表明(输入函数中)未使用取地址运算符是造成编译警告的主要原因。

3数据挖掘应用效果

在现实的教学过程中,我们对2005级8个班275名学生的5385个程序进行了统计和分析,发现题目错误的比例约占1.49%,编译错误的比例约占3.38%,编译时警告的比例约占1.21%,运行错误的比例约占8.10%,运行正确的比例约占85.82%。其中造成编译错误的主要原因是注释信息或各级括号定界符未配对;造成编译警告的主要原因是格式输入函数调用时缺少地址运算符或用户变量定义后未使用;造成运行错误的主要原因是除法运算符两侧运算量为整型常量。下面的图表反映了在程序设计课程的教学中没有使用数据挖掘技术和使用了数据挖掘技术的教学效果对比。

图1为未采用本方法指导教学的10次学生程序作业评阅结果统计图,其中靠上的折线表示每次学生作业的平均分数,靠下的折线表示每次学生作业的严重语法错误发生率。可以发现,学生每次作业的平均成绩基本呈水平小波动随机形状,表明学生成绩在学习过程中没有明显变化,同样严重语法错误发生率也没有明显变化。图2为一直采用本方法指导教学的10次学生程序作业评阅结果统计图,可以发现学生的成绩随着系统的使用时间增加而稳定的上升。在第三次作业以后基本保持在90分以上的水平,同时严重语法错误的比例也快速的下降,在第二次作业以后就控制在5%以下。以上对比说明本方法比较准确地发现了学生程序中的语法错误和算法错误的主要因素,使学生得到及时地反馈并在以后的程序设计中避免相似的错误,从而明显的改善了教学效果。

参考文献:

[1] 李建中,王珊 . 数据库系统原理[M] . 北京:电子工业出版社,2004.

[2] Richard J. Roiger,Michael W.Geatz . 数据挖掘教程[M] .北京:清华大学出版社,2003.

[3] GB/T 15272-94.程序设计语言C[S].

数据挖掘课程范文第4篇

一、知识发现与数据挖掘的理论基础

(一)知识发现的研究综述

知识发现(Knowledge Discovery in Databases,KDD)一词最早出现在1989年8月美国底特律召开的第11届国际联合人工智能学术会议上[1]。1996年,知识发现被Fayyad U,Piatetsky,Shapiro G和Smyth P定义为:知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[2]。对KDD的研究主要包括从数据库的角度进行研究以强调知识发现的效率,从机器学习的角度进行研究以强调知识发现的有效性,从统计分析的角度进行研究以强调知识发现的正确性,从微观经济学的角度进行研究以强调知识发现的最大效用。KDD过程是多个步骤交互螺旋式上升的学习和总结过程[3],基本流程包括:

(1)限定学习领域,储备预先知识、确定学习目标;

(2)聚焦目标数据集,选择一个数据集或在多数据集的子集上聚焦;

(3)数据预处理,数据降噪或数据清洗;

(4)数据转换;

(5)确定数据挖掘功能法则;

(6)获得知识信息、运用知识成果并重新选定学习目标。

在创新的过程中,单单依靠显性知识已经不足以支撑整个思维求异和技术创新的全流程。随着数据量的爆炸式增长,传统数据库的检索查询已不能满足信息社会的深层次需求,再加上传统分析手段的落后,大量数据来不及整理、分析或利用就已“时过境迁”成为无效信息,而且被长期积压在数据库中浪费存储资源。为了及时消解数据产生和数据理解之间的矛盾,还必须定期对数据进行深度挖掘,使得大量被隐藏的、有价值的信息得到有效利用。

(二)数据挖掘的理论探索

数据挖掘(Data Mining)是指使用算法来抽取信息和模式,通常是知识发现过程的一个重要步骤。数据挖掘融合了机器学习、模式识别、数据库技术、统计学理论、人工智能及信息管理系统等多门学科的最新成果。应用数据挖掘技术从大型数据库中发现隐藏在其中的规律和有用信息,为管理层决策提供事实型数据和研究模式。

根据KDD的目标任务,数据挖掘任务可分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。而所要挖掘的对象则可以分为:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及web等对象的挖掘。从方法论讲,其挖掘方法一般分为:聚类分析、探索性分析、机器、统计、神经网络(Neural Network)、遗传算法(Genetic Algorithm)、数据库、近似推理和不确定性推理、基于证据理论和元模式、现代数学分析、粗糙集(Rough Set)、集成方法等方法[4]。

(三)小结

综上,知识发现用于从大量数据中抽取规律信息,发现非预期或潜在的价值量,而数据挖掘作为知识发现的重要一环是与实践应用紧密相连的,两者不仅仅是对数据的简单检索调用,而是从数据集合中自动提取出隐含在数据中的关系和模式,进而对未来可能发生的行为进行预测,为决策者提供有力支持。

二、高校成绩管理与学科建设

成绩是学生在校学习期间对所学知识理解掌握情况和教师教学质量评价的原始记录,对学校的教学管理和教学改革措施评价具有重要的参考价值[5]。成绩管理是高校教学管理中的最为基础性的一个环节,是根据教学目的和教学任务,

通过学生的实际量化考核分数来进行统计、查阅和分析的综合性数据处理过程。该过程的科学与否,直接关系到教务管理的实际质量和教学工作的可持续发展,特别是在网络化和信息化的新形势下,该项工作被素质教育赋予更加深远的现实意义。本文所指学科成绩不仅限于学生的笔试成绩,还包括了学生参加各种校内外实习和培训,以及其他形式素质教育的量化数据。

(一)高校成绩管理所面临的新形势

从宏观上讲,随着国家高等教育普及工作的不断推进,以及教育战线“以人为本”理念的逐步深入,高校教务在成绩管理这一环节上所面临的任务显得比以往任何时刻都更加繁重。

首先,院校扩建和学生扩招为学科成绩管理模块在数据容量上增加了压力。近几年,随着一些高校教学资源的整合和扩充,许多高校设立了新校区、设置了新专业,反映在学生成绩管理上则是成绩数据的时空容量同时增长。每多出一个学生,从学籍材料到各年度学科数据再到图形化成绩资料都会相应增加,教师教务管理系统所要处理的信息量也会相应增加,这首先在量上增加了数据压力。

同时,素质教育为学科成绩管理如何更好地服务教师施教和学生学习提出了新的课题。素质教育是我国长期以来所推行的一项基本国策。学科成绩是高校学生在校的唯一量化评价指标,如何通过这些数据来及时反映出学生的学习效果和心理需求、反映出教师队伍的教学质量和教学改革进度,已经成为教务管理系统化的一个重要课题。

数据挖掘课程范文第5篇

关键词:数据挖掘;进阶课程;教学方法研究;本科高年级

学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。

1数据挖掘等进阶课程所面临的问题

1.1进阶课程知识体系的综合性

进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。

1.2进阶课程的教学的目的要求

进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。

2数据挖掘等进阶课程的具体教学方法

进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。

2.1进阶课程的课堂教学

数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。

2.2进阶课程的课后教学

对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。

2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。

3结语

数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。

作者:刘峥 王俊昌 单位:南京邮电大学计算机学院

参考文献:

[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).

[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).

[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.