前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘技术研究范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:Web应用;数据挖掘技术;互联网;研究
中图分类号:TP393.09
随着互联网的产生,其网络上各种不同服务也正在快速产生而得到发展,很多公司急切需要通过利用互联网巨大的信息源对客户行为进行分析,搜寻最佳商机。Web数据挖掘技术就是从该种商业角度进行考虑,它是在二十世纪八十年代末的时候被研发出来,该数据挖掘技术是在Web网络原有的基础上纳入挖掘数据的方法与思想。在Web网络中通过该方法解决遇到出现的问题,以此形成Web的数据挖掘,基于Web网络的数据挖掘,它是数据挖掘中的一个全新的研究领域与方向,能够满足对未来电子商务的发展趋势的需求。
1 Web数据库及数据挖掘的特点
在对大量的网络信息进行认真分析研究的基础上,我们才可以进行Web数据的挖掘活动,在这个过程中一定要注意使用最佳的方式来进行,在具体的模式可使用过程中,必须要进行数据信息的提炼、信息选择、信息调整、数据挖掘和模式分析,然后再进行归纳总结,对使用者的习惯以及细化哦进行推测,以实现合理地信息数据管理,将可能存在的安全性问题的发现进行防御。Web数据挖掘所包含的内容及其宽泛,除了对信息数据进行的处理,还涉及计算机胡网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等多方面的内容。
从海量的信息中找到一个有意思的模式就是信息数据的挖掘,这些数据可以存放在数据库、数据仓库或其它信息存储中,从学科方面来说它已经具有了跨学科的性质,比方说数据库体系、信息储备中心、统计、机器学习、数据可视化、信息提取和高性能计算。
2 Web数据挖掘技术的概念与类型
所谓的Web数据挖掘技术,它是在挖掘数据技术的基础之上,针对网络数据中的服务日志文件与Web文档进行分析数据、归纳与汇总,并且在当中发掘与索取有用潜在的知识及信息的技术。应用Web挖掘技术能够发现更多的隐藏信息资源或者其他潜在的有趣应用模式,同时在信息过滤技术的协助下使客户获取层次更高的知识和规律。按照有关技术原理,可把Web数据挖掘技术分如下几大类:
2.1 Web的结构挖掘
结构挖掘是指在Web挖掘中运用Web构造组织之间的链接关联,从而对网页系统里具有实用价值的形式进行计算。在海量的Web超链接数据中,为Web网页面创造出足够的合适的数据信息资料,它可以对文档当中的引用、从属及包含关系聚集地反映出来,同时经由对Web文档当中信息资料体系进行分析,能够有效地处理掉存在的任何问题,以有便于搜寻到权威性的网页面。
在Web结构挖掘范围内,HITS和PageRank算法是应用最多的算法,这两个方面都是通过固定的计算手段进行测算的,在这种情况下可以对网页超链接的质量进行有效保护,比方说:在百度中搜索方式的使用可以提高计算水平。
2.2 Web的内容挖掘
内容挖掘主要是在Web挖掘中搜集有利的Web资源信息(例如:内容、数据及文档等)。Web包括许多不同种类的资源信息,现在绝大部分网络资源信息基本上均都是从www资源信息当中获得,这除了这些可以个体可以直接检索得到并加以使用达到目标的信息资源以外,还有一些信息数据是通过加密的普通个体是无法检索得到的,要向获得这些信息数据必须对其采取Web挖掘的手段来进行。
2.3 Web的使用挖掘
使用挖掘是在Web挖掘中实施挖掘网页面中的对应站点信息数据与日志文件,从而去对相应的站点进行有效地访问。这是因为在网页面的信息访问中,质量具有很重要的作用、复杂的信息,而每个资源信息在服务器的上面,都存在一个形式化的日志访问页面,当用户提出了访问页面的要求以后,访问服务器会自觉地将所需的数据进行记录。因此对Web不同的使用的日志访问进行分析,有助于掌控Web结构与客户的动态行为,更加有利于使网站的工作效率得到有效提升。
3 数据挖掘工作流程
3.1 定义问题
先对信息挖掘体系的主要目的进行评论,明确其具备的具体价值以及将会带来的实际效果进行分析。
3.2 形成数据挖掘库
对于数据挖掘来说数据挖掘体系是最重要的一个关键点,我们可以通过相关信息资料的搜集来证实,对数据体系的行程内容进行研究,生成“数据表述报告”,将信息资料库中所有的信息进行合理地整合,把来自不同数据源的数据并到同一个数据库中,让冲突的以及不一致的数据统一化。建好数据挖掘库以后应该安排专门的人员对它进行定期的检查管理,防止任何安全隐患的存在,在对它的安全性进行维护的过程中,需要定期备份,监视它的性能,还需要根据实际的需要不断地扩大它的存放空间,对那些专门用来存放复杂数据的系统中心,必须要将这项工作交给专业的工作人员来完成。
3.3 清理分析数据挖掘库
不正确的信息数据都是广泛地存在的,所以说对于很大的信息数据储存中心来说保证数据的正确性。所以,一定要采取有效的措施对其进行合理的管理,将数据保存与使用中可能会出现的机械性错误率降到最低,处理好模型与整个数据体系的完整性。
3.4 探索分析数据挖掘库
这样做主要是为了对信息数据的模型进行管理。主要包括选择变量、选择记录、创建新变量、转换变量、探索分析。
3.5 创立数据挖掘模型
做好这项工作对于信息数据的高效保存有很重要的作用,为了让模型更加合理,具有正确性与稳定性,我们必须要从宏观上来对这个模型所需的材料进行处理,让模型能为后续的数据保存工作提供一个依据与参考标准。
4 基于Web的数据挖掘应用
4.1 数据控掘在高校教学中的应用
使用该种体系有利于对学生学习生活的实际状况进行客观有效地分析,掌握学生的实际学习状况,为教师的教学活动提供详细的信息,提高教学效率的同时提高学生的学习效率,帮助学生在最短的时间内提高学习成绩;端正学生的学习态度,提高学习方法。
4.2 数据控掘在电子商冬中的应用
对于现代市场营销来说,网络方式引进就是其信息化的最有利的证明,随着我们的商务活动的不断完善,网络营销将会成为营销业的全新发展趋势。因此我们可以看到,将这一技术充分地应用到电子商务活动中,能够帮助企业进行客观的市场发展状况的分析,确定有效的发展目标,找到最佳发展方式。
5 结束语
总而言之,Web数据挖掘技术的应用有利于企业编制具有远见性的营销战略,促使企业可以在市场激烈竞争中掌控更加有利的发展时机。随着迅速发展的电子商务,Web数据挖掘技术在未来的发展空间将变得更加广阔及前途无量。
参考文献:
[1]柴文光,周宁.网络信息安全防范与Web数据挖掘技术的整合研究[J].情报理论与实践,2009(03):97-101.
[2]范建中,王福庆.基于Web的数据挖掘技术研究与应用[J].电脑编程技巧与维护,2009(12):32-33+42.
[3]居晓琴,周学全.Web数据挖掘技术探索与应用[J].山东纺织经济,2009(06):144-147.
关键词:数据挖掘;数据库;预处理技术
中图分类号:TP311.131
随着计算机和互联网的普及应用,由于其能够提高工作的效率,非常受到人们的重视,一些企业甚至在计算机应用的基础上,提出了无纸化办公的理念,在实际应用的过程中,计算机需要存储大量的数据,对于企业用户来说,很多数据具有私密性,如果这些数据泄露出去,将会给企业的发展带来严重的影响,甚至造成巨大的经济损失。受到特殊的历史因素影响,我国的经济和科技起步较晚,与西方发达国家相比,存在较大的差距,虽然经过了多年改革开放的发展,我国已经成为了世界第二大经济体,计算机的应用水平也有了很大的提高,但是在尖端的数据挖掘等领域中,研究的还比较少,而数据挖掘等技术,能够在很大程度上影响数据的利用效率,对于实际的工作来说,具有非常重要的作用。
1 数据挖掘的预处理技术简析
1.1 数据挖掘预处理技术的概念
数据挖掘技术是随着数据库的发展,逐渐形成的一门学科,在计算机出现的早期,受到其性能和体积的限制,能够存储的数据很少,不需要考虑数据的利用效率,但是随着晶体管和集成电路的使用,计算机的性能得到了极大的提高,相应的存储设备也有了很大的进步,计算机能够处理的任务越来越复杂,存储的数据越来越多,现在我国建成了多个大型数据存储中心,存储的数据量非常巨大。对于如此多的数据,如何筛选出自己想要的,成为了很大专家和学者研究的问题,在传统的数据应用中,通常都是利用检索技术,根据输入的关键词,在数据库中进行逐个的匹配,如果数据库的存储量较小,检索的效率就比较高,而对于现在的海量存储来说,逐个匹配显然需要很长的等待时间。数据挖掘的预处理技术,正是在这种背景下出现的,所谓预处理技术,就是在数据挖掘之前,对数据进行一定的整理,通常情况下,数据挖掘主要面对现有的数据库或者互联网上海量的数据,如果在数据库中进行挖掘,那么可以对数据库进行一定的修改,如完善数据分类的方式等,而在互联网上进行数据挖掘,显然就需要优化挖掘的方式,或者缩小数据挖掘的范围等。
1.2 数据挖掘预处理技术的特点
与正常的数据挖掘技术相比,如何增加相应的预处理环节,无疑可以极大的提高数据挖掘的效率,如在数据库中进行数据的挖掘,传统的挖掘方式下,通常都是利用检索技术,输入指定的关键词后,与数据库中的信息进行对比,这样逐条的进行检索,就可以找到自己想要的数据,如果数据库存储的信息量较大,那么利用这样的挖掘方式,显然需要很长的等待时间。如果增加相应的预处理环节,如在数据库中添加索引,对数据库中的数据进行分类,那么在输入相应的关键词后,首先与索引进行匹配,然后在指定类别的数据中进行对比,这样的方式,显然极大的提高了数据挖掘的效率,目前使用的数据库中,大多采用了这样的预处理技术,取得了很好的应用效果。受到特殊历史因素的影响,我国数据库相关技术水平较低,目前我国建设的大型数据库,都是与国外的技术公司合建的,通过实际的调查发现,现在我国还无法自主生产外部存储设备,市面上的存储设备,都是从外国引进的,但是在实际数据库的建设中,在外国存储设备的基础上,我国也进行了大量数据挖掘等技术的研究。
1.3 数据挖掘预处理技术的发展
从某种意义上来说,数据挖掘技术是随着互联网和数据库的应用,根据实际使用的需要,逐渐形成的一门技术,在互联网发展的初期,网络上的资源有限,而且受到计算机性能的限制,没有太多的娱乐项目,只能浏览一些商业网站等,随着计算机的普及应用,互联网有了很大的发展,现在已经建成了覆盖世界范围的因特网。据最新的统计调查表明,我国的网民数量已经超过了6亿,如果庞大的用户群体,为我国互联网的发展,提供了坚实的基础,但是通过实际的调查发现,我国的实际网络带宽,还没有达到世界平均水平,即使实际使用的网络带宽较低,我国互联网内容的发展速度依然很快,现在网络上出现了各种各样的网站,极大的提高了网络建设水平。在实际的网络浏览中,面对如此大的信息量,如何找到自己想要的信息,成为了一个实际问题,为了解决这个问题,出现了搜索引擎,只要输入相应的关键词,搜索引擎就可以很快的找到大量相关内容,然后进行必要的筛选,就能够得到相应的数据,但是随着互联网内容的丰富,除了传统的文字信息外,还有视频和音频等数据,如何在这些数据中,进行相应的挖掘工作,具有较大的难度。
2 影响数据挖掘预处理技术的因素
2.1 预处理的方式
在实际的数据挖掘过程中,能够影响挖掘效果的因素有很多,如数据量的大小、挖掘方式等,从某种意义上来说,数据挖掘就是数据的查找,从指定范围或者未知范围内,找到指定的数据,通常情况下,数据挖掘都具有很强的目的性,但是对于找到数据的量,并没有明确的要求,尤其是随着互联网内容的增加,现在的数据挖掘中,都会附带大量的相关信息。对于数据挖掘的预处理技术来说,预处理的方式,能够在很大程度上影响挖掘的效率,例如在一个一百条数据库中进行挖掘,为了提高实际的效率,通常情况下会采用检索的方式,根据输入的关键词,逐条的与数据库的信息进行比对,这样挖掘的效率具有很大的不确定性,如果要查找的数据排列比较考前,那么就需要很短的检索时间,如果要查找的数据刚好在第一百条的位置,显然就需要进行一百次匹配。如果采用索引的方式进行预处理,将这一百条数据根据自身的特点,分成十个类别,每个类别建立一个索引,那么在实际的匹配中,无论要查找的数据处于哪个位置,最多只需要十次匹配,就可以找到相应的数据,由此可以看出,预处理方式对于数据挖掘效率具有非常重要的影响。
2.2 数据量的大小
计算机经过了多年的发展,其自身的性能有了很大的提高,在实际的数据挖掘中,如果检索的数据较少,即使不经过任何的预处理,仍然可以具有很高的挖掘效率,但是随着数据库自身的发展,企业用户的数据库容量越来越大,在数据库中查找指定的数据,需要较长的时间,要想很好的解决这个问题,必须对数据挖掘的方式等,进行相应的优化。通过实际的调查发现,目前我国使用的数据库,大多都是国外的技术公司设计的,为了方便数据库的使用,大多采用了整体的外包,即软件和硬件都是由同一家公司提供,采用这样的方式,不但能够很好的解决软件和硬件之间不兼容的问题,同时可以提供优质的软件服务。目前市面上的数据库,大多对数据挖掘技术进行一定的优化,如增加索引环节等,通过这些技术的使用,很好的提高了实际的挖掘效率,但是这些预处理技术,并没有考虑到数据量的大小,如一些大型的数据库中,要想建立索引机制,本身就需要很长的时间,虽然在建立索引后,就可以直接的使用,即使数据库中发生变化,也不需要重新建立,只要根据数据的情况,将其存储到指定的分类中即可。
2.3 操作人员自身的素质
对于实际的数据挖掘工作来说,操作人员自身的素质,也可以在很大程度上影响挖掘的效率,经过了多年的完善,数据挖掘技术已经成为了一门单独的学科,计算机专业的学生,要进行相应知识的学习,但是通过实际的调查发现,现在的数据挖掘主要针对互联网上的内容,而互联网日新月异的发展,给数据挖掘带来了很大的难度。在这种背景下,如果没有足够的工作经验,显然很难完成相应的数据挖掘工作,因此刚毕业的大学生,数据挖掘的效果较差,即使能够完成相应的工作,也需要较长的时间,虽然这些学生在学校中,能够学习到大量的数据挖掘知识,为了提高教学的效果,老师还会讲解一些数据挖掘的实例,但是实际挖掘中,具有很多的不可控因素。如果操作人员具有丰富的数据挖掘经验,在实际的工作中,必然会总结一些相应的技巧,这些技巧的使用,可以在一定程度上缩短挖掘的时间,提高数据挖掘的准确性,对于数据挖掘工作来说,具有非常重要的作用,从某种意义上来说,数据挖掘的预处理技术,指的就是这些从实践中总结出来的技巧,然后进行科学、系统的分析,应用到实际的挖掘中。
3 我国数据挖掘预处理技术应用中存在的问题
3.1 没有意识到预处理技术的重要性
在传统的数据挖掘中,由于数据库自身的容量较少,采用检索的方式,就可以轻松的找到想要的数据,因此不需要预处理技术,随着数据库自身的发展,计算机的性能也有了很大的提高,在很长一段时间内,硬件的发展速度都要领先于软件,因此数据检索具有很高的效率,近些年互联网的普及应用,在很大程度上改变了这种现象,尤其是云计算等理念的出现。在互联网海量数据中进行挖掘,依靠单独的计算机,很难具有较高的效率,在这种背景下,如何优化数据挖掘技术,成为了很多专家和学者研究的问题,预处理技术就是根据实际工作的需要出现的,受到特殊的历史因素影响,在数据库的建设等方面,我国要落后西方国家很多,虽然近年来我国投入了大量的人力和物力,研究数据挖掘等技术,但是并没有取得明显的效果。正是受到自身技术水平的限制,使得我国数据建设中,对数据挖掘的预处理技术,没有足够的重视,导致很大数据库中,还采用传统的检索等方式,没有任何的预处理技术,在很大程度上影响了数据挖掘的效率,虽然一些数据库中集成了相应的功能,但是通过实际的调查发现,在实际使用的过程中,并没有启用相应的功能。
3.2 没有针对性的预处理方式
由于现在的数据挖掘,主要针对互联网上海量的数据,而互联网上的数据非常复杂,尤其是近些年网络的发展,出现了文本、视频、音频等各种各样的信息,在这些信息中进行数据的挖掘,显然具有较大的难度,而且互联网的数据量较大,即使借助相应的搜索引擎,依然需要很长的挖掘时间,对于现在使用的一些数据挖掘预处理技术,只有在一些特定的情况下,才能够发挥出一定的作用。数据挖掘预处理技术出现的时间较短,目前还没有形成统一的认识,不同学者根据实际工作的需要,提出了不同的预处理方式,通过实际的调查发现,这些预处理方式的应用,都具有一定的局限性,在特定的数据挖掘中,可以明显的提高挖掘的效率,但是对于其他数据的挖掘,就无法起到相应的作用。受到我国数据挖掘技术水平的限制,并没有意识到这点,在实际数据挖掘的工作中,通常都是随意的采用预处理方式,这样显然无法最大成都上提高数据挖掘的效率,有时候反而会降低工作的效率,目前西方发达国家的数据挖掘预处理中,都会根据每次工作的实际情况,针对性的设计一个预处理的方式。
4 数据挖掘的预处理技术应用措施
4.1 重视数据挖掘的预处理技术
考虑到我国的数据库建设中,很多都没有采用相应的预处理技术,在很大程度上影响了数据挖掘的效率,要想很好的解决这个问题,必须对预处理技术给予足够的重视,在数据库的设计时,就对预处理的方式等进行考虑,如果是购买的数据库服务,那么就要根据自身的实际情况,对预处理技术提供一定的要求,这样可以极大的提高挖掘的效率。通过实际的调查发现,西方国家的预处理技术水平之所以比较高,主要就是由于其重视,在实际的挖掘工作中,对于能够提高工作效率的所有细节进行完善,并总结相关的经验,方便下次的使用,正是这种供求双方的重视,使得西方发达国家的预处理技术快速的发展。我国要想提高自身的数据挖掘预处理技术,必须根据自身的实际情况,借鉴外国一些先进的经验,最大程度上完善预处理技术,要想达到这个目的,首先应该提高对预处理技术的重视程度,无论是实际的操作人员,还是管理人员和开发人员,都应该重视预处理技术的应用,然后从自身的工作角度出发,对其进行一定的完善。
4.2 提高工作人员自身的素质
数据挖掘预处理技术的应用,需要实际的操作人员,而不同工作人员,由于自身经验等不同,工作的效率会有一定的差距,如刚毕业的大学生,即使在学校中的成绩较好,掌握了足够的预处理知识,还是无法很好的完成相应的工作,尤其是近些年信息技术的发展,互联网上海量数据的挖掘,具有很大的难度。而且不同数据的挖掘,预处理方式等也应该具有一定的差异,通过实际的调查发现,目前我国的数据挖掘工作人员自身的素质普遍较低,无法根据实际的工作情况,针对性的选择一种预处理方式,在很大程度上影响了挖掘的效率,要想很好的解决这个问题,必须提高工作人员自身的素质,在实际的招聘过程中,尽量聘请一些具有丰富经验的人员。对于现有的工作人员,可以通过定期培训等方式,让其了解到最新的数据挖掘理念,以及预处理技术的重要性等,如果条件允许,还可以与一些先进的企业进行交流,学习先进的预处理技术,这样在提高预处理技术水平的同时,还可以对数据库的其他的技术,进行一定的优化。
4.3 采用针对性的预处理方式
经过了多年的发展和完善,数据挖掘的预处理技术已经非常普遍,目前的很大数据库建设中,都会采用预处理技术,甚至在日常的数据搜索中,也开始使用预处理技术,但是通过实际的调查发现,根据实际需要数据的不同,数据挖掘的环境、方式等会具有较大的差异,而这些条件的变化,必然需要不同的预处理方式。而目前我国的数据挖掘中,显然还没有意识到这点,为了提高实际的工作效率,虽然会采用一定的预处理方式,但是预处理的方式,并不会根据数据挖掘的不同,进行针对性的变化,没有真正的达到预处理的目的,在一些特殊的数据挖掘中,由于预处理方式的不当,甚至会降低工作的效率。由此可以看出,在实际的数据挖掘中,预处理方式的重要性,要想最大程度上提高工作的效率,必须采用针对性的预处理方式,对目前已有的预处理方式进行总结、分类,根据需要数据的情况,针对性的选择,如果人员的自身素质较高,还可以设计一个新的预处理方式,以此来最大程度上提高数据挖掘的效率。
5 结束语
通过全文的分析可以知道,随着近些年计算机和互联网的普及应用,数据的挖掘、存储、调用等技术越来越重要,受到特殊的历史因素影响,我国科技起步较晚,与西方发达国家相比,在数据挖掘等领域中,具有明显的差异,虽然经过了多年改革开放的发展,这种差距在逐渐的减小,但是很难在短时间内赶上发达国家的技术水平,在这种背景下,要想快速的提高我国数据挖掘预处理技术,必须结合我国数据挖掘的实际情况,借鉴西方国家先进的经验,完善目前的预处理技术。
参考文献:
[1]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(05):44-47.
[2]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发展[J].统计与信息论坛,2008(05):94-96.
[3]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报(自然科学版),2007(02):1-4.
[4]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006(01):46-49.
[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(03):10-15.
[6]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据挖掘新算法[J].控制与决策,2002(03):324-327.
[7]臧洌.人工神经网络在混沌观测时序数据处理中的应用[J].数据采集与处理,2001(04):486-489.
关键词:数据挖掘;计算智能;应用领域
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0016-03
数据挖掘技术在当前是人工智能和数据库研究的热点问题,它是一门涉及面比较广的学科,应用范围非常广泛。通常大家都比较清楚的是,人们可以用数据库进行数据的存储,还能够借助计算机等工具进行数据的分析以及从大量数据中搜寻有用的知识,正是基于二者的结合才促成了数据挖掘技术的诞生。在当前日益激增的信息量中,传统的搜索技术显然不能满足,通过数据挖掘技术,在海量的数据库中提取有用的信息,以供人们使用,更加符合现实的需求。此外,数据挖掘技术能够被广泛应用于销售、金融等多个领域,极大地推动了信息技术的发展以及现代化进程。
1 数据挖掘技术概述
1.1数据挖掘技术的产生
随着科技的进步以及网络技术的发展,计算机从硬件到软件都有着极大的进步。随着数据信息的迅猛增加,数据库技术现在被广泛用于各行各业之中,但是如果利用数据库中的信息,利用其隐藏的信息价值,获取更大的收益,成为技术工作者不断探究的新课题。虽然信息数据迅猛增长,但是现有的数据分析工具却无法实现在海量的数据中搜寻有用的信息,为决策者提供有价值的数据作出正确的决策和发展预测。为了解决此问题,数据挖掘技术便开始发展起来。在当前全球海量的数据资源以及各行各业巨大的需求,再加上技术工作者的不断努力,数据挖掘技术的发展取得了巨大的成就,并被广泛应用于商业管理、控制、分析、设计等领域。
20世纪60年代,数据库技术从基本的文件处理发展为数据库系统;70年代,关系数据库系统、数据建模工具等迅速发展起来;80年代中期开始,关系数据库被普遍采用,促进了新型数据库系统等发展。但是,随着数据库系统等不断发展,海量的数据成为数据库的负累,如何从其中搜寻有用的数据已经成为非常困难的事,在不借助任何工具等情况下,人类已经无法进行数据的处理和分析,这样不断地存储数据就像“墓地”,不能被人们利用,决策者不能从中提取有价值的数据进行决策的制定和发展的预测[1]。在此种背景下,数据挖掘技术便开始发展起来,并取得巨大的成就,现在人们已经能够利用数据挖掘技术挖掘数据库中有用的信息,帮助人们实现信息的利用和财富的转化。
1.2 数据挖掘技术的概念
当前,随着科技的发展和互联网技术的发展,数据库中各种信息不断增多,数据库技术也随之进步。虽然数据库管理系统被运用于各个行业,但因信息量的剧增,使得数据库管理系统从中提取信息的难度非常大。许多重要的信息都包含在海量的数据里面,需要我们将它们从中提取出来,利用这些数据发挥更大的作用,创造出更多的价值,获取更大的利益。而将这些信息从海量的数据库中提取出来的技术,通常叫做数据挖掘技术[2]。
数据挖掘技术是从海量数据库中搜索并挖掘有用信息的一种技术,帮助企业或个人通过数据之间的联系和不容易引起注意的信息,作出正确的决策,并且通过挖掘的信息进行预测发展趋势。数据挖掘技术能够利用信息发现未知的东西,与先假设再验证的数据处理技术不同,数据挖掘技术显然更加真实准备,更加能够被广泛采用。目前,数据挖掘技术越来越被各行各业重视并运用,在未来也有巨大的发展前景。
1.3 数据挖掘技术的功能
数据挖掘技术的功能非常强大,能够使用此技术在数据挖掘任务中寻找需要的信息。一般数据挖掘的任务分为描述和预测:简单在数据库中搜寻数据反映数据的一般特性即为描述;利用数据信息进行推算,进行预测即为预测。当前,数据挖掘技术的功能有以下几种:
1)概念或者类描述
数据一般是与概念或者类联系着的。能够用总结的、简单的、正确的方法进行概念或者类的描述就被称为概念或类描述。通过此种描述方法能够知道:一是任务数据的特征或者整体数据的特征,二是能够将任务数据的特征与其他数据进行特征的对比,三是能够利用前述二者进行概念或者类描述。
2)关联分析
数据挖掘技术通过关联分析能够发现数据之间的关联规则。这些规则比较固定地展示了数据之间的联系。数据挖掘技术的这项功能在事务数据分析中应用较多。
3)分类和预测
分类是指在任务数据中找出不同类或者概念的数据,而后利用分类进行预测还没有被发现的信息。预测是给建立一个模型来对不知道的数据进行预测或者给定一个数值区间,进行任务数据的预测。分类与预测的不同之处为:分类是利用分散的数值进行预测;而预测是利用连续数值进行预测。
4)聚类分析
聚类就是将任务数据进行同类的聚集,这些任务数据中有着非常高的相同点,但是不同聚类之间的差异非常大。与分类大区别在于,聚类是进行未知数据的类别。通过聚类,而后进行数据的分析预测。
5)孤立点分析
孤立点一般是度量或者系统执行失误造成的,也有固定数值突变产生的孤立点。目前,很多数据挖掘技术希望通过孤立点分析将其影响变为最小。不过,一单操作很容易使重要信息损坏或者丢失,毕竟孤立点是非常重要的。
6)演变分析
数据不是固定不变的,而是会不断地进行变化,利用数据挖掘技术进行任务数据演变分析,对其规律或者趋势进行预测。演变分析包括对数据的时间序列、周期进行分析或者类似性地数据分析。
2 数据挖掘技术的分类
数据挖掘技术的分类能够根据发现知识的种类、挖掘的数据库种类、采用的技术等方法进行分类。根据采用的技术进行分类,则主要有七种。
2.1规则归纳
规则归纳就是利用设定的统计方法进行归纳对挖掘者有用的规则,关联规则挖掘就是其中的一种。
2.2决策树方法
所谓决策树方法就是建立树状模型进行决策集合。利用已有信息挖掘数据库中重要的有价值的信息,构建支点,再根据数据的不同取值进行分支构造,最后通过分析形成整个的决策树。决策者可以根据此决策树进行决策的制定或者预测发展趋势。
2.3人工神经网络
人工神经网络的应用比较多,主要是模拟人脑进行数据的分析,建立非线性预测模型,从而完成分类、聚类等多种任务。
2.4遗传算法
遗传算法是模拟生物进化过程的算法。它是通过将一个问题分解为多个个体,然后在每个个体上进行取值,从而完成信息搜索、任务挖掘。
2.5模糊技术
顾名思义,模糊技术即是利用模糊集合理论对实际问题进行预测、推断等。一般来说,数据库数据具有模糊性,通过大概的数值估计,利用期望值、随机值进行组合,使得信息挖掘能够定性定量的转换。
2.6粗集方法
1982年,Pawlak(波兰)提出的数据分析方法。粗集方法是利用等价思想将数据分散,然后利用属性的等价进行集合,形成决策集合。
2.7可视化技术
可视化技术即是利用最直观的图形方法把数据库信息、数据的关联等呈现出来,决策者能够直观地通过图形进行发展趋势的预测,作出正确的决策。
3基于计算智能的数据挖掘技术的具体技术探究
3.1关联规则的挖掘
关联规则挖掘是关联分析中的一种数据挖掘技术,利用数据库中海量的数据进行有用信息间的联系的挖掘。当前关联规则的挖掘已经取得巨大的成就,当前,关联规则的挖掘技术有:1)多循环方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在数据库增加纪录后关联规则的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于约束条件的关联规则挖掘,就是为了发现更多、有用、特别的关联规则;5)挖掘多值属性关联规则,包括扩展布尔属性的关联规则算法、K度完全方法等 [3]。
3.2分类规则的挖掘
分类规则的挖掘就是在已有数据的基础上建立分类模型,利用该模型将数据库中的数据映射到分类中,从而进行数据预测。分类模型的构造方法有许多种,通常有决策树法、神经网络算法等。由于分类模型等正确率与数据、属性等因素有关,因此在进行分类评估时需要采用以下方法:一是保留方法,将数据库中的一部分数据保留,其他的用于数据分析评估;二是交叉纠错方法,即是将分类中有重复的数据进行提取,而后进行测试,提高评估正确率[4]。
3.3聚类分析
聚类分析就是将特征相似的数据进行归类,建立成一个集合。再聚类之时要保证数据相似性最大,而不同类别的数据相似性要最小。这些数据的特性在事前并不清楚,聚类分析就是要通过将数据进行归类在进行分析,发现有价值的信息。聚类算法一般包括基于概率的聚类算法以及基于距离的聚类算法两种。在实际应用中,基于概率的聚类算法因效率低下而采用较少,基于距离的聚类算法因效率高被广泛采用。通过聚类分析,对数据进行挖掘分析,能够更加准确地获得更多地具有价值的信息,为决策者作出决策或者作出发展预测提供更加有力的数据支持。
3.4离群数据挖掘
离群数据就是指那些明显跟其他数据不同的数据类型。离群数据的挖掘时数据挖掘技术中非常重要的内容,它通过发现离群数据与其他数据的区别,获取比一般数据更有价值的信息。一般离群数据主要有以下发现方法:一是基于统计,即在已知的数据上进行离群数据的挖掘;二是基于距离,即通过计算数据间的距离进行离群数据的挖掘;三是基于偏离,即在事前知道数据的特性前提下对数据进行检测发现离群数据;四是基于规则,即是根据已有规则发现明显不同规则的离群数据;五是离群数据发现的多策略方法,即是对数据进行聚类,进行子集的划分,再根据观察发现明显不同的离群数据。
4数据挖掘技术的应用领域
随着数据挖掘技术的不断发展,各行各业越来越意识到数据挖掘技术的巨大优势,因此其应用前景非常广泛。数据挖掘技术的应用主要在以下领域:
4.1科学研究领域
科学技术领域需要运用各种最新技术,利用最新技术进行科学领域的研究。随着科学数据收集工具的运用,各种科学研究收集到了海量的数据,但是显然依靠人力或者传统的数据分析工具是不能够应付的,因此必须要使用一种能够从海量数据中自动搜寻分析提取的工具。正是科学技术领域的需求,推动了数据挖掘技术的发展以及在科学技术领域的应用,并为科学研究领域作出了巨大的贡献。比如,在遗传研究领域,涉及DNA的数据非常多,而且DNA的组合、顺序等更不相同,如果想要从中找出致人疾病的基因组,依靠人力进行数据的排练组合显然是不可能的,所以必须采用数据挖掘工具,对不同的基因组进行分析,剔除无害的基因组,选择出有害的基因组,然后工作人员再根据提取的数据进行分析[5]。此外,数据挖掘技术还能运用于对历史发展规律的预测、对人类行为规律的预测等等。
4.2商业零售业
众所周知,零售业有着大量的数据,从进货到销售,都有大量的数据,尤其是随着电子商业的发展,数据量也剧增,而处理这些数据就需要依靠数据挖掘技术。通过数据挖掘技术,对销售数据进行分析,就能够知道什么商品受到顾客喜爱,销售得最快,而后有针对性地进货[6]。利用数据挖掘技术进行分析,就能够通过数据分析,制定有效销售措施,获取最大的利益。
【关键词】搜索引擎 网络数据挖掘相关技术 研究
在社会的发展之下,网络已经成为人们生活与生产中必不可少的工具,但是网络中充斥的大量繁杂信息也在一定程度上影响着人们的信息获取速度,网络信息检索在检准率与检全率方面依然难以满足人们的需求,而将网络数据挖掘技术应用在其中即可很好的解决这一问题。
1 数据挖掘技术简介
数据挖掘技术就是从大量模糊、随机、不完全、有噪声信息中提出有用信息的一个过程,与数据挖掘技术相关的技术还有数据分析技术、数据融合技术、知识发现技术等等,在技术水平的发展下,统计学方法、决策树、关联分析等一些新型数据挖掘技术也相继出现。与数据挖掘不同,信息检索实质上是一种信息发现任务,也是知识发展过程中的重要环节,信息检索能够帮助人们了解各项静态信息,但是难以分析到数据间的关系及其未来发展趋势。而应用数据挖掘技术则可以有效提升系统检索能力,预测出未来的走势,因此,将数据挖掘技术应用在搜索引擎中也是大势所趋。
2 搜索引擎与网络数据挖掘
网络数据挖掘是一种将数据挖掘技术与网络融合的一种新模式,网络数据挖掘也能够称之为Web挖掘,网络数据的页面复杂、数据内容繁杂,文章也具有不规则性,将数据挖掘技术应用在数据挖掘中可以有效的解决上述问题,根据处理对象,网络数据挖掘任务有三种类型,即网络内容挖掘、网络使用挖掘与网络结构挖掘。
2.1 网络内容的挖掘
网络内容挖掘就是从网络数据、网络内容与网络文档中挖掘信息,很多网络信息是能够在网络中过去的,但是依然有很大一部分数据难以采用该种方法获取,如使用PHP、JSP与ASP的动态网页,拒绝访问的网站,商业数据库中的数据。这些内容都能够使用网络内容挖掘法来获取,这可以使用两个方法:网络页面内容挖掘法与搜索结果再挖掘法。
2.2 网络结构挖掘法
网络结构挖掘法强调挖掘网页中的链接结构,并从中推导相关的知识,这种挖掘法与引文分析有着密切的关系,网络中的链接信息能够为数据挖掘提供全面的支持,为了获取到理想的效果,可以来分析网页链接与链接数量,并建立起链接结构模式。其常用的算法有Propriteary算法、Google算法、HITS算法与PageRank算法四种。
2.3 网络使用挖掘法
网络使用挖掘法就是通过日志发现来访问页面的一种模式,与网络内容挖掘模式和网络结构挖掘模式不同,网络使用挖掘法的挖掘对象非是网络与用户交互中的二手数据,这些数据大多来自Cookies或者Web服务器中的信息、系统交互信息与访问记录。
3 数据挖掘技术在网络信息检索中的应用作用
目前,人们已经进入了一个信息爆炸时代,虽然众多搜索引擎网络可以满足人们对于信息检索的基本需求,但是还是有很多地方不到位,目前,网络挖掘技术已经开始在网络领域中得到了应用,也取得了一定的成效。实践显示,将数据挖掘技术应用在网络信息检索中能够取得如下的效用:
3.1 提升标引准确性
标引能够准确选择出文献的检索标示,网络信息范围广、复杂性高、数量多,使用人工标引很难取得理想的检索效果,因此,必须要使用自动标引。将网络数据挖掘技术应用在其中能够深刻的揭示出相关信息的联系,帮助用户在文档中进行标注,提升信息摄取的准确性。而以此为基础来应用加权算法则能够得出具体的信息关联,对于提升检索效果有着十分积极的效用。
3.2 可以对检索结果进行分类
在网络世界中,各个网站之间的转载情况严重,用户在使用搜索引擎时必然会检索出大量的重复信息,这不仅会降低检索效率,也会浪费资源。将数据挖掘技术应用在检索工作中就能够挖掘出网页中的语义内容,有效提升检索效率。此外,数据挖掘技术也可以有效提升检索质量,该种方法是建立在层次法与划分法基础上,如果检索文档相似性大,即可进行聚类处理,将处理后的信息用层次化方式提供给用户,用户可以根据自己的需要自行选择,这就有效减少了浏览数量。
3.3 能够提升自动摘要质量
自动摘要即利用网络来分析文章结构、主题语句的方式,自动摘要可以有效帮助用户来加工与整合信息,与自动摘要相比,人工编制摘要会浪费大量的时间,将网络数据挖掘技术应用在搜索引擎中能够提升自动摘要的质量,该种技术是通过文档内容来总结文本信息,能够将Web中的重要内容总结起来,并提取出摘要。这对于优化网络信息资源的处理质量有着十分积极的意义。
4 结语
总而言之,将数据网络挖掘技术应用在搜索引擎中已经成为了一个大势所趋,采用该种技术可以有效提升标引、自动分类、自动摘要以及自动聚类的准确性,可以根据用户的具体需求来建立模型,从而为用户提供出更加针对性的信息支持。其中,最为常用的技术就是自由分类法,自由分类法能够将难以用传统方式细化的信息归入熟悉类目中,并在排序检索与信息组织上很好的弥补与了传统搜索方法的缺陷,但是,该种方法也存在一些局限性,多应用在小范围网络中,相信在不久的将来,网络数据挖掘技术定可以在搜索引擎中得到更加广泛的使用。
参考文献:
[1]狄浩林. 面向精确营销基于数据挖掘的3G用户行为模型及实证研究[D]. 北京邮电大学 2012
关键词:大数据环境 数据挖掘 具体技术分析
中图分类号:TP39 文献标识码:A 文章编号:1003-9082(2016)10-0004-02
技术在快速进步,现今时期内的网络正在深入生活,网络体现出重要的意义。从本质上看,大数据不仅代表了日益增长的数据量,同时也表现出更复杂的数据关系。增长的过程中,达到特定规模的数据量将会发生质变。大数据的具体类型包含了视频和文本等信息[1]。对于信息搜集以及处理等,也应当确保更快的处理速度。大数据环境下,数据挖掘的相关技术具备了独特的技术优势,然而同时也面对新阶段的技术挑战。面对新阶段的新环境,有必要给出数据挖掘的特定技术流程以及技术方式。结合现阶段面临的挑战,给出完善思路。
一、数据挖掘在大数据环境下的重要价值
面对信息化的新时期,各行业都不可缺少数字化技术作为支持。最近几年,互联网正在快速普及,在这种基础上也诞生了云计算和物联网的相关技术。在当前形势下,全球范围内的网络技术正在加快发展,爆炸式的数据增长趋势也因此变得更明显。信息化冲击着各个行业,传输信息的方式也在相应改变。信息化形势下,对于信息形成、信息运用以及信息共享都可以做到有效的整合[2]。在企业发展中,大数据起到了不可忽视的作用,同时也汇聚了各个层面的物力和人力。
从信息化角度看,企业在整合处理各类的数据时都需要借助电子化的方式。针对大量的资源和信息,应当符合交互式的处理方式和数据传输方式。数据化处理可以为企业提供精确的决策依据,因此也创造了更高层次的生产效能。云计算方式能够用来处理实时的数据,从而减少了整体投入。
随着技术进步,云计算技术正在变得更成熟。与此同时,云计算也配备了信息化的新式平台。这样做,在根本上确保了信息化的效能提高。在当前时期内,大数据代表着全新的发展阶段。这是因为,大数据技术可以用来筛选数据、存储数据或者调用数据,这些步骤和流程都不必耗费额外的资源。从行业本身来看,数据交换以及信息交易的总数都变得更大,因此也构建了规模更大的数据库。针对存储量很大的数据库,应当经过筛选和分类,提取必需的信息数据。这样做,就可以为各类用户提供必需的信息。由此可见,大数据环境中的数据挖掘具备更高的价值,有必要深入探析数据挖掘的相关技术方式[3]。
二、现今阶段的技术难点
从技术构架来看,数据库表现出更复杂的技术架构,因而也增加了整体数据库的管理难度。在传统模式下,数据库能够用来处理较低层次的数据,然而针对较高层次的信息数据并不能给予很好的处理。最近几年,数据总量正在增大,数据库管理也相应改变了常用的流程和模式。近些年,分布式的全球数据库也被创造出来,在这种形势下亟待扩展整体的处理规模,以此来适应现今阶段的数据处理。然而应该注意:传统数据库仍缺乏相应的分区和类型,非结构化的倾向十分明显。
从实时性来看,数据处理中的实时性需求正在变得更强,用户希望获得实时的处理方式和技术。最近几年,数据库表现出智能性和商业化的整体趋势,因此也相应提高了实时性的需求。针对各类型的信息,用户都有必要给予实时的解析和处理。大数据的整体背景有别于传统背景,这是因为智能式的商业处理方式正在被推广采用。因此,如果仍沿用常用的处理流程,那么很难符合新阶段的实时处理需要[4]。
从硬件和软件的存储方式看,传统类型的软硬件也不再满足需求。现今时期内,数据处理达到了更大的总量。与此相应,在信息保存的过程中也应当符合更高层次的精确性需求。数据量不断增大的状态下,只有配备高性能的软硬件,才能够给予必要的保障。实际上,软件更新的整体速度仍较慢,无法适应现有的形势。
从技术分析的具体方式看,传统方式的数据分析特指结构化的分析。经过分析之后,就可以归纳得到全面的体系,确保实效性的处理。然而,大数据形势下的各行业数据总量都变得更大,因此也挑战了常用的分析方式。
三、数据挖掘的技术优势
首先,数据挖掘符合了更强的实效性,满足实时的处理。信息技术的新时期内,不同类型的数据也蕴含了更多的知识价值。大数据环境下,数据分析更多表现为线性处理,这种趋势符合了新阶段的处理需求。如果选择了大数据这种处理形式,那么优先选择数据挖掘的相关技术方式。这是由于,数据挖掘可以运用于流处理的过程,从而也确保了批量式的处理。针对大数据而言,业务处理也在客观上需要设置实时性的处理框架,以此来满足实效性的新需要。
其次,在动态环境下,数据挖掘设置了特定的索引类型,能够符合动态变化的环境。从关系数据库的角度看,索引可以加快整体的检索速度。然而,传统类型的数据检索只设置了较少的几类索引[5]。近些年来,大数据的具体种类正在不断增多,这种形势下创建的索引就必须具备更简洁的特征,同时也必须符合高效化的整体要求。在数据挖掘中,索引形式是多样的,并且可以实时调整。因此,大数据环境中的索引形式应当更新,这样做才能便于提高实时查询的效率。
第三,大数据环境中的数据挖掘还具备丰富的先验知识。传统模式的数据分析通常选择了关系型的信息存储,这种模式隐含了先验知识。具体而言,在探求特定对象的属性时,首先就需要明确可以取到的数值范围。在进入分析之前,有必要初步了解这种取值范围。然而,大数据包含了更多的非结构性信息,因此在客观上也要求构建与之匹配的内部数据关系。数据是实时性的,因此并不具备先验知识。针对这种问题,数据挖掘也可以给予妥善的处理。
四、具体技术实现
在新的环境下,数据挖掘技术受到了更多行业的认可和接受,同时也逐渐扩展了应用范围。大数据环境下,数据挖掘具体可以划分为数据遗传、神经网络算法、粗糙集的算法、决策树算法等类型。现今社会中的信息呈现爆炸的趋势,数据挖掘因此也逐渐具备了独立性,构成了独立学科。用户运用分类技术,就能够针对特性类型的数据和信息予以分类,然后进入数据挖掘的过程中。由此可见,数据挖掘更加符合了大数据的特定环境和背景[6]。具体而言,数据挖掘的方式和技术手段包含了如下:
1.构建矩阵模型
存储大数据过程中,应当构建精确的矩阵模型。在建模的基础上,才能够适当运用数据挖掘的方式。针对不同来源的数据,也需要给出各异的处理方式。传统处理方式下,通常构建单一的数据库,用来存储信息并且分析信息。实际上,这种方式在具体落实时也很困难,因为不同类型的信息包含了繁杂的内容。大数据环境下,依照数据挖掘的思路,相关人员可以尝试构建相关的数据模型。这样做,就能够在根本上确保通用性,数据模型也能够容纳更多的数据内容。矩阵模型属于三维模型,模型具备立体性,因此更加便于数值分析。
2.设置关联规则
如果要顺利进行数据挖掘,那么先要挖掘关联规则。从特定属性来看,关联规则通常是隐含在属性内部的,是不可以预知的。对于此,只能依照选择的统计方法来实现。从兴趣度的角度看,关联规则通常取决于置信度和支持度这两个指标。为了达到平衡,用户就应当给出最小的置信度和支持度数据。数据挖掘的具体方式可以用来实现可靠的关联规则,建立必要的存储模型,用这种方式来集中表达关联规则。
3.聚类算法的运用
针对高维的空间,通常可以构建特定的聚类算法。为了详细区分不同类型的超图,数据挖掘选择了区分投影的方式。选择这种方式,能够细化不同类型的算法,进而也提高了算法整体的精细度。利用数据挖掘,实现了更优的超图划分,聚类计算得到的结果也表现得更加精确[7]。
结论
大数据背景下,数据库更需要数据挖掘作为支持。通过数据挖掘,能够筛选并且获得可利用的数据信息,满足新阶段的用户需求。经济在不断增长,然而与此同时资源消耗的总量也相应变得更大。大数据可以用于多领域的数据挖掘,因此也在根本上改变了原有的处理过程和处理方式。面对剧烈的市场竞争,数据挖掘的新方式也可以用于更广的领域,同时也起到了更大作用。未来的实践中,相关人员还需要结合大数据的特定背景,不断修正并完善现今阶段的数据挖掘手段。只有这样,才可以为各行业提供必要的决策依据,服务于数据挖掘的整体质量提高。
参考文献
[1]朱东华,张嶷,汪雪锋等. 大数据环境下技术创新管理方法研究[J]. 科学学与科学技术管理,2013(04):172-180.
[2]王兰成,刘晓亮. 网上数字档案大数据分析中的知识挖掘技术研究[J]. 浙江档案,2013(10):14-19.
[3]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014(02):54-55.
[4]卢建昌,樊围国. 大数据时代下数据挖掘技术在电力企业中的应用[J]. 广东电力,2014(09):88-94.
[5]黄取治. 大数据环境下O2O电商用户数据挖掘探讨[J]. 湖南科技学院学报,2015(05):122-124.
[6]杜钢虎. 大数据时代背景下数据挖掘技术刍议[J]. 电子技术与软件工程,2015(14):221.