首页 > 文章中心 > 数据分析

数据分析

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据分析范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

数据分析范文第1篇

根据规范要求,我们在进行实验分析时读取数据,只能读到一定的准确度。无论读取到多少位数,绝不可能把准确度增加到超过测定方法所能允许的范围,这个准确度主要决定于所用仪器刻度的精确程度。如万分之一的分析天平称得的物质的质量,不仅表明物体的总体质量,还表明可以称到万分之一克,但最后一位数不可靠。如0.5060g,实际质量为.0.5060g±0.0001g。所以在化验分析结果中正确记录分析数据的有效数字位数是很重要的。分析化验中使用测量仪器测量的数据,其有效数字位数应和测量仪器的精度相适应。一般来讲是以最小分度值的十分之一为测量仪器检测数据的有效数数字最后一位。如最小分度值为0.1mL常量滴定管,读数时应保留到小数点后第二位,最小分度值为1℃的温度计,检测结果可保留一位小数等。在另一方面也与我们所采用的方法和测定对象有关。有明确规定,则应按规定来确定有效数字位数。如《GB/T6536-2010石油产品蒸馏测定法》中就有明确规定体积读准至0.5mL,温度读准至0.5℃,就应按规定准确记录。所以数据读取记录的位数,其中末位数字为可疑数字或不确定数字外(即为估读数字),其余位数都是准确的。实际操作中,常常要根据方法要求的测量精度来选测量仪器。例如油料化验常用的恒重操作中,要求恒重至0.0002g,此时就应在万分之一天平进行称量,又如石油产品水分测定中要求试样称准至0.1g,此时选择普通托盘天平称量即可。

2化验数据的正确计算

正确计算分析数据,是得到正确结果的关键。试验所计算的结果不仅表明被量的大小,而且表明化验分析的准确程度,采用过多或过少的位数都是不适当的。因此在化验计算数据分析时要注意以下几个问题:一是运算中的倍数、分数都是准确数字,不适用于有效数字运算规则。二是平均测量值的精度高于单次测量值的精度。在测量值个数不少于4时,平均值有效数字位数可比单次测值多取一位。三是当涉及到各种常数时,一般视为准确的,不考虑其有效数字位数。四是当计算结果为中间过程时,可比结果多保留一位有效数字。例如开口闪点的结果要求保留整数位,在计算大气压修正值或温度计修正值时可将修正值保留一位小数。五是表示误差时取一位有效数字,最多取两位,有关化学平衡的计算,一般保留两位或三位有效数字。

3化验结果数据有效保留位数要正确

在油料化验分析中,结果数据位数的保留直接影响着测定结果的准确度。计算结果所保留的位数必须与油料化验分析的精确度一致,测定结果的数值应当与平行测定允许差数的保留位数相同。一般来讲石油产品化验分析结果数据的保留位数,检测方法中都有明确规定。方法中没有明确规定时,检测结果的记录的有效位数应该保留一位可疑数字,或根据方法精密度中的允许误差来确定结的有效位数。关于石油产品分析结果保留数据可按表执行。

4按石油产品试验方法进行精密度验证提高数据的准确性

在石油产品试验方法测定中,对于同一指标,有时是同一操作者测定,有是不同操作者或不同实验室测定,不同的测定情况精密度的要求也不一样,通常用重复性和再现性来分别表示。重复性是指同一操作者在同一实验室,用同一台仪器按方法规定的步骤,在连续的时间里,对同一试样的同一性质进行重复测定所得结果的允许误差。再现性是指不同实验室的不同操作者,使用同类型的仪器按方法规定的步骤,对同一试样的同一性质进行测定所得结果的允许误差。在每个石油产品试验方法中,对精密度都有明确规定,其计算基本有以下几种类型:

4.1重复测定结果的差值不得超过某一规定值。即:第一次测定结果-第二次测定结果≤某一规定值这“某一规定值”有时是一具体数值,如GB264酸值的精密度要求;有时是较小结果的百分之几,如GB509测定油品实际胶质的精密度要求;有时是算术平均值的百分之几,如GB265的精密度要求。

4.2单次测定结果与算术平均值的差数,不得超过算术平均值的某一规定数值。即:单次测定结果-算术平均值≤算术平均值×所规定的百分数如SH0079KOH溶液标定的计算

数据分析范文第2篇

数据分析:从挖金土豆到筛金沙

大数据之所以成为业界的热点,是因为现在做数据分析的价值越来越大,在Hadoop等技术的支持下,成本相对越来越低。对于企业做数据分析的价值和方法的前后变化,Informatica公司大中国区首席产品顾问但彬在论坛上,用一个非常生动形象的比喻做了说明:“如果将做数据分析比喻成开采金矿,原来我们所做的是用挖掘机挖金土豆,而现在则是用筛子来筛金沙。因为现在大量分布在社交网络的数据,对企业而言就是就像是大量的金沙,分布广泛而分散。如果能用低成本的方法筛出金沙,是非常有价值且值得做的事情。”

但彬介绍,Informatica作为一家数据集成公司,更关注的是如何把来自各个地方的大数据,通过像抽水机的泵一样的装置整合到需要的程度和地方。Informatica2011年完成了近8亿元的收入,这也是对大数据市场火热程度的一个印证。

Informatica主要从四个方向考虑大数据处理的一些问题:第一,大数据的集成,即从数据种类的多样性方面,整合所有来源的所有数据类型,不管是来自交易系统的结构化数据,社交网络的半结构化、非结构化数据,还是来自RFID读卡器的感应数据;第二,保障数据的权威、可信性,保障数据安全,实现可重复利用、一致的数据质量;第三是实现数据的自助式服务,消除手工操作带来的错误,提高生产率,允许分析员通过基于浏览器的工具直观地定义和校验从源到目标的处理流程,以此自动生成映射逻辑,交由开发人员部署运行;第四是自适应服务,通过多协议数据配置、集成数据质量等手段实现交付适应不同项目需求的数据。

从交易到交互,从互联网行业到传统行业,大数据的渗透力和影响力不容小觑。在Teradata大中华区首席架构师张新宇看来,除了数据管理,更重要的是数据分析,利用新的分析方法,比如通过使用Map Reduce(编程语言可以是Java/Python/Perl/C/C++)新分析框架,提供针对多种数据的并行处理能力等,实现大数据的洞察力是更关键的。

北京赛迪时代信息产业股份有限公司存储工程服务事业部总经理李降龙也介绍,大数据带来的挑战在于怎样实时处理这些数据,通过虚拟化搭建一个计算和存储资源池,以弹性架构有效地合理分配和使用它们,并建立合理应用系统,使大数据得到最好的管理和使用,才能发挥大数据的价值。论坛上民族证券CIO颜阳也分享了证券公司对于大数据的理解以及他们所做舆情分析的大数据应用。

职场新贵:数据科学家

针对大数据而生的新一代分析工具――Map Reduce近年来备受关注,它一次遍历数据,连接列表顺序分析,而不需要像传统的SQL那样为了排序需要对表做自关联。Map Reduce在数字营销优化、社交网络及关系分析、欺诈检测及预防、设备数据分析等场景中都有非常好的应用。

除了原有的关系型数据分析,结合非关系型数据(NoSQL)的探索性分析的需求在企业内部越来越旺盛,如此一来,一种新的IT职业――数据科学家会越来越火。

数据分析范文第3篇

在当前市场经济高速发展的态势下,各企业间竞争力越来越强。再加上信息技术的参与,企业能够获取信息的渠道与手段日益增多,面临的信息也纷繁复杂,而好的决策不仅需要真实的数据支持,而且还要在尽量短的时间内做出。所以,企业急需要高效的数据分析工具,来节省对大量数据分析的时间。本文就提出——数据仓库技术这一优化的数据管理、分析技术。

2数据仓库的特点

2.1面向主题

即在较高的这一层次上,实现对企业信息系统里面数据的分类、综合处理,将其进行抽象化处理。数据仓库是从企业整体上来看的,直接面向主题进行组织,其本质在于实现数据的分析与处理,为管理层提供可进行决策的参考依据。

2.2集成性

属于数据仓库全部特点中最为关键的一个环节。这是由于数据仓库里面的数据不是直接面向应用的,在细节数据这一方面欠妥,仅是从原来数据抽出来之后统一汇入数据库,继而发生数据缺失、同名异义等问题。

2.3不能更新

一旦当数据装入到数据仓库之后,没有意外情况就不会再发生变化,数据主要提供给企业,进行决策的支持使用。

2.4实时变化

数据仓库中的数据不能更新只是针对应用的,但对于数据仓库来说,它需要为企业的决策提供支持,因此需要数据的价值性与最新性,时间则是不可或缺的一个重要属性。

3系统的目标及功能

3.1目标定位

基于计算机、网络等技术水平的提高,企业的信息化水平也有了极大地发展。一般企业内部都有生产管理系统、企业信息采集系统等的覆盖,同时也有在此基础上开发的财务报表等系统,一般都能够满足各部门进行日常管理、经营所提出的要求。但是,如何汇总系统中繁杂的数据,使管理者直观、精准的掌握业务相关数据,另一方面又能实现对数据的多角度分析,这便是基于数据仓库的企业数据分析、决策系统应解决的根本问题。

3.2功能

以数据仓库作为基本,对企业数据分析(决策)支持系统做进一步的优化,本质在于把最新的计算机技术、最高水平的信息技术成果引入其中进行应用,使其能够适应企业当前的信息管理系统,并使其为自己所用,形成综合性强、专业化的信息分析、管理及处理平台。

4系统设计

4.1整体结构

近些年来,随着信息管理以及IT技术的极速发展,也促成了基于数据仓库的数据分析与决策支持系统的优化形成。就数据仓库概念结构上来说,所包含内容像数据仓库数据库、数据源、数据准备区与各种应用、管理数据。

4.2设计方法

数据仓库系统建模程序:DW建模、数据获得及集成、数据仓库的构建、DSS应用编成、测试、理解需求。较之于原型法特点来说,这一设计方法虽然没有太大的差异,但是却与其存在着根本性的不同,数据仓库设计为数据驱动,基于DB开发,主要对DB已有的数据资源进行抽取、挖掘与集成,用来支持企业管理者做出正确决策。

4.3主要技术的使用

(1)数据管理。该技术中有大量的数据管理技术、监视技术、压缩技术以及仓库索引等。(2)存储方面。比如说多介质存数设备的管理技术、存储控制技术以及并行存储及管理技术等多个内容。(3)仓库接口。语言接口技术、数据高效加载技术、多技术接口技术。

4.4设计工具

DSS的分析预测型工具、数据挖掘的挖掘型工具以及联系分析处理的查询分析工具,这三种工具组成了数据仓库系统的工具层,每一种工具都有其不同的侧重点,所针对的用户以及适用的范围也都各不相同。只有将这三种工具都纳入到数据库系统中去,才能从真正意义上实现对数据仓库中信息的利用。(1)报表。报表是一个基本性的工具,在应用数据仓库中,实现预定义数据计算、多维数据存储的应用,可将企业原本复杂的报表难度在一定程度上进行简化,在提高计算速度的同时还能确保精准性。(2)联机分析。在借助多维的方式下,借助于联机分析处理来对数据进行分析、查询以及报表。较之于传统的联机事务处理这一应用,联机事务处理这一应用是针对用户对其事务加以处理,比如说银行的储蓄系统、飞机的订票系统等,这就需要实时予以更新,对响应时间更是提出了高要求。(3)数据挖掘。该技术在诸多个领域的应用都收获了很大效益。它并不是一定非要构建在数据仓库基础上的,但如果能实现协同合作,便能更进一步地对数据挖掘过程中某些步骤进行简化,进而提高数据挖掘的工作效率。

5结束语

数据仓库作为一个非易失性的数据集合,有着面向主题、集成以及实时变化的特点,很好地满足了企业诸多种信息的综合使用、分享,实时且精准地完成对财务分析、客户分析以及市场分析等诸多方面的功能,可为企业管理层做出相应决策提供可参考性依据。随着企业加强信息化水平的建设,数据化的深入发展,将会有更多的企业使用基于数据仓库的企业数据分析与决策系统,为决策提供服务,以此来提高自己在市场竞争环境下有利的低位。所以,对数据分析与决策系统的优化研究这一问题具有重要价值。

作者:柴旭光 单位:邢台职业技术学院

数据分析范文第4篇

保持中立

大数据主要包括大交易数据、大交互数据和大数据处理。数据集成的功能是收集数据、探查数据和集中管理数据,从而进一步提高数据的质量。Informatica的数据集成软件可以辨别哪些数据是合规的,并提取出来,实施统一管理和统一复制。Informatica公司高级副总裁兼首席信息官托尼·杨(Tony Young)表示,针对Hadoop大数据处理平台,Informatica的数据集成软件主要负责做好以下几件事:解析和准备数据,探查和发现数据,转换和清洗数据,监控Hadoop平台中的数据。随着云计算应用的逐渐普及,数据碎片日益增加,而移动计算、社交计算的快速发展也增加了数据访问和管理的复杂性。在这种情况下,保证数据的合规性、一致性和准确性就显得尤为重要。数据集成不仅可以轻松实现上述目标,而且可以在数据整个生命周期的管理中起到监督和调整的作用。

在数据管理产品趋向融合的今天,数据集成软件会不会也被集成到一些综合性的管理解决方案中呢?

托尼·杨表示:“Informatica之所以能够保持快速成长,一个关键的因素就是始终保持中立的地位。我们的数据集成软件可以与其他所有应用和管理软件平台相集成,比如微软、SAP等厂商的产品。”

大数据促进业务增长

“数据分析是今后企业在竞争中保持优势的一个主要手段。如果你现在不认真对待大数据,那么竞争对手就有可能超过你,并取代你。”托尼·杨表示,“大数据与SOA(面向服务的体系结构)不同。SOA不能直接给企业带来商业价值,而大数据与企业的业务绩效直接相关。企业的CIO必须重视大数据的处理与应用。”

托尼·杨介绍了一个利用Informatica数据集成解决方案促进企业销售的成功案例。由于销售额急剧下降,美国一家化妆品零售商求助于Informatica。Informatica利用其数据集成解决方案,创建了数据的单一视图,将来自销售柜台的客户信息以及社交网络上的客户需求进行匹配、集成和处理。该化妆品零售商利用Informatica提供的数据分析结果,调整了销售方式,使得化妆品的销售额得到了大幅提升。托尼·杨表示:“大数据分析不仅可以应用于消费品市场,交通、气象、金融等很多行业也可以应用大数据分析工具促进业务的增长或提升服务质量。”

数据分析范文第5篇

[关键词] 计算机审计;数据挖掘;聚类算法;噪声数据

随着经济和信息技术的不断发展,许多企业开始引入了erp等系统,这些系统使得企业的众多活动数据可以实时记录,形成了大量有关企业经营管理的数据仓库。从这些海量数据中获取有用的审计数据是目前计算机审计的一个应用。对于审计人员来说,如何从被审计单位的海量数据中找出全面、高质量的审计数据从而找出审计证据是一个难题。本文利用数据挖掘技术对此问题进行了探讨并提出了解决的方法。

数据挖掘(data mining)指的是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐藏的、不为人知的却潜在有用的信息和知识的过程[1]。事实上,实际应用数据的质量和存储模式对于实施计算机审计并成功获取审计证据非常重要。由于被审单位信息系统软硬件平台的异构性和可能存在的人为故意隐瞒、造假等,为保证计算机审计工作顺利进行和审计结论的正确,对审计数据进行采集时必须对数据进行检查、控制和分析。

1审计数据采集

审计数据采集指在开展计算机审计时从被审计单位的财务及业务信息系统及其他数据源获得审计所需的电子数据并进行适当的格式转换[3]。一般来说,计算机审计中数据采集的方法主要包括以下几种:

(1)利用被审单位信息系统的数据导出功能。大多数的信息管理系统都提供了数据导出的功能,审计人员直接可以利用该功能导出企业财务数据完成数据的采集。

(2)利用通用的数据处理软件完成数据采集。如access、sql server等都具有较强大的数据导入导出功能和数据转换功能。审计人员可以利用这些软件完成数据的采集。如被审企业原始数据为文本格式可以转换为数据库表格格式。

(3)利用审计软件完成数据采集。如国家从2002年开始建设的“金审工程”就以现场审计实施系统(ao)及审计办公系统(oa)作为计算机辅助审计的工具。别外应用国内的企业财务审计软件、审计数据采集分析软件等都可以完成审计数据的采集。

(4)利用专用程序接口完成数据采集。当被审计单位提供的审计数据的数据结构与已有的审计数据处理软件系统的数据结构差异较大时,可以在审计人员的协助下由专门的程序员开发接口程序,完成数据的采集,但成本相对较高。

2 数据清洗

利用数据挖掘对审计数据进行处理分类时,为了提高分类的准确性、高效性和可伸缩性,必须对数据库进行预处理,包括:数据的清洗、相关性分析、数据转换等。

文献[4]中给出数据清洗的定义为:发现和消除数据中的错误和不一致来提高数据的质量。一般而言,审计数据库中数据采集于异质操作数据库,不可避免存在着数据的错误或不一致等问题,如数据造假、数据重复、数据缺失等错误。根据文献[5]提出的审计数据质量特征,必须要对采集的原始数据进行清洗,即由“脏”变“干净”,提高审计数据质量,这是保证审计结论正确的关键。

数据清洗的一般过程如图2所示。

(1)数据分析:为了清洗出干净的数据,必须对数据进行详尽的分析,包括数据的格式类别等。比如采集来的财务数据的字段类型、宽度、含义等。

(2)模式转换:模式转换主要是指将源数据映射成目标数据模型,如属性的转换,字段的约束条件和数据库中各个数据集之间的映射和转换等。有时需要将多个数据表合并成一个二维表格,有时却要将一个数据表拆分成多个二维表格以便于问题的解决。

(3)数据校验:上一步的模式转换可行否,需要进行评估测试,经过反复分析、设计、计算、分析才能更好地清洗数据。否则不经过数据校验可能有些错误数据不是很明显,不能被很好地筛选出来。比如模式转换时将一个数据集分解成多个数据表的时候,造成父表的主关键字的值和子表外部关键字的值不一致,从而形成孤立记录,影响审计人员审计证据的正确性,进而影响审计结论的正确性。

(4)数据回流:用“干净”的数据替代原始数据源中的“脏”数据,避免下次数据采集时重做数据的清洗。

有时候数据的清洗需要反复进行,审计人员需要对采集到的电子数据进行多次清洗,这样才能得到高质量的审计数据。

3 数据挖掘实现

经过数据预处理后的审计数据库包含了多个数据集,每个数据集又包含了若干数据记录或者称为元组,如何从这些二维表格数据中挖掘出有意义的审计数据至关重要。本文介绍一种利用聚类算法进行审计数据挖掘的算法。

3.1 算法概述

3.1.1聚类算法

所谓聚类就是根据相似性对数据对象进行分组,发现数据的分布特征,使得每个聚类中数据有非常高的相似性而不同聚类中的数据尽可能不同[6]。它同分类的主要区别在于,分类事先知道所依据的数据特征,而聚类是要找到这个数据特征。作为数据挖掘的功能,聚类分析可以作为一个获取数据分布情况、观察每个类的特征和对特定类进行进一步独立分析的工具;聚类也能够有效处理噪声数据,比如数据库中普遍包含的孤立点、空缺或错误数据等。

聚类分析算法通常有5类[7]:①基于划分的方法,如clarans;②基于层次的方法,如cure和birch;③基于密度的方法,如dbscan、optics、gdbscan和dbrs;④基于网格的方法,如sting和wavecluster;⑤基于模型的方法,如cobweb。其中dbscan算法具有很好的过滤噪声数据的优点。本文探讨利用dbscan算法对审计数据进行处理,找出异常数据,查找出审计证据。

3.1.2 dbscan算法

dbscan算法的基本思想为[8]:对于同一个聚类中的每个对象,在给定的半径d的邻域中包含的对象不能少于某一个给定的最小数目minpts(也称密度)。

为了生存一个聚类,dbscan算法首先从数据集db中选择任意一个对象p,并查找数据集db中关于半径d的所有邻域对象,如果这个邻域对象的个数小于最小数目minpts,则p为噪声数据;否则p的邻域对象形成一个初始聚类n,n中包含对象p及p直接密度可达的所有对象。然后确定该类中的每一个对象q是否为核心对象,若是,就将q的d—邻域内尚未包含到n的所有对象追加到n中,并继续判定新追加的对象是否为核心对象,如果是,重复上述追加过程,直到这个聚类不能再扩大为止。然后dbscan算法再在数据集db中另选一个没有被标识为某个聚类或者噪声的对象,重复上面的操作,一直到数据集db中的所有对象要么被标识为某个聚类、要么被标识为噪声数据为止。

dbscan算法进行聚类的过程就是不断执行数据集查询比较的过程,最后产生的噪声数据就是通常所说的异常数据,对于帮助审计人员进行审计判断非常有效。图3表示了二维平面坐标下的噪声数据和若干聚类。

3.2数据模式定义

3.2.1项间的距离

设ri和rj是数据集db中的任意两条记录即某两个数据项,它们之间的距离定义为:

式中,ri(rix,riy),rj(rjx,rjy)表示数据集中两个项ri和rj在二维空间的坐标点,因此dij表示ri和rj在二维空间坐标的距离。如果dij大于给定的值d,则表示ri和rj不属于同一个聚类分组。

3.2.2审计数据预处理

数据挖掘时数据的选择是在二维平面上进行的,首先选择列(字段或属性),再选择行(记录或元组)。为了能够获得有效的审计证据得出正确的审计结论,有时候必须对源数据集进行数据转换。

因为各个企事业单位的规模不同,财务数据的数量级或者数量单位可能不同,为了得到更加科学可靠的聚类分析结果,需要对财务数据进行预处理,一般进行比例变换。如将x轴定义为某公司某月营业收入与利润总额的比值,将y轴定义为财务费用与净利润的比值,这样处理的数据能更好地反映该企业的实际情况。这里的财务数据预处理都是由用户来定义的,可以根据不同的审计要求和审计目的来定义。

建立一个新的二维表格数据至少包含4个属性项:记录号,x轴数据,y轴数据,标记。其中记录号保持对应源数据集db中的记录号, x坐标和y坐标即为经过比例变换后的数值,标记字段初始内容为空。

3.3算法描述及流程图

给定一个计算机审计数据集,假设具有n个元组或者记录,利用dbscan算法思想构造出l个分组(l<n),每个分组代表一个聚类。且l个分组必须满足如下条件:

(1)每个分组至少包含minpts个元组。

(2)每个分组中的任意两个元组直接的距离小于等于给定的距离d。

(3)每个元组仅属于一个分组。

图4为实现审计数据挖掘的算法(称为audbscan)的流程图。

3.4 聚类算法的实现

算法:审计数据挖掘聚类算法(audbscan)

输入:根据数据集db产生的二维表格数据

//至少含有4个字段:rec 记录号,rx x坐标数据,ry y坐标数据,rno 标记

半径d //度量密度的距离

密度minpts //簇中的数目

输出:噪声数据记录

algorithm audbscan(data,d,minpts)

for each record in data do

ifeach reccord in data is marked

output noise reccord //输出标识为噪声的数据

else

for each reccord in data is not marked noise or classer do

prand(a reccord is not marked noise or classer) //随机选取没有被标记的记录p

lfound(p,d,minpts) //找到p关于d的minpts密度可达记录

if s=recount(l)<minpts

p is marked noise

else

nfound(p,d,minpts)

each reccord in n is marked classer

for each reccord in n do

qone reccord

if q is a center record //q为核心记录

nfound(q,d)

endif

endfor

endif

endfor

endif

endfor

在audbscan算法中,利用rand()函数产生第一个随机记录p,利用found()函数产生p关于d的minpts密度可达记录。该算法最后的结果和随机产生的第一条记录相关,形成的聚类可能有不同,但得到的噪声数据一致,因此对于审计证据的查找是有效的。

4 结论

数据挖掘技术与海量数据下审计业务的有效结合是未来计算机审计的一个发展方向。本文主要介绍了审计数据的采集、数据的处理转换和数据的挖掘3个方面,并且在数据的挖掘方面采用了基于聚类的dbscan算法来快速、准确、高效地输出噪声数据。该算法中涉及的二维平面x,y轴坐标可以根据实际审计需要由审计人员加以定义,因此可以应用到各类审计实践中去。另外,可以将dbscan算法扩展到三维空间上,只要再加上一个z轴数据,当然z轴数据也应该是和x,y轴数据相关的一个比例数据,此时聚类的结果将会变成一个不规则球体,从而能够更加容易挖掘出未曾发现的知识,也更加容易发现数据间的潜在联系。

主要参考文献

[1][加]jiawei h,michelline k.数据挖掘概念与技术[m].范明,译. 北京:机械工业出版社,2004.

[2]陈伟,张金城,robin qiu.审计数据处理实验中的模拟数据生成系统[j].计算机工程,2007(19).

[3]王琦峰,胡玲玲. 基于ao的审计数据采集方法 [j].计算机系统应用,2009(3).

[4]米天胜,张金城. 面向数据的计算机审计中数据质量问题的探讨[j].审计与经济研究,2006(1).

[5]王昊,朱文明. 审计数据质量研究:从审计取证的视角 [j].南京大学学报:自然科学版,2007(1).

[6]杨磊,李建军,张志军,孙翠娟.谈数据挖掘中常用的聚类算法[j].中国成人教育,2008(4).

[7]胡彩平,秦小麟.一种改进的空间聚类算法 [j].模式识别与人工智能,2007(3).

[8][美]margaret h dunham. 数据挖掘教程 [m].郭崇慧,译.北京:清华大学出版社,2005.