首页 > 文章中心 > 数据仓库

数据仓库

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据仓库范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

数据仓库范文第1篇

【关键词】数据仓库;可变性;决策;技术;发展

中图分类号: C37 文献标识码: A 文章编号:

一、前言

随着计算机科学与技术的飞速发展,数据库、计算机网络和自动控制系统等被广泛用于企业管理、政府办公、科学研究和工程开发等领域,产生的数据量急剧增加,海量数据层出不穷。为了处理数目巨大的数据,数据仓库应运而生。数据仓库的应用也十分广泛,并在不断的发展。

二、目前国内外发展现状

在数据库技术的当前及未来发展里程中,数据仓库以及基于此技术的商业智能无疑将是大势所趋。IBM的实验室在这方面进行了10多年的研究,并将研究成果发展成为商用产品。除了用于OLAP(联机分析处理)的后台服务器DB20LAPServer外。IBM还提供了一系列相关的产品:包括前端工具,形成一整套解决方案。其它数据库厂商在数据仓库领域也毫不示弱方法各有不同。Informix也是类似,在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件Advanced Decision Support Option,OLAP选件扩展并行选件Extended Parallel Option等,并认为这种体系结构严谨,管理方便,索引机制完善,并行处理的效率更高。其中数据仓库和数据库查询的SQL语句的一致使用户开发更加简便:而微软则是在其SQIServer7.0中集成了代号为Plato柏拉图的OLAP服务器,与上述公司不同的是,Sybase提供了专门的服务器0LAP Sybase lQ,并将与数据仓库相关工具打包成Warehouse Studio。

从中国的数据库市场来看,大部分数据库系统的建立是用来进行传统的OLTP业务。也有一些企业建立了数据仓库系统,但真正发挥效用的却不多见。和TCP/IP,SMTP)Java等相比。尚不存在可靠的、完善的、被广泛接受的数据仓库标准,影响了数据仓项目的实施。

三、数据仓库的相关技术

1、异种数据源集成

企业在进行经营分析与决策支持系统建设时必须将遗留系统(Legacy System)进行高效全面地集成,由于遗留系统是在企业发展的不同时期建设的往往缺乏全局的规划,所以常表现为不同的操作系统平台、不同的数据库平台、不同的网络通信机制等等,形成了所谓的“信息孤岛”。

数据源分为在线数据源和离线数据源,在线数据源是指允许在线抽取的业务数据源,如营业数据,离线数据源是指不允许直接在线抽取的数据源,如计费详单数据,采用以脱机平面文件数据的格式以FTP方式集成进本系统。

2、ODS层的设计

操作数据存储ODS(Operation Data Storage)是一个集成了来自不同数据库数据的环境。其目的是为终端用户提供一致的企业数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战。它是面向主题的、集成的、实时的数据存储。

3、TL过程的设计

数据抽取、转换和加载,是数据仓库实现过程中,进行数据由数据源系统向数据仓库加载的主要方法,整个数据处理过程如下:数据抽取:从数据源系统抽取数据仓库系统需要的数据。数据抽取采用统一的接1:3,可以从数据库抽取数据,也可以从文件抽取,对于不同数据平台、不同的源数据形式、不同性能要求的业务系统以及不同数据量的源数据,可能采用的接口方式不同;数据转换:数据转换是指对抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据和信息模型的一致性和完整性,并按要求装入数据仓库;数据加载:数据加载就是将转换后的数据加载到数据仓库系统中。数据加载采用数据加载工具,也可以采用API编程进行数据加载。

四、数据仓库可变性

数据仓库不是—个静止不变的产品,而是一个动态的,不停变化的过程。这个过程为全企业的管理系统奠定信息基础。该系统可用来测算利润、管理和分析风险、进行市场分析、帮助规划和加强客户服务计划及市场推进计划。与现买现装的产品不同,成功的数据仓库实际上是一个过程。它要求公司仔细分析本公司的基本原则,决定需要哪些运作数据和外部数据源,然后利用一种严密的方法把所有的数据集中起来,再变换成有用的信息。

数据仓库过程一旦开始实施,就没有终结的时候。它的可用性和中肯性在极大程度上来自于其信息的新鲜性。因此,公司必须不断对它进行更新,馈入新的统计信息和新的事务档案。

五、数据仓库的在企业决策中的重要性

数据仓库直接影响事关公司命运的决策。数据仓库是一种数据集成战略,目的是促进最终用户利用企业数据,同时保护公司的数据财富(关键任务的可操作数据)安全性和完整性。只要安排妥当,数据仓库就能发挥它的重要作用,即人们可以很快地作出决策。因此,数据仓库是实施公司战略的一种技术手段。

一般来说,构筑数据仓库是一个频繁的查阅过程,它可分为若干阶段,其中包括需求分析、数据仓库的设计、操作数据的提取、不相容数据的集成,数据仓库的装填、最终交付用户使用。在后续期内,还应该对数据仓库作定期更新。

六、数据库发展前景与展望

1、智能化

计算机科学主要目标是使计算机与人的界面尽量靠近人这边。因此。要尽量提高计算机的智能水平。智能化是计算机科学各个分支的研究前沿。在数据库方面,智能化的工作是将人工智能技术与数据库技术相结合,即演绎数据库知识库研究。目前的主要困难在于递归查询处理无法取得满意的性能,硬件技术的革命(大内存、并行机、高速存取的外存储器)将是提高知识库查询效率的重要因素。

2、多媒体

多媒体数据处理的困难很多,即使是一般的复杂对象目前也还不能很好地处理。多媒体数据的建模、存储和多媒体数据库的查询及查询处理等都是需要我们研究解决的内容。

3、网络化

信息分布方面主要是分布式数据库系统的研究。分布式数据库从20世纪70年代开始研究,但是一直没有出现商品化的分布式数据库系统,这说明了它的难度。当前比较好的具有数据分布特征的数据库管理系统是Client/Server体系结构的系统如:SYBASE,ORACLE7等)。但新的计算机应用又对它提出了新的要求,智能化、新型事务模型、多媒体数据的处理、高速信息通讯、数据源的高度透明性等将是新型的分布式数据库系统的重要研究内容。

4、与软件工程的结合

到目前为止,数据库设计与应用程序设计是分离的。并且在具体的应用系统开发中。往往由2个小组各行其事。其后果是一方面的优良设计不得不放弃,导致系统性能低下或用户要求无法满足。面向对象技术是二者结合的有效手段。但是,良好地结合还需要很长时间的努力。处理的数据越来越庞大、计算机网络越来越复杂、系统的智能水平越来越高是计算机系统发展的总趋势。因此,未来的信息管理系统的特征将是处理复杂对象、分布、智能。在复杂对象处理方面,面向对象数据库、多媒体数据库将会由于广泛的应用背景和强大系统实验而迅速发展。在数据分布方面,客户服务器数据库系统将快速发展,并在应用上取得良好效果。在智能化方面。数据库和人工智能将在各自的领域不断发展、不断取得新的成果。

七、结束语

目前数据仓库技术仍处于不断发展,并在实际应用中发挥了巨大的作用。为了更好的使用数据仓库技术,让其造福实际工作,应该全面认识数据仓库,并在实践中不断的发展完善数据仓库。

参考文献

[1]徐洁磐.数据仓库[M].机械工业出版社,2007.

数据仓库范文第2篇

关键词:数据仓库;数据挖掘;决策树

中图分类号:TP391 文献标识码:A 文章编号:16727800(2013)002009904

0 引言

数据仓库与数据挖掘是近年来刚刚兴起并逐步发展起来的一门新兴交叉学科,它把对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,并提供决策支持。此门学科涉及到许多领域的知识,包括数据库技术、人工智能技术、数理统计、可视化技术、并行计算、机器学习等,汇集了多门学科的知识并在综合运用这些学科知识的基础上产生出新的知识和方法。此门学科的应用主要在于构建企业的决策支持系统,此系统正是目前帮助企业提高自身竞争力的重要手段。

在数据仓库与数据挖掘学科中涉及了许多概念、设计方法及诸多挖掘算法,本文将就其中的一些内容结合SQL Server Analysis Service应用实例加以阐述与说明,以加深对理论的理解,并逐步掌握此门学科所提供的更多技术。

总体来讲,构建一个企业的决策支持系统主要有两个阶段,第一个阶段是创建企业的数据仓库,第二个阶段是在数据仓库的基础上进行数据挖掘。这两个阶段的工作相辅相成,数据仓库是基础,数据挖掘是在数据仓库之上的高层应用,两者需要整体规划、分步实施。下面分别就这两部分内容结合实例加以阐述。

1 数据仓库的规划与设计

数据仓库是一个面向主题的、集成的,时变的、非易失的数据集合,支持部门管理的决策过程,数据中的每一个数据单元在实践上都是和某个时刻相关的。数据仓库也被看作是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储整个组织的历史数据,这些数据会影响到这个组织和企业的多个方面。数据仓库的特点是:数据常常来自于多个数据源;其存放模式一致;驻留在单个站点;数据已经清理、变换、集成与装载并定期刷新;数据量巨大。

数据仓库构建方法同一般数据库构建方法最大的不同在于数据仓库的需求分析是从用户的决策问题入手,其目的是直接针对问题的主题,而一般数据库系统是以事务处理为出发点。下面结合具体实例说明数据仓库的设计步骤。

1.1 确定用户需求,为数据仓库中存储的数据建立模型

通过数据模型得到企业完整而清晰的描述信息。数据模型是面向主题建立的,同时又为多个面向应用的数据源的集成提供了统一的标准。

例如:FoodMart是一家大型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析1998年进行的所有销售业务数据。该公司现在急需进行销售方面的数据分析,以找到一些潜在规律来促进销售业务的进一步拓展从而扩大销售渠道、加大销售量、提高销售利润、增强公司竞争力。该连锁店销售的产品总体上被分为若干个大类,细节上分为若干个小类;客户广泛分布于不同地区、不同国家。该连锁店在销售信息管理系统中长期保存并不断更新着产品、产品分类、商店、销售、促销、客户等记录表,依次为:产品表(PRODUCT)、产品分类表(PRODUCT_CLASS)、商店表(STOR)、1998年销售记录表(Sales_fact_1998)、促销表(PROMOTION)、客户表(CUSTOMER)等。

FoodMart连锁店保存并不断更新的数据库是事务处理型数据库,其结构是面向应用而设计的。要进行数据挖掘就必须建立面向主题的数据仓库,为了进行1998年销售方面的数据挖掘,要设计的数据仓库必须以1998年销售数据为主题,辅之以日期、产品、产品分类、商店、促销、客户等其它数据信息。具体来讲,即创建以1998年销售为主题的数据仓库,采用星型/雪花模式构建事实表。

1.2 分析数据源,完成数据仓库的设计工作

基于用户的需求,着重于1998年销售主题,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。1998年销售事实表包含5个维表和3个度量。这5个维表分别是日期、客户、产品、促销和商店维表,3个度量分别为销售金额、仓储成本、销售单位。考虑到将来要根据顾客的年收入情况进行顾客会员卡种类方面的数据分析,另外增加了年收入维度(yearly income,取自于customer表)。为便于分析挖掘出有关时间因素的信息,特增加了时间表time。

1.3 生成物理的数据仓库,并从各种源系统中获取数据装入数据仓库中 在SQL Server Analysis Service manager中建立物理的数据仓库可以通过ODBC数据源方式指定原有数据库,再通过Microsoft OLE DB Provider for ODBC进行连接的方式完成原有数据库到数据仓库的映射。运用SQL Server Analysis Service manager提供的功能建立数据仓库的多维数据集,指定此数据仓库的度量值与维度,至此数据仓库建立完毕。其中纬度与度量值如图2所示。

2 数据挖掘

数据挖掘(Data Mining)又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简言之,数据挖掘就是从海量数据中提取隐含在其中的有用信息和知识的过程。数据挖掘可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。数据挖掘的方法是建立在联机分析处理 (On Line Analytical Processing,OLAP)的环境基础之上的。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP 的多维数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行进一步查询。OLAP系统可以快速灵活地为分析人员提供实时支持。

数据挖掘工作是在完备地建立了数据库、数据仓库等数据集的基础上进行的,典型的数据挖掘系统结构如图3所示。

整个数据挖掘过程主要可分几个阶段,依次为:问题定义、数据预处理、数据挖掘以及结果的解释和评估。

2.1 问题定义

问题定义就是要清晰地定义出业务问题,确定数据挖掘的目的。对于FoodMart连锁店来说,它的问题定义就是:FoodMart连锁店的市场部想增加客户满意度和客户保有率,于是实行了创造性的方法以达到这些目标。

其方法之一是对会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。

为了重新定义会员卡方案,市场部想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入、在家子女数等等)和所申请卡之间的模式,然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

2.2 数据预处理

最初为数据挖掘所准备的所有原始数据集通常都很大,它们当中存在许多脏数据。造成脏数据的原因主要源自于收集与传送过程的错误、滥用缩写词以及不同的惯用语、重复记录、数据输入错误、拼写变化、不同的计量单位、过时的编码、集成时的空值与丢失值以及不同的数据源等。脏数据主要有以下一些表现形式:

(1)数据不完整。表现为:感兴趣的属性缺值;缺乏感兴趣的属性;仅包含聚集数据等。例如:CUSTOMER表中的LNAME=“”

(2)数据噪声。即包含错误的属性值或存在偏离期望的孤立点值。一个属性的值与事实完全不吻合的情况,例如:CUSTOMER表中的在家子女数num_children_at_home=200

(3)数据不一致。数据不一致表现为多种情况,比如:同样的属性在不同的结构里使用不同的名字,例如:name、xm;不同数据使用的计量单位不同,例如:100(美元)、100(美分);数据不允许为空的地方数据为空等。

如果在脏数据上进行数据挖掘将很可能导致错误的判断甚至完全相反的分析结果,也就是说,没有高质量的数据就没有高质量的挖掘结果。由于决策质量依赖于数据质量,因此需要在数据挖掘之前进行数据预处理,以保证数据仓库内包含的是高质量的、一致的数据。所谓数据预处理其实就是对数据仓库中的数据进行提取、清理、转换,从而保证数据的高质量,具体来讲包括以下几种操作:

(1)数据清理(data cleaning)。就是去掉数据中的噪声,纠正不一致;填写空缺值,平滑噪声数据,识别、删除孤立点。例如:将CUSTOMER表中的在家子女数num_children_at_home=200的记录值删除掉或填入平均值1。

(2)数据集成(data integration)。将多个数据源中的数据合并存放在一个统一的数据存储(如数据仓库、数据库等)中,数据源可以是多个数据库、数据立方体或一般的数据文件。

(3)数据变换(data transformation)。即数据的标准化与聚集,将数据变换成适于挖掘的形式。例如:属性数据可以规范化,使得它们可以落入某个小区间。

(4)数据归约(data reduction)。数据归约技术可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。数据归约主要通过数据聚集(如建立数据立方体)、维归约(如删除不相关特性)、数据压缩(如最短编码)、数字归约(用较短的表示替换数据)、概化(去掉不用的属性)等方法完成。例如,对于FoodMart连锁店的数据挖掘来讲,CUSTOMER表中的address1、address2、address3、 address4这4个属性与挖掘目标无关,所以可以将它们删除掉以节省空间和时间。

2.3 选择挖掘模型,进行数据挖掘

根据数据挖掘的目标和数据的特征,选择合适的挖掘模型,在净化和转换过的数据集上进行数据挖掘。

FoodMart连锁店的工作设想是:对会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。市场部想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入、在家子女数等)和所申请卡之间的模式,然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

对于这个工作预期,决定采用决策树的数据挖掘方法进行客户群的分析。所谓决策树,就是在对数据进行决策分类时利用树的结构将数据记录进行分类,其中树的一个叶结点就代表符合某个条件的属性集,根据属性的不同取值建立决策树的各个分支,随后递归地构造每个子节点的子树。由于决策树结构简单便于人们认识与理解,以及决策树不需要额外的数据训练,因此,决策树是数据挖掘中常用的一种分类方法。

本实例采用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。按照以下步骤完成“决策树”挖掘模型:

(1)将要挖掘的维度(事例维度)设置为客户;

(2)将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息;

(3)选择人口统计特征列表(婚姻状况、年收入、在家子女数和教育程度),算法将据此确定模式;

(4)处理训练模型,浏览决策树视图并从中读取模式。

经过处理后,挖掘模型浏览器展现出一棵深度为3、宽度为8的决策树,此浏览器将根据用户对树中不同分支节点的选择显示出相应的统计信息。

例如,选择根节点“全部”顾客的方框后显示信息如图4所示。

在图中可以看到数据挖掘的结果:将客户按照年收入的不同分为8个区段(类),涉及的客户总数为7 632人,通过直方图可以直观地看到办理金、银、铜、普通卡的比例。

选择年收入在$30K-$50K的范围框后,挖掘模型浏览器的显示信息如图5所示。

年收入在此范围内的客户共计1 362人,其中办理金、银、铜、普通卡的数量和比例通过合计及直方图可以一目了然。

其它选项依此类推。

对年收入在$150K以上的范围节点进行进一步分级(显示其子节点),选择已婚节点后显示信息如图6所示。

其它选项依此类推。

2.4 解释模型结果分析

针对FoodMart商店的举措,对挖掘模型浏览器的显示结果进行研读后得出这样的结论:年收入越高的顾客办理金卡、银卡的比例越高,收入越低的顾客办理普通卡和铜卡的比例越高。在高收入的顾客中,已婚者办理金卡的比例最高,单身者办理银卡的比例最高。在较低收入的顾客中,在家子女的人数少于两人的办理铜卡的比例较高,多于两人的办理金卡的比例较高。具体数据值及比例值可以从挖掘模型浏览器中得到。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。

3 结语

企业要建立自己的决策支持系统就必然要应用数据仓库、数据挖掘技术,企业应根据自身要求合理建立特定主题的数据仓库,在此基础上还要结合实际问题选择相应的挖掘模型,从而得到最有价值的挖掘分析结果,以利于企业的经营发展。

参考文献:

数据仓库范文第3篇

【关键词】数据仓库 数据挖掘 技术 应用

信息时代背景下,传统数据库主要是面向事务并存储在线交易的数据信息,但是无法为人们找到信息中隐藏的重要内容。因此社会发展新形势下,数据仓库与挖掘技术应运而生,并成为企业现代化发展的重要应用技术,不仅能够提高数据信息管理能力,还能够促进企业发展。因此加强对该课题的研究具有积极意义。

1 数据仓库及数据挖掘技术概念

所谓数据仓库技术设计灵感来自于传统数据库技术,其主要是在计算机中实现数据存储的一种技术。但是相比较传统数据库,二者存在本质上的差别。数据仓库的出现并未取代传统数据库,二者共存在信息时代,且发挥自身独特的优势。数据库主要存储在线交易数据,且尽量避免冗余,通常采取符合范式规则设计;而数据仓库在设计过程中有意引入冗余,采取反范式方式实现设计目标。

而数据挖掘技术是在数据集合基础之上,从中抽取隐藏在数据当中的有用信息的非平凡过程。这些信息表现形式呈现多样化,如概念、规则等。它在具体应用过程中,不仅能够帮助决策者分析历史与当前数据信息,还具有预见作用。就本质上来看,数据挖掘过程也是知识发现的过程。数据挖掘技术是多个学科综合的结果,对此其融合了多项技术功能,如聚类、分类及预测等,且这些功能并非独立存在,而是存在相互依存关系。

2 数据仓库与挖掘技术的应用

2.1 数据仓库技术的应用

作为信息提供平台,其从业务处理系统中获得数据,并以星型与雪花模型实现对数据的有效组织。一般情况下,它具体应用主要表现在四个方面:

2.1.1 抽取数据信息

数据仓库具有独立性,在应用中需要从事务处理系统、外部数据源等介质当中获取数据,并设置定时抽取,但需要合理控制操作时间、顺序等,以提高数据信息有效性。

2.1.2 存储和管理数据

作为数据仓库的关键,数据存储及管理模式直接决定其自身特性。因此该方面工作需要从技术特点入手,并积极解决对各项业务并行处理、查询优化等问题。

2.1.3 表现数据

数据表现作为数据仓库的开端,集中在多位分析、数理统计等多个方面。其中多维分析是数据仓库的核心,也是具体表现形式,而通过数据统计能够帮助企业抓住机遇,实现经济效益最大化目标。

2.1.4 技术咨询

数据仓库的出现及应用并不简单,其是一个系统性的解决方案和工程。实施数据仓库时,技术咨询服务十分重要,是一个必不可少的部分,对此在应用中,应加强对技术咨询的关注力度。

2.2 数据挖掘技术在各领域中的应用

不同于传统时代,社会各领域在参与激烈的市场竞争过程中,充分认识到数据对自身长远发展战略实现的重要性。因此数据挖掘技术在当前各行业发展中随处可见。

2.2.1 应用于医学方面,提高诊断准确率

众所周知,人体奥秘无穷无尽,遗传密码、人类疾病等方面都蕴含了海量数据信息。而传统研究模式,单纯依靠人工无法真正探索真正的秘密。而利用数据挖掘技术能够有效解决这些问题,给医疗工作者带来了极大的便利。同时,医疗体制改革背景下,医院内部医疗器具的管理、病人档案资料整理等方面同样涉及数据,引进数据挖掘技术,能够深入分析疾病之间的联系及规律,帮助医生诊断和治疗,以达到诊断事半功倍的目标,且为保障人类健康等提供强大的技术支持。

2.2.2 应用于金融方面,提高工作有效性

银行及金融机构中涉及储蓄、信贷等大量数据信息。利用数据挖掘技术管理和应用这些数据信息,能够帮助金融机构更好地适应互联网金融时代的发展趋势。提高金融数据完整、可靠性,为金融决策提供科学依据。金融市场变幻莫测,要想在竞争中提升自身核心竞争力,需要对数据进行多维分析和研究。在应用中,特别是针对侦破洗黑钱等犯罪活动,可以采取孤立点分析等工具进行分析,为相关工作有序开展奠定坚实的基础。

2.2.3 应用于高校日常管理方面,实现高校信息化建设

当前,针对高校中存在的贫困大学生而言,受到自身家庭等因素的影响,他们学业与生活存在很多困难。而高校给予了贫困生很多帮助。对此将数据挖掘技术引入到贫困生管理工作中,能够将校内贫困生群体作为主要研究对象,采集和存储在校生生活、学习等多方面信息,然后构建贫困生认定模型,并将此作为基础进行查询和统计,为贫困生针对管理工作提供技术支持,从而提高高校学生管理实务效率,促进高校和谐、有序发展。

2.2.4 应用于电信方面,实现经济效益最大化目标

现代社会发展趋势下,电信产业已经不仅限于传统意义上的电话服务提供商、而将语言、电话等有机整合成为一项数据通信综合业务。电信网、因特网等网络融合已经成为必然趋势,并将成为未来发展的主要方向。在大融合影响下,数据挖掘技术应用能够帮助运营商业务运作,如利用多维分析电信数据;或者采取聚类等方法查找异常状态及盗用模式等,不断提高数据资源利用率,更为深入地了解用户行为,促进电信业务的推广及应用,从而实现经济效益最大化目标。

3 结论

根据上文所述,数据仓库与挖掘技术作为一项新型技术,在促进相关产业发展等方面占据十分重要的位置。因此在具体应用中,除了要积极明确数据仓库与传统数据库之间的差别之外,还应切实结合实际情况,积极引入数据挖掘技术,充分挖掘和探索数据信息中的重要内容,为制定科学决策提供支持,同时还应加大对技术的深度研究,不断提高技术应用水平,从而为用户带来更大的利益。

参考文献

[1]陈宏.浅谈数据仓库与数据挖掘技术及应用[J].科技广场,2011,09:90-93.

[2]崔愿星.浅析数据仓库与数据挖掘的应用[J].内江科技,2014,01:141-142.

[3]王慧.数据仓库和数据挖掘在医院信息系统中的应用[J].电脑开发与应用,2014,01:76-78.

[4]靳鑫.浅析数据仓库和数据挖掘[J].中国新通信,2012,11:29-31.

数据仓库范文第4篇

【关键词】 会计软件;数据接口标准;数据仓库;数据模型

随着会计信息化的发展,我国的会计软件种类也越来越多,但是往往都自成体系,采用的数据库平台和数据结构也就大不相同。由此使得不同的会计软件之间,以及会计软件与会计数据相关的业务软件之间的数据交换,形成了一定的障碍。2004年9月20日,GB/T19581―2004《信息技术会计核算软件数据接口》国家标准的颁布,在很大程度上解决了会计软件之间数据交换的障碍。只要符合会计数据接口标准要求,实现会计信息化的单位就很容易将历年的会计数据导出,通过建立数据仓库,并利用会计核算软件对数据仓库的数据进行相关的财务分析和决策。同时利用数据仓库对繁多的会计数据进行管理,不仅将提高会计数据利用率,通过利用数据仓库进行财务分析,还可以提高管理决策的质量。

一、会计核算软件标准数据接口基本内容

由于目前财务软件的平台复杂多样,而这些软件之间的数据没有一个统一的数据规范,造成不同财务软件之间数据交流相当困难。GB/T19581―2004《信息技术会计核算软件数据接口》的颁布主要是对国内所有正在使用的会计核算软件(包括含会计核算功能的会计信息系统、管理信息系统等)规定统一的数据输出的内容和格式。会计核算软件数据接口分两个部分,一部分是规定其内容,包括电子账簿、会计科目、科目余额、记账凭证、报表等;另一部分规定其输出的格式要求,包括文本文件的输出方式和XML 文件的输出方式,并要求以一定期间为单位导出会计核算数据。

二、数据仓库与接口标准之间的关系

William H. Inmon 在1993年写的《Building the Data Warehouse》论著中,将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。由定义可知,数据仓库的主要特征为:面向主题性、数据的集成性、稳定性、时变性。通过数据仓库,不同层次的管理人员可以进行各种管理决策的分析。数据仓库中存放的是数据的历史值,并且是静态的历史数据,可以定期添加,具有低访问率,高访问量的特点。而这些数据都来源于其他不同的数据库。

目前的多数财务软件在数据库的选用、数据库的格式上大不相同,导致各财务软件之间不能互相交换数据,也给审计软件导入财务软件的数据带来了一定的困难。而以往数据仓库在财务上的应用,基本上都是面向单个企业的单独开发。GB/T19581―2004《信息技术会计核算软件数据接口》的颁布,在很大程度上解决了这种障碍。按照会计核算软件数据接口标准的数据结构和内容,建立一个标准数据库即数据仓库,从而企业可以根据会计数据接口标准要求,将原数据库中的数据转换为标准规定的格式,并可以通过数据仓库将符合要求的会计数据从会计核算软件导入或导出,从而实现对数据仓库进行相关的财务分析及决策。

三、数据仓库的模型设计

数据仓库创建之前首先要根据需求明确所构建内容的主题域。在根据需求分析确定主题域后,就可以通过建立数据模型对数据仓库进行描述。模型是对现实世界进行的抽象描述,在信息管理中要实现对信息的管理与分析,就要依靠数据模型将现实世界的事物转换为信息世界的数据。创建数据仓库所采用的模型主要有概念模型、逻辑模型、物理模型。

(一)主题域的确定

数据仓库设计的关键是主题域的确定,整个数据仓库的数据都是围绕主题和软件标准数据接口而组织的,主要用于对企业的财务进行分析。根据数据接口标准规定的数据文件,主题可以分为以下几类:

资产负债表主题:主要分析企业某一特定日期内的财务状况,还可以进一步细化分为资产主题,负债主题,所有者权益主题;

现金流量表主题:分析企业在一定会计期间现金及现金等价物的流入和流出情况;

利润表主题:用于分析企业在一定会计期间的经营成果;

所有者权益变动表主题:分析企业一定时期所有者权益变动的情况;

财务分析指标主题:通过以上主题来分析企业一定时期的营运能力、偿债能力、获利能力及发展能力等。

(二)概念模型设计

星型模型和雪花型模型是概念模型设计常使用的两种模型。雪花型模型是对星型模型的扩展,适用于具有复杂结构数据仓库的应用,星型模型是最常使用的模型。模型设计主要用于设置事实表与维表之间的连接,使每个维表通过主键与外键连接,进而实现与事实表的连接。概念模型的设计就是要根据需求,确定业务中的指标实体和维实体,以及在实体间建立联系,概念模型设计后可以在一些开发工具中,利用一些技术功能直接转换为物理模型,再生成数据库,从而节约了时间并提高了效率。

(三)逻辑模型设计

通常在概念模型设计好后,还要依靠逻辑模型来实现概念模型到物理模型的转换。由于目前数据库都建立在关系数据库基础上,所以所采用的逻辑模型主要是关系模型。会计核算软件数据接口标准对所涉及的数据元素规定了统一的格式,在建立的逻辑模型中,要根据数据接口的规定对数据的字段进行格式描述。逻辑模型设计主要包括事实表,维表设计以及粒度的划分。

(1)事实表。直接反映了数据仓库中应用的主题,是星型结构中最主要的表,包含了数据仓库中最主要的信息,如资产负债表、现金流量表、利润表、所有者权益变动表、财务分析表。而数据仓库的数据都是来自于不同数据接口的数据库,在进行数据仓库的逻辑模型设计时,还要确定各表中的数据元素即字段与数据源的逻辑关系,以便核算软件按照接口标准要求输出文件。其中的对应关系可以归纳为:第一种是数据元素和数据源的一一对应,即可以在核算软件中找到与数据元素直接对应的表与字段;第二种是数据元素需数据源通过计算得到,即必须对数据源进行计算处理才能满足标准规定的数据元素的需要;最后一种对应关系是依据逻辑判断非源于特定数据源的数据。数据源的确定和对应关系是会计软件输出符合标准数据的逻辑基础。因为过于庞大的事实表在表的处理、备份和恢复、用户的查询等方面需要较长的时间,在设计时要注意使事实表尽可能地小。

(2)维表。主要用来描述事实表,与事实表有着非常重要的关系,在事实表中大多数属性都要依赖于维表,维表的主键组成了事实表的外键,每个维表都通过主键与事实表的外键连接,实现数据库快速查询。维表的属性也要根据接口标准规定进行规范定义。维表也会影响企业决策的因素,如不同企业、日期、指标类别都是影响企业决策的因素,通过这些因素决策者可以按照不同企业不同日期不同指标类别进行决策分析。根据事实表设计的维表有会计期间维表、报表编码维表、日期维表、企业维表等。

(3)粒度的划分。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。通过粒度的划分,决定了数据仓库是采用单一粒度还是多重粒度,以及粒度的划分层次。粒度级越低,细化程度越高;相反,粒度级越高,细化程度越低。粒度的划分直接影响到数据仓库中的数据量和信息查询,以及进一步进行OLAP(联机分析处理)和数据挖掘的效果。如果主题的数据量、信息量较多,对主题数据分析细化程度要求较高,就要根据用户对数据仓库应用的需求,采用多重粒度进行数据划分。用低粒度即细化到月的数据,保存近期的会计报表及财务分析指标数据,对时间较远的会计报表及财务分析指标数据的保存用粒度较大即细化到年的数据。这样既可以对财务近况进行细节分析,又可以利用粒度较大的数据对财务趋势进行分析;否则采用单一粒度进行划分。

(四)物理模型设计

逻辑模型在物理系统中的体现模式,需要通过数据仓库的物理模型设计来实现。包括逻辑模型中的各种实体表的具体化,包括表的数据结构类型、索引策略、数据存放位置及数据存储分配等。会计软件数据接口标准中所要求的数据接口输出数据,包含接口标准要求的16个数据文件和1个格式说明文件,每个文件的文件名都进行了严格的规定。同时在标准中对16个数据文件的81个数据元素也进行了严格定义,首先,在物理模型设计中表的数据结构应根据接口标准要求,对数据的格式及内容进行统一的定义规范,如表的字段标识符要采用三位数字进行标记,字段的类型长度最多为5位可变长字符。只要会计软件的数据仓库的数据接口符合接口标准,就可以实现输出符合标准的数据。其次,由于数据仓库的数据量很大,通过索引的创建可以提高数据存取的效率,通常按事实表的主键和外键来建立索引。在数据仓库中首先需要为事实表设置索引,在为事实表的主键声明约束时,应该按照这些列的声明次序创建一个惟一的索引。而对于使用频率较高的外键,应置于主键索引的前面,以提高查询效率。

数据仓库中的数据可以通过数据库访问接口,将源数据库中的数据转换为标准格式的数据导入。其中数据的存储通常按数据的重要性、使用频率以及对响应时间的要求进行分类,并将不同类型的数据分别存储在不同的存储设备中,其中重要性高、经常存取并对响应时间要求高的数据存放在高速存储设备上,而存取频率低或对存取响应时间要求低的数据则可以存放在低速存储设备上。

四、数据仓库的创建

通过对数据仓库中的事实表、维表的逻辑模型设计,同时根据在物理模型中对各种表的存储区间、方式的处理,在数据仓库的实施过程,采用适当的数据仓库创建工具,就可以创建数据仓库。目前用于创建数据库的工具主要有SQL Server、Oracle10i、Sybase等。数据仓库的创建可以根据具体情况选择适合的开发工具。

五、数据的采集及转换

数据仓库的物理模型设计完成后,就要根据会计核算软件数据接口标准,来完成数据仓库结构的建立,实现数据仓库和元数据库的创建,然后就可以对数据仓库进行数据的加载。元数据库是数据仓库的灵魂,没有元数据库,用户就无法对数据仓库的数据进行良好的定义、组织和管理。数据的采集及转换是建立数据仓库中最重要的处理过程之一,这一过程实际上是要把来自不同的操作性数据源、不同的数据进行集成,将非标准的数据转化为在一定程度上的标准化的数据。采集之前首先需要对数据进行预处理,即进行准备工作包括清空工作区、准备区。由于数据仓库中的数据来源十分复杂,这些数据在进入数据仓库之前常常需要在准备区对数据进行标准化处理,即将不同数据结构的数据进行统一处理,如源数据库中的数据类型与长度和标准规定的有所差别,就需要进行数据的类型转换、长度的截取等工作。数据的采集可以通过数据库接口访问源数据库,将数据转换为标准格式数据存入数据仓库,同时为了确保数据仓库中数据质量,还要对数据进行必要的清理即筛选工作。数据的清理工作必须严格依据元数据的定义进行,数据清理结束就可以将经过净化和转换的数据加载到数据仓库事实表中。实现的工具主要有SQL Sever、Oracle等。对数据提取以后,同样也可以利用SQL语言实现对数据的加载。

六、数据仓库的使用

在会计数据标准接口中,已经将会计科目、会计凭证、会计账簿、会计报表等中的数据纳入,并进行了统一规范。因此可以通过标准数据接口将每年的会计数据保存到数据仓库。按照会计数据接口标准要求,将会计数据仓库中的历年数据输入到会计核算软件中,并利用会计核算软件对其进行相关的财务分析、经济前景预测,以帮助管理者为企业的将来做出正确的决策。随着数据接口标准的推广实施,基于会计核算软件数据接口的数据分析技术和方法会越来越多,并且应用范围也会越来越广泛。

【参考文献】

[1] 会计核算软件数据标准接口国家标准实施指南编委会.GB/T 19581―2004《信息技术会计核算软件数据标准接口》实施指南[S].北京:中国标准出版社,2005.

数据仓库范文第5篇

1烟草营销管理系统数据仓库体系结构

数据获取层:负责数据的收集。数据源可以是业务处理系统中获取的数据,如订单信息、客户基本信息、计划信息、价格信息、产品信息等,也可以是其他外部数据源。

数据存储和管理层:负责数据的抽取、清理、转换和加载,存储加工处理后的面向主题的综合性数据。业务数据往往被存放在缺乏统一设计和管理的异构环境中,所以当数据来自多个数据源时,可能会出现不一致的数据定义、不同的数据编码、同一个数据中不一致的条目值等问题。即使数据来自单一的数据源,也可能存在数据的完整性问题。为了获得有效数据,必须对抽取的数据进行不同程度的整合和清理,数据的清理必须严格按元数据的定义进行。数据清理完成后还需要做一些数据转换工作,例如,客户收入需要按照数值范围分高、中、低档。所选择的数据表达方式会影响数据挖掘的结果。最后将经过清理和转换的数据加载到合适的数据仓库事实表中,同时更新元数据仓库中的元数据,以反映刚完成的数据加载活动。

数据展现层:将查询、报表生成和分析集成在的客户模块中,实现数据查询、OLAP分析和数据挖掘结果的展现。

2烟草营销管理系统功能

利用数据仓库技术建立烟草行业数据中心,可以将分散在不同的部门或不同的应用系统中的大量数据进行集成和统一管理,使系统具有数据存储功能,为数据的分析奠定基础。综合运用报表、查询、OLAP分析、统计学、数据挖掘等技术,使系统具有强大的数据查询功能,同时建立了方便快捷、灵活的决策分析系统,它包括以下分析子系统:

①销售业务分析子系统。通过数据统计工具,查询和分析商品购进、订单采集、订单配送、商品库存等信息,分析订单采集和执行的效率。对各个营销区域零售户的销售数量、销售额、产品结构、赢利状况等指标进行定期纵向和横向比较,以便及时发现市场变化的特征,并进行分析及评估,以对下阶段的营销工作进行调整。

②市场分析子系统。通过对市场容量、市场需求、卷烟供应情况、未来的价格走势以及消费者的偏好和购买模式的分析,为制定采购计划和销售计划提供参考依据。

③客户分析子系统。通过对零售客户的增减、经营变化、类别变动、经营者的个人情况等分析,进行零售客户分类评价,整合客户资源,以便调整服务内容,提高服务水平。

④品牌分析子系统。对卷烟品牌的销售现状、市场的接受程度、发展的趋势、推广的策略等进行分析。

⑤采购分析子系统。分析营销部提供的零售客户需求信息、销售实绩和销售趋势、零售客户变化趋势等,以市场为导向、以消费者需求为中心选择卷烟产品,为采购计划的制定提供依据。

⑥库存分析子系统。对库存卷烟从时间、地域、厂家、品牌、类别、批次等多个角度进行分析,提供卷烟的库存上下限、最佳库存量、库存周期、库存成本、合理的库房位置和卷烟存放、到期卷烟预警等信息。

⑦财务分析子系统。对行业的经济运行状况进行统计分析,为领导决策提供参考。

这些子系统提供丰富、深入、详尽、有价值的决策信息,为企业决策提供强有力的支持,从而提高企业决策的质量和效率。

3联机分析处理(OLAP)在烟草营销中的应用

OLAP是介于客户与数据仓库之间的数据分析处理系统,它对以多维形式组织起来的数据采取切片、切块、旋转、钻取等操作,使用户能从多个角度、多个侧面地观察数据仓库中的数据,如按产品维度、时间维度和地区维度等。同时可使用联机分析和可视化工具对这些数据迅速地进行评价,从而深入地了解包含在数据中的信息和内涵。OLAP一般采取由数据仓库、OLAP服务器与客户端组成的三层客户/服务器体系结构,其中OLAP服务器从数据仓库或数据集市中获取数据,根据客户的需要对多维数据集进行分析,且将分析的结果以可视化的方式传递给客户端。

在烟草营销系统中,根据各省、市、县卷烟销售公司和烟厂的历史销售数据,可对烟草系统的财务、客户、专卖、销售、库存、网点建设等几个主题进行不同角度的分析,并将结果以报表或图形等形式展现给用户。例如,卷烟销售多维数据集按品牌切片操作,便可得到关于某种品牌在不同地区、不同时间中的销售情况。

4数据挖掘在烟草营销中的应用

数据挖掘是一个从大量数据中挖掘出未知的、有价值的知识或信息的过程,这些知识表示为概念、规则、规律和模式等形式,对预测趋势和决策行为起着重要的作用。

数据挖掘为烟草营销提供的主要决策功能有:对决策主题进行分析、挖掘,从大量数据或选定样本中寻找预测性信息、发现变量之间的关联、共性和差异性,实现销售预测、库存决策分析、购进决策分析、销售或库存异动分析、品牌分析、财务状况分析、供应商分析、客户分析、专卖状况分析以及各种指标的结构分析、趋势分析、相关性分析、波动分析等,并建立预警机制。