首页 > 文章中心 > 数据分析分析技术

数据分析分析技术

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据分析分析技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

数据分析分析技术

数据分析分析技术范文第1篇

关键词:告警数据 Hadoop Spark

1 引言

随着电信网络的不断演进,全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛,监控人员每月需处理影响业务或网络质量的告警事件为20万条,但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据,对于传统的关系型数据库架构而言,似乎是一个不可能完成的任务。

在一般告警量情况下,ORACLE数据处理能力基本可以满足分析需求,但当告警分析量上升到亿级,如果采用传统的数据存储和计算方式,一方面数据量过大,表的管理、维护开销过大,要做到每个字段建索引,存储浪费巨大;另一方面计算分析过程耗时过长,无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息,支撑主动维护工作显得尤为必要,为此我们引入了大数据技术。

2 分析目标

(1)数据源:电信运营商网络设备告警日志数据,每天50 G。

(2)数据分析目标:完成高频翻转类(瞬断)告警分析;完成自定义网元、自定义告警等可定制告警分析;完成被过滤掉的告警分析、TOPN告警分析;核心设备和重要业务监控。

(3)分析平台硬件配置:云计算平台分配8台虚拟机,每台虚机配置CPU16核;内存32 G;硬盘2 T。

3 制定方案

进入大数据时代,行业内涌现了大量的数据挖掘技术,数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构,挖掘有价值信息。

Hadoop是Apache基金会用JAVA语言开发的分布式框架,通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce,HDFS用于分布式存储,MapReduce则实现分布式任务计算。

一个HDFS集群包含元数据节点(NameNode)、若干数据节点(DataNode)和客户端(Client)。NameNode管理HDFS的文件系统,DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块,这些数据块存储DataNode节点上。

MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map(映射)和Reduce(归约)两个过程,也就是将一个大的计算任务拆分为多个小任务,MapReduce框架化繁为简,轻松地解决了数据分布式存储的计算问题,让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的,磁盘I/O开销大、效率低,无法满足实时计算需求。

Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架,主要特点是弹性分布式数据集RDD[5],中间输出结果可以保存在内存中,节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外,还支持多次迭代计算,特别适合流计算和图计算。

基于成本、效率、复杂性等因素,我们选择了HDFS+Spark实现对告警数据的挖掘分析。

4 分析平台设计

4.1 Hadoop集群搭建

基于CentOS-6.5系统环境搭建Hadoop集群,配置如表1所示。

4.2 Spark参数设置[6]

Spark参数设置如表2所示。

4.3 数据采集层

数据采集:由于需采集的告警设备种类繁多,故采取分布式的告警采集,数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集,采集周期5分钟一次。采集机先将采集到的告警日志文件,通过FTP接口上传到智能网管系统文件服务器上,再对文件进行校验,通过Sqoop推送到Hadoop集群上。

4.4 逻辑处理层

(1)建立高频翻转告警监控工作流程

先将海量告警进行初步删选,通过数量、位置和时间三个维度的分析,得出高频翻转类告警清单列表,最后由专业工程师甄别确认,对某类告警进行重点关注和监控。

(2)差异化定制方案

按组网架构细分,针对核心重要节点的所有告警均纳入实时监控方案;

按业务网络细分,针对不同业务网络设计个性化的监控方案;

按客户业务细分,针对客户数字出租电路设计个性化的监控方案。

4.5 数据分析层

Spark读取Hive[7]表的告警数据,然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时,将外部告警数据源转化为DataFrame[8],并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表,就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析:

5 平台实践应用

探索运维数据分析的新方法,利用大数据分析技术,分析可能影响业务/设备整体性能的设备告警,结合网络性能数据,找到网络隐患,实现主动维护的工作目标。

5.1 高频翻转类告警监控

首先制定了高频翻转类告警分析规则,将连续7天每天原始告警发生24次以上定义为高频翻转类告警,并基于大数据平台开发了相应的分析脚本,目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。

5.2 核心设备和重要业务监控

目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差,主要表现在以下几个方面:监控级别的差异化设定基于已知的告警类型,一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到;同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的;不同保障级别的客户对故障告警监控的实时性要求也是不同的。

通过大数据分析平台对差异化监控提供了灵活的定制手段,可根据告警关键字,分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据,实现日、周、月、某个时间区等统计分析。

应用案例:省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警,但用户未申告,省NOC随即预警给政企支撑工程师,政支工程师与用户沟通后,派维护人员至现场处理,发现线路接头松动,紧急处理后告警消除、业务恢复。

5.3 被过滤告警分析

全省每天网络告警数据300万条~500万条,其中99%都会根据告警过滤规则进行过滤筛选,把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得,但是这个过程非常繁琐,而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异,无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则,让真正急迫需要处理的告警优先呈现给维护人员及时处理,真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。

5.4 动环深放电分析

动环网管通过C接口采集蓄电池电压数据,在停电告警产生之后,电压数据首次下降到45 V,表示该局站电池出现深放电现象,通过计算这一放电过程的持续时间,记为深放电时长,该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。

在告警数据分析的基础上,实现对蓄电池电压变化数据的分析,提醒分公司关注那些深放电次数过多和放电时长过短的局站,核查蓄电池、油机配置、发电安排等,并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据,分析了其中深放电的情况如表6所示。

6 结论

本文利用HDFS+Spark技术,实验性地解决告警数据存储和分析等相关问题:一是通过数据分析,从海量告警数据中发现潜在的网络隐患;二是结合资源信息和不同专业的告警,最终为用户提供综合预警;三是转变网络监控思路和方式,通过数据汇聚、数据相关性分析、数据可视化展示,提高了网络监控效率;最后还扩展到对动环实时数据、信令数据进行分析。

从实际运行效果来看,HDFS和Spark完全可以取代传统的数据存储和计算方式,满足电信运营商主动运维的需求。

参考文献:

[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.

[2] Tom white. Hadoop权威指南[M]. 4版. 南京: 东南大学出版社, 2015.

[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

[6] S鹏. Apache Spark源码剖析[M]. 北京: 电子工业出版社, 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

[9] 员建厦. 基于动态存储策略的数据管理系统[J]. 无线电工程, 2014,44(11): 52-54.

数据分析分析技术范文第2篇

【关键词】 数据挖掘技术 频谱数据分析

前言:在对频谱监测数据分析中,简单统计分析已经无法满足频谱监测数据实际需求,需要对数据深入研究,探索配频谱监测数据潜在关联,寻找到异常信号,有效提升频谱监测精确性,起到辅作用。数据挖掘技术在应用过程中,能够挖掘海量数据内价值,有关监督设备可以对数据进行扫描,深入分析有关数据。

一、数据挖掘技术简介

1.1数据挖掘的概念

在上世纪90年代内,研究人员提出了数据挖掘,主要目的就是希望能够将所采集到的应用数据内所具有的潜在价值信息挖掘,获取价值信息。数据挖掘内包含较多学科内容,例如人工智能、统计、可视化技术、数据库等。数据挖掘在对数据分析研究过程中,主要采取分类及聚类进行监测,对有关知识进行演变。数据挖掘常见模式主要分为四种,分别为频繁模式、分类模式、聚类模式与异常模式[1]。

1.2数据挖掘的过程

1、数据准备。数据准备阶段主要包含两方面工作,分别为数据获取和数据预处理。数据挖掘应用点在确定之后,能够有效对有关数据进行收集,同时对数据背景进行掌握,对挖掘模式进行确定。有关数据在收集之后,需要对数据内所包含的冗余数据及空缺数据进行预处理,为计算机分析奠定坚实基础。

2、数据挖掘。数据娃聚主要是在数量及挖掘目标确定之后,选择合适的数据挖掘方法及技术,对数据进行计算分析,构建针对性数据。

3、挖掘结果展示。数据挖掘技术所得到的数据结果,十分抽象,除了数据挖掘技术行业工作人员无法对数据挖掘结果进行了解,所以需要对数据挖掘结果进行转化,通过图形及图像的方式,将挖掘结果在屏幕内显示出来,直观将挖掘结果展示出来,用户能够对挖掘结果深入理解。

4、挖掘结果应用分析。按照挖掘背景及目的,对数据挖掘结果进行系统性分析研究,进而找到海量数据内具有价值的信息,同时这些信息技有关生产,对数据挖掘结果正确性进行判断,对数据挖掘有关知识进行修正、完善[2]。

二、数据挖掘技术在频谱监测数据分析中的应用

2.1认知无线电中频谱资源预测应用

认知无线在频谱监测数据内应用,能够有效提高频谱监测数据质量,同时非授权用户也可以对频谱资源进行利用。授权用户在对频谱监测数应用过程中,非授权用户能够直接将频谱监测数据资源让出来,非授权用户就需要充分构建频谱途径,构建通信连接。非授权用户要是没有直接将频谱资源让出来,授权用户与非授权用户之间就会产生矛盾,进而造成通信中断,这样情况所将的损失将是无法预计的。所以,非授权用户及授权用户要是都能够对频谱资源精确划分,能够有效对资源矛盾事件防止,在这种情况下频谱监测资源利用效率也就显著提升。

正式由于认识无线电技术在实际应用内所具有的优势,在对认知无线电技术分析研究过程中,需要将重点放在授权用户应用规律上面,对授权用户占据频谱监测数据空余时间进行预测,帮助非授权用户能够在授权用户空余时间内寻找利用有关资源,这种预测性分析研究主要是通过数据挖掘技术内的频发模式实现。

2.2异常无线电信号监测应用

无线电监测站在常规监测过程中,最为主要的一项工作就是对异常无线电信号进行监测,严禁非法占用情况出现,有效提高无线电通信安全性能。

按照无线电监测所产生的数据可知,频谱设备属于常规性运行,一旦出现异常运行情况,所输出的信号就与常规状态下信号存在一定差异。所以,想要了解频谱设备出现异常情况,只需要将将信号进行分析比较,数据挖掘技术能够有效对海量信号内特点进行提取,在海量信号内寻找到异常信号。数据挖掘技术在无线电监测内应用,首先是通过无线电监测历史数据构建数据模型,模型在具有自我学习能力之后,能够应对无线电瞬息变化环境,对数据模型与历史数据模型相似点进行计算,在发现无线电设备出现异常运行情况之后,数据模型就会发出警告。

结论:数据挖掘技术在频谱监测数据分析内应用,能够有效对l谱监测数据分析流程进行简化,在大量数据信息内高效率的找到针对性数据信息,提高信息挖掘质量,进而为管理人员提供针对性意见。正式由于数据挖掘技术在频谱监测数据分析内所具有的作用,所以对数据挖掘技术进行分析研究,能够有效推动频谱监测数据发展。

参 考 文 献

数据分析分析技术范文第3篇

关键词:油田生产;大数据;数据挖掘

前言

新疆油田重油开发公司是以稠油开采为主的采油厂。有着将近10年的数字油田建设历史。而且中心数据库已经做得很成熟,主要包括五大业务板块数据。即勘探业务板块、开发业务板块、生产业务板块、经营业务板块的数据库。数据库包括的内容主要有单井、区块的日月报数据、试井与生产测井数据、分析化验数据、井下作业和地理信息数据等。数据库的数据资源种类齐全,质量高。2010年新疆油田重油开发公司正式开始进行智能化油田建设工作,利用物联网诊断单井问题,使用大数据技术对油田进行全面感知、分析预测、优化决策找到油水井的生产规律,从而有助于油田生产工作进行。

1 油田大数据的概念及处理流程

大数据有四个特点即量大(Volume)、快速生产(Velocity)、类型丰富(Variety)、真实性(Veracity),被称为4V[1]。由于数据的数量非常大,就将数据组成数据集,进行管理、处理实现数据的价值。大数据对数据库的整理流程是将数据转化为信息,将信息转化为知识,再将知识转化为智慧。这个过程应用于油田可以理解为是对油田的生产和管理工作。大数据的七个处理步骤包括:对数据的提取和收集、清洗数据、分析数据找到潜在的内在价值规律、建立预测模型、对结果进行可视化的估计、验证结果、评估模型。

2 大数据分析平台及体系架构研究

新疆油田为了满足生产应用,构建了一个有效的大数据分析平台及体系架构。此平台主要包括四个基础架构:数据抽取平台、进行分布式的存储平台、大数据的分析与展示平台。最底层是数据抽取平台主要是实现数据的整合,将数据转化成适合进行数据挖掘或者建模的形式,构建可靠的样本数据集。存储平台主要是对数据进行汇总、建模、分析,最后将处理好的数据进行储存。其功能与数据仓库相似。大数据分析层,是在大数据建模的工具和算法基础上,挖掘隐藏的数据模式和关系,利用数据软件进行分类、建模,生成预测的结果,结合专家经验利用测试的样本选定评价方案不断提高模型的精度,更好的用于油田的决策。数据应用层主要是把建立的模型设计为运行软件,运用建模方法实现数据的可视化界面设计,更好的实现人机交互。

3 大数据分析技术研究

进行大数据分析时我们经常采用两大技术即大数据预处理和抽取技术,大数据分析技术。

3.1 大数据抽取及预处理技术

大数据预处理和抽取技术的原理是指将不同名称,不同时间,不同地点的多种不同结构和类别的数据抽取处理成一种所表达的算法和内涵一致便于处理类型的数据结构[2]。在检查数据缺失、数据异常时可以使用数据清洗方法确定有用的数据,一般采用剔除法或估计值法、填补平均值替换错误的数据。为了满足建模所需的大量数据,创建新的字段时需要进行数据库的构建。将原始数据用一定的方法如归一法转换为可用于数据挖掘的数据,这个过程为数据转换。

3.2 大数据分析技术

应用于油田的大数据分析技术为:因子分析技术、聚类分析技术、回归分析技术和数据挖掘技术。其中的因子分析技术是指,利用少数的因子对多个指标和因素间的相关性进行描述,一般将密切相关的多个变量归纳为一类,这一类数据就属于一个影响因子,用较少的因子反应大量数据的信息。聚类分析技术是指把具有某种共同特性的事物或者物体归属于一个类型,并按照这些特性划分为几个类别,同种类型的事物相似性较高。这样更利于辨别预先未知的事物特征。回归分析是指在一组数据的基础之上,研究一个变量和其他变量间隐藏的关系。利用回归方程,进行回归分析,从而有规律地把变量之间的不规则,不确定的复杂关系简单得表示出来。

在使用大数据进行分析时,数据挖掘技术是最关键的一门技术。该技术将大量复杂的、随机性的、模糊的、不完整的数据进行分析,挖掘出对人类未来有用的数据,即提前获得未知信息的过程[3]。数据挖掘功能分为预测功能和描述功能。数据预测是指对数据进行处理推算,完成预测的目的。数据描述是展现集体数据的特性。数据挖掘功能是与数据的目标类型有关,有的功能适用于不同类型的数据,有的功能则只适用于特定功能的数据。数据挖掘的作用就是让人们能够提前得到未知的消息,提升数据的有效性,使其可以应用于不同的领域。

4 大数据分析在油田生产中的应用研究

4.1 异常井自动识别

油田生产过程中影响最大的一个因素是异常井的出现,因此生产管理人员加大了对异常井的重视。最初,异常井的识别主要是依靠生产部门的生产人员,必须经过人工查阅许多关于油田生产的资料才能确定异常井,这种人工检阅的方法存在很多缺陷。比如说大量的检索工作、耗费时间长等,对异常井的诊断和措施制定造成很大的困难。异常井是指油井当天的产油量和上个月相比波动很大,并大于正常的波动范围。目前广泛采用数据挖掘技术和聚类分析技术对异常井进行识别,提高效率。为了实现算法编译使用技术,系统架构B/S模式进行,能够及时发现异常井的存在。

4.2 异常井智能诊断

异常井诊断是油田每天进行生产必须要完成的工序。而大部分油田采用人工方法对其进行异常诊断,工作量极大,影响因素较多,诊断结果的可靠性较低,对后期进行计划实施造成很大的影响。这时可以采用智能诊断方法,利用灰度图像处理技术和人脸识别算法建立抽油井的特征功图库,对比油井当前的功图和所建立的特征功图,实现异常井的诊断。若是相似则不属于异常井,反之,则为异常井。但是有时一种工况可能会有许多中表现方式,致使功图解释存在很多种状况,可以采取因子分析法,分析每个工况下关联的因子间是如何变化,然后建立参数诊断数据库,对比相关因子的指标项,找到异常的原因,采取适合的方案进行修改,从而提高单井的生产效率。

4.3 间抽井开关井计划制订

当油田开发进入后期阶段就会出现很多问题,过度开发使得地层的能量越来越少,致使更多供液不足的井开发出来。将这类井称之为间歇出油井。新疆油田一般会使用人工方法制订间歇出油井的开关时间计划,但是对于计划的合理性没有进行检验。若是能够控制好间歇出油井的开关时间,对油田实现节能减排是至关重要的。这时可以采用因子分析方法和回归分析法进行研究,利用数据挖掘技术找出影响间歇出油井的开关时间的因素,建立合适的分析模型,对模型进行线性回归,进行归一化处理。从而为业务人员提供制订间歇出油井开关时间的合理方案,达到节能减排的效果。

4.4 油井清防蜡预测

目前油田上对于油井清蜡采取平均每口井一个月清洗一次蜡的措施,按照人工计划进行,出现了许多问题。比如,一些井还没有结蜡就已被清洗,有些井已经结蜡,却没有得到及时清洗。这样既浪费大量的人力物力,而且还对油田的生产效率产生不利影响。若是利用因子分析法,将收集的关于结蜡周期、清蜡方式、清蜡用量、油井状况等数据进行分析,建立油井Y蜡模型,再利用回归分析法对建立的模型建立曲线方程,进行预测,找到结蜡时间,推断出结蜡周期,更好的指导油田清蜡工序的进行,提高油田的精细化管理。

5 结束语

总之,对比以前利用人工进行油田生产可以发现大数据对于油田生产是非常必要的,可以更快的挖掘油田的生产作业规律,解决油田生产的困难。而且,可以利用油田数据进行可视化分析,关注问题的主要影响因素找到管理中存在的不足,预防未来问题的出现。大数据的核心价值就是通过以往大量数据进行分析,预测出未来,从而更好地指导油田的生产工作。

参考文献

[1]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11):71-72.

数据分析分析技术范文第4篇

    论文摘要:电子商务(EC)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。

    本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。

    一、绪论

    互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。

    电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。

    电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

    在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。

    在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

    二、站点信息统计方法

    Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的

    主要特点:

    1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

    2.结构是隐含的。如电子文档SGML格式。

    3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。

    4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。

    5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。

    三、数据分析的方法

    Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。

    知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

    1.依赖性分析

    依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。

    2.聚类和分类

    在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

    3.神经网络

    神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。

    4.数据挖掘中的关联规则

数据分析分析技术范文第5篇

【关键词】Hadoop 电力行业 大数据分析

随着互联网+时代的到来,各行业数据的共享与融合越来越迫切。电力生产关系民生和经济发展,随着电力信息化的发展,涉及发电、输电、变电、配电、用电等各个环节的数据呈爆发性增长,PB数量级的数据,已无法通过传统的数据管理、抽取、分析技术挖掘数据间的多重关联关系,从而更有效的实现电力风险预警,提高生产效率和智能调度功能。

1 Hadoop平台介绍

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统,MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。

Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。是用于数据序列化的系统。提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程PRC调用以及简单的动态语言集成功能。

实现了MapReduce编程框架,用于大规模数据集的并行运算。能够使编程人员在不理解分布式并行编程概念的情况下也能方便将自己的程序运行在分布式系统上。

HDFS分布式文件系统,其设计目标包括:检测和快速恢复硬件故障;数据流的访问;简化一致性模型等。

Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

Chukwa是基于Hadoop的大集群监控系统,是开源的数据搜集系统。通过HDFS来存储数据,并依赖MapReduce来处理数据。

2 数据抽取分析模型

目前电力行业数据包含结构化数据如常规oracle,MySQL等数据库类型,同时也存在大量log日志文件,e文件等非结构化数据,为能全面有效的实现多业务,多数据综合建模分析,设计如图2所示,数据处理模型。主要由数据抽取、格式清洗和DFS分布式文件系统构成,同时为下一步大数据建模分析打好基础。

数据抽取模块主要负责从原业务系统获得结构化和非结构化业务数据。通过在数据抽取工具中配置前端机器名称、端口号、加密用户名密码、数据表等信息,实现结构化数据的抽取工作。对于日志类文件由于在原服务运行期间日志文件是持续写入状态,因此必须在原系统设置,系统日志按时间节点分割,一般可按具体业务运行情况和日志产生量和产生大小进行设定,避免因日志文件过大或网络繁忙,在抽取时对业务造成影响。

格式清洗模块主要是对原始数据中多种不同配置格式进行统一,特别是对非结构化数据,需定义每个字段的含义和位置以及统一分隔符,同时还会去掉一些记录不完整的坏数据,保证数据的格式统一,信息完成。最后导入HDFS文件系统进行存储。

数据分析通过Map/Reduce操作实现,通过设计业务分析模型,定位此项数据分析所需输入数据,并将数据数据分割成若干独立的块,并根据Inputformat把Y料读入成一组(key,value)对,然后通过mapper count分给不同的mapper进行处理。再设计模型中,通过设置满足要求的map任务值,并引入哈希算法,将mapper对应初始的(initialkey,initialvalue)生成中间数据集(interkey,intervalue)划分为多个任务,将模值相等的任务丢到统一节点上计算,以实现比较平衡的分类效果。

Reducer对mapper产生的(interkey,intervalue)中间数据集,进行驱虫、过滤等后期处理后,得到结果。为实现输出文件格式支持通过key来高效的自由访问,并得到有序的数据输出,在reducer中加入排序环节,将所有的中间数据集根据key来排序的。这样每个小块都很容易生成一个序列化的输出文件。

通过展示系统,实现各业务模型数据分析结果图形化的展示在监控大屏上,同时桌面用户还可通过浏览器或客户端在终端上查询分析结果。

3 总结

通过hadoop平台构建电力行业大数据分析模型,可按照业务需要进行灵活进行组合,提高各专业间的数据共享融合,实现由点状业务分析模式,到贯穿“三集五大”各专业的网状业务分析模式,可进一步提高电网的健壮性、互动性和智能化,为社会经济稳定发展提供保障。