前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数学建模数据可视化范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:油藏储层建模;三维可视化;VolumeViz;储层剖面
中图分类号:TP317.4文献标识码:A文章编号文章编号:1672-7800(2013)012-0166-02
作者简介:王家华(1945-),男,西安石油大学计算机学院教授,研究方向为油藏描述、储层建模、地质统计学、地质图形可视化、决策分析、风险分析、软件系统;陈雨馨(1987-),女,西安石油大学计算机学院硕士研究生,研究方向为计算机图形学。
0引言
储层建模就是利用油气勘探和开发过程中取得的地震、测井、钻井等数据,结合沉积学、储层地质学和数学方法来定量描述二维或三维储层的空间变化特性,是勘探地质构造的主要手段。而基于计算机图形学的三维可视化技术实现了储层模型的更为直观的图像显示,既描述了地下复杂的地质构造情况,又反映了石油矿产等资源的构造形态和属性特征的空间分布,为进一步决策提供至关重要的实验数据支持。
Open Inventor (OIV)是在OpenGL的基础上开发而成的,它通过“搭积木”的方式来构造复杂的三维场景,使用户只花费很少的时间就可以构造出复杂、优美的三维场景。而在大量数据可视化方面,OIV的扩展模块VolumeViz能够实现超大数据集的交互可视化,支持海量数据集的转化和数据整合技术,同步进行超大数据的可视化计算,并采用了最新的GPU渲染技术,更高效地实现高质的可视化效果。其中,VolumeViz中海量数据管理器(LDM)组件能够将海量数据转化整合为内部文件,加速实时可视化。本文研究了VolumeViz海量数据转化技术,并结合实际数据实现油藏储层剖面图的绘制。
1储层数据转化
1.1多分辨存储的LDM文件
油气储层建模除了能使用钻井、测井数据外,还应使用反映地下储层属性的地震数据,用以弥补井数据的不足。目前存在多种地震数据格式,其中SEGY格式已成为记录地震数据的标准格式,它也是石油勘探行业地震数据最为普遍的格式之一。为了更为精确地实现储层模型的三维可视化显示,实际显示时会对地震数据进行插值以获得更高的分辨率,比如克里金插值。而随着需要处理的地震数据加大,插值后数据量的指数级增长会给三维可视化显示带来很大的挑战。为此,OIV的扩展模块VolumeViz采用一种新的文件格式,即海量数据管理格式(Large Data Management,LDM),它可以将包括地震数据在内的大规模数据按一定规则进行转化和重组,以实现快速遍历数据和加快实时三维可视化显示的目的。
与地震数据SEGY格式按道存储不同,LDM文件中的地震数据是按照多分辨分块八叉树结构将数据重组。八叉树是一种用于描述三维空间的树状数据结构,八叉树的每一个节点都表示一个正方体的体积元素,而将每个节点的8个子节点的体积元素组合起来就构成了该节点的体积。常规八叉树只存储最深层叶子节点,而LDM文件则采用的是多分辨八叉树结构存储数据,即在不改变数据覆盖范围前提下,对不同深度下的叶子数据都进行计算并保存。当要求低分辨显示数据时,只需遍历浅层次叶子节点数据;而要求高分辨显示数据时,则必须遍历更深层次的叶子节点数据。
LDM文件特殊的存储方式具有以下3个优点:
(1)数据分块处理,加快存取速率。LDM文件中,地震数据被分成分辨率不同的小块,在绘制时根据不同分辨率的要求加载对应的块数据即可,不需要加载全部数据,而且并行处理算法可以加速块数据的存取,比SEGY格式有明显优势。
(2)数据结构空间相关,加快数据遍历。LDM文件中数据的八叉树存储结构具有很高的层间相关性,高效的树结构遍历算法就是利用这种高相关性很快搜索到指定数据库。
(3)绘制策略应用多分辨率思想。LDM文件将数据从低分辨到高分辨依次编码存储。在显示过程中顺序加载,先加载数据量较少的低分辨率数据,显示低分辨率图像;然后继续加载数据量更多的高分辨率数据,实现更高分辨率图像的显示,这种数据格式允许实现任意分辨率的显示。
以上优点使得LDM文件可以高速处理容量巨大的地震数据,实现数据的实时三维可视化显示,从而极大地改善了用户体验,这些都是SEGY格式文件很难做到的。
1.2LDM文件转换原理
地震数据SEGY文件是以三维栅格结构来存储数据的,即文件中的每个采样点都代表空间中某点的勘测数值。要想利用LDM文件实现数据的高效存储与显示,就需要将栅格结构的SEGY文件转换成多分辨八叉树结构的LDM文件,其转换过程主要有两个步骤。
(1)创建八叉树结构。
创建八叉树结构时必须考虑的因素包括两个方面:首先是所能申请的数据存储空间,如果空间充裕,可以实现最高分辨率的八叉树编码,此时的叶子节点就越小,可以绘制出精细的图像,但是遍历所需要的时间就会比较多;其次是在存储空间不充裕时,则只能对低分辨率的大叶子节点进行八叉树编码,在绘制时会损失图像分辨率,但其遍历节点会很快。因此在数据转化过程中,需要在存储空间和执行时间效率之间认真权衡。在OIV的LDM文件中,当原始数据中某一节点内采样点数目小于64×64×64时,就不再继续划分该节点。
(2)产生多分辨率数据结构。
关键词:灰色理论;沉降预测;MATLAB;数据分析
1 引言
在各种工程建设中,利用已有的沉降观测资料准确地预测后期沉降有着重要意义。本文主要介绍了灰色预测的基本原理以及结合MATLAB语言建立预测模型。MATLAB语言代码短小,在矩阵运算方面具有其他程序设计语言难以比拟的优越性,特别适合处理各类测绘方面的数据问题。最后用武汉市轨道交通一号线工程的八期沉降观测数据对建立的预测模型进行检验,说明对于一般的建筑物沉降,灰色预测是一种非常有效的方法。
2数据处理
2.1 灰色系统简介
灰色系统理论有一整套处理数据的方法,其中主要分支有:灰关联度分析、灰色预测,灰色聚类等,对于沉降分析来说灰色预测是最值得研究的。
灰色预测是指采用灰色模型对系统行为特征值的发展变化进行的预测;对行为特征值中的异常值发生的时刻进行估计;对在特定时区发生的事件作未来时间分布的计算;对杂乱波形的未来态势所做的整体研究等。
累加生成是灰色系统理论中重要地数据处理方法,通过累加生成后,任意的非负数列、摆动数列都可转化为非减地递增数列,从而削弱原是数据地随机性,突出其趋势性,进而探求数据地内在规律,在变形数据分析处理工作中,采用1-AGO建立(1,1)模型。
灰色系统预测的基本思路是:把随时间变化的一随机数据列,通过适当的方式累加,使之变成一非负递增的数据列,用适当的曲线逼近,以此曲线作为预测模型,对系统进行预测。
沉降观测是周期性的,各期观测的时间间隔往往不等。因此,我们在建立模型时应该选择非等间隔(1,1)模型进行建模。
一、定义1:令为序列
=(),
有= ≠const (k=2,,3,4…,n)
则称
(1)为非等间隔序列,为间隔
(2)为的AGO序列
= (,,…,),
=
(3)为的MEAN序列
= (,,…,),
= (0.5+0.5)
定义2:令为非等间隔序列
= AGO
= MEAN(),
=(),
= (),
= (),
=
= 0.5+0.5
则
(1) 称为非等间隔灰导数
=
=-=
= -
(2)称为非等间隔白化背影值
(3)称下述模型
, 或
为非等间隔(1,1)定义型,记为(1,1,)
2.2 非等间隔(1,1)建模步骤
(1)生成AGO序列
=AGO,
= (,,…,),
(2)MEAN
= MEAN(),
= (),
(3)间隙变换
=,
,
=(),
=max,
(k=2,3,…n),
(4)求解二级参数包
(5)求解二级参数包
(6)生成非等间隔(1,1)模型
2.3 程序设计
本文用MATLAB语言来建立预测模型,MATLAB是MathWorks公司的产品,也称为矩阵实验室(matrix laboratory),是计算数学专家倡导并开发的,其主要功能是矩阵数值运算。与其他程序设计语言相比,它功能强大,可扩展性强,不同领域的专家都能以其为基础,开发相应的应用工具箱,形成开放式的利用体系。由于MATLAB比较适合处理矩阵,其基本元素是无须定义矩阵的维数,进行数值计算的基本单位是复数数组(或称阵列),这使得MATLAB高度“向量化”。它不需定义数组的维数,并具有矩阵生成函数以及对特殊矩阵处理的库函数。使之在诸如GPS信号处理、建模、系统识别、控制、优化等测绘数据的处理过程中,显得简洁、高效、方便。
MATLAB作为一个科学计算平台,提供了500多个数学和工程函数。为数据分析处理和可视化以及程序开发提供了最核心的数值处理和高级图形工具代码。MATLAB属于解释性语言,软件自身可以处理海量数据。应用MEX技术还可以进一步提高程序运行效率,比如在大地测量的平差计算中,组成的误差方程式系数矩阵及法方程系数矩阵的阶数比较高,可采用如VC等其他程序设计语言编写代码,然后采用MEX技术,编译成MATLAB能够直接调用的动态连接库(DLL)文件,供程序调用。从而达到提高程序运行效率的目的。
MATLAB在大规模数据处理特别是矩阵运算方面具有其他程序设计语言难以比拟的优越性。程序设计方法易于掌握,代码短小。
程序的实现过程如下:
首先就是定义变量a和t,
a=, t =[,,…,],
变量a是一个矩阵,它由沉降监测的变形量组成。变量t是由相邻两次观测时间间隔组成的向量。
clear
load a
format short
[n,m]=size(a);
%以下是实现AGO序列
s=zeros(n,m);
for i=1:n
for j=1:m
if j==1
s(i,j)=a(i,j);
else
s(i,j)=s(i,j-1)+a(i,j);
end
end
end
%以上是实现AGO序列
%以下是实现MEAN序列
for i=1:n
for j=1:(m-1)
z(i,j)=0.5*s(i,j+1)+0.5*s(i,j);
end
end
%以下是间隙变换
load t
k=length(t);
tmax=max(t);
dt=t/tmax;
%以下求二级参数包
for i=1:n
c(i)=sum(z(i,:));%参数C
end
s2=a(:,(2:m));
for i=1:n
d(i)=sum(s2(i,:)./dt);%参数D
end
s3=z.*s2;
for i=1:n
e(i)=sum(s3(i,:)./dt);%参数E
end
s4=z.^2;
for i=1:n
f(i)=sum(s4(1,:));%参数F
end
%以下求一级参数包
for i=1:n
aa(i)=(c(i)*d(i)-(m-1)*e(i))/((m-1)*f(i)-c(i)*c(i));
bb(i)=(d(i)*f(i)-c(i)*e(i))/((m-1)*f(i)-c(i)*c(i));
end
%以下是建立非等间隔GM(1,1)模型
yucezhi=a;
for i=1:n
for j=2:m
yucezhi(i,j)=(bb(i)-aa(i)*s(i,j-1))/(1/dt(j-1)+0.5*aa(i));
end
end
%以下是进行残差检验
cancha=a-yucezhi;
%以下是预测模型
tt=input('请输入预测时间与最后观测值的时间差(单位:天):');
for i=1:n
ta=s(i,m);
tyucezhi(i)=(bb(i)-aa(i)*ta)/(1/(tt/tmax)+0.5*aa(i));
fprintf('第%d个点的预测沉降值为:%8.5f (mm)\n',i,tyucezhi(i));
end
end
2.4 工程实例
本文以武汉市轨道交通一号线工程的八期沉降观测数据对建立的预测模型进行检验。
沉降监测的沉降量数据如下:
表-1
残差的最小值是: 0.0264 (mm)
残差的最大值是: 2.2770 (mm)
表2是与后8期沉降观测数据相对应的点位的预测沉降值,表3是实测的沉降观测数据与预测值的差值,即残差值。
根据表-3的残差数据以及残差的最小值和最大值我们可以知道,绝大多数点位的预测误差都小于±1.5mm,最小值可以达到0.0264mm。因此,灰色预测的精度是相当高的。
灰色系统理论研究的是贫信息建模,它提供了少数据情况下解决系统问题的新途径。灰色预测在某些方面有其它预测方法所没有的特点,但这不是说灰色预测方法就是最好的方法。任何方法都有其适应性和局限性,灰色预测也不例外。对于有突变的点位,灰色预测也是无能为力的。因此,如何改进或改造灰色预测模型将成为灰色预测模型的重点和难点。
参考文献:
[1]刘大杰,陶本藻,实用测量数据处理方法,测绘出版社.2000.
[2]黄声享,尹晖,蒋征,变形监测数据处理,武汉大学出版社,2003.
[3]王鸿龙,沉降观测数据的处理与统计分析探讨,西北水电,1996.第三期.
[4]邓聚龙,灰理论基础,华中科技大学出版社,2002.
[5]张铮,杨文平,石博强,李海鹏,MATLAB程序设计与实例应用,中国铁道出版社,2003.
DM是数据库知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程(图1),包括一系列转换步骤,从数据的预处理到DM的后处理[1]。其最早是在1989年举行的第11届美国人工智能协会(americanassociationforartificialintelli-gence,AAAI)学术会议上提出的,是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术[4],其开发与研究应用是建立在先进的计算机技术、超大规模数据库的出现、对巨大量数据的快速访问、对这些数据应用精深的统计方法计算的能力这4个必要条件基础上的,以数据库、人工智能和数理统计三大技术为支柱[5]。
2DM的基本模式及在临床医学中的应用
DM的任务通常有两大类:预测任务和描述任务。预测任务主要是根据其他属性的值,预测特定属性的值,主要有分类(classificaion)和回归(regression)2种模式。描述任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常),主要有关联分析、聚类分析、异常检测3种模式[1]。
2.1预测建模(predictivemodeling)
涉及以说明变量函数的方式为目标变量建立模型。有2种模式:分类和回归。分类是用于预测离散的目标变量。在临床医学中,疾病的诊断和鉴别诊断就是典型的分类过程。Melgani和Bazi[6]以美国麻省理工学院的心律失常数据库的心电图为原始数据,采用不同分类模型,对心电图的5种异常波形和正常波形进行分类。回归是用于预测连续的目标变量。回归可广泛应用于医学研究中如医疗诊断与预后的判别、多因素疾病的病因研究等。Burke等[7]采用各种回归模式对影响乳腺癌患者预后的因素进行回归分析。
2.2关联分析(associationanalysis)
用来描述数据中强关联特征的模式,用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的模式通常用蕴函规则或特征子集的形式表示。关联分析主要应用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等[5]。有学者对37000例肾病患者进行了追踪观察,监测肾小球过滤率、尿蛋白水平和贫血状况,结果发现以上3种生理指标中的任何一项异常都伴随着心脏病发病率的上升,这种肾病与心脏病“关联”的现象可发生在肾病的早期阶段[8]。
2.3聚类分析(clusteranalysis)
旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类分析在医学领域中主要用于DNA分析、医学影像数据自动分析以及多种生理参数监护数据分析、中医诊断和方剂研究、疾病危险因素等方面[5]。罗礼溥和郭宪国[9]利用聚类分析对云南省25县(市)现有的112种医学革螨的动物地理区划进行分析,发现云南省医学革螨的分布明显地受到自然地理区位和特定的自然景观所制约。
2.4异常检测(anomalydetection)
用来识别其特征明显不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测的目标是发现真正的异常点,避免错误地将正常对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率,其主要应用于检测欺诈、网络攻击、疾病的不寻常模式等[2]。
3DM的方法及研究趋势
在DM算法的理论基础上,DM常用方法:(1)生物学方法包括人工神经网络、遗传算法等;(2)信息论方法包括决策树等;(3)集合论方法包括粗糙集理论、近邻算法等:(4)统计学方法;(5)可视化技术等方法。DM经过十几年的蓬勃发展,很多基本算法已较为成熟,在其基础上进行更加高效的改进和算法提高显得比较困难,如传统的频繁模式和关联规则挖掘在近几年的国际著名会议和期刊上已不再作为重要的研究主题[10]。近年来众多国内外知名学者相继探讨DM的最新方向。Yang和Wu[11]汇总形成了DM领域十大挑战性问题报告;Agrawa等[12]探讨了DM的现状并展望了未来的发展方向,Piatetsky-shapiro等[13]讨论了DM新的挑战性问题,并主要探讨在生物信息学(bioinformatics)、多媒体挖掘(multimediamining)、链接挖掘(1inkmining)、文本挖掘(textmining)和网络挖掘(webmining)等领域所遇到的挑战。与国外相比,DM在国内的研究和应用始于20世纪90年代初,主要是对DM方法的介绍和推广,20世纪90年代后期和21世纪初进入蓬勃发展阶段,当前DM已成为大型企业进行经营决策时所必须采用的方法,证券和金融部门已将DM作为今后重点应用的技术之一。有学者以HIS和LIS数据库信息为数据源,人工神经网络为工具,概率论为依据,对常规检验结果和质谱指纹图数据进行DM并应用于临床实践[14-16]。
4临床医学DM的特点
DM作用于医学数据库跟挖掘其他类型的数据库相比较,具有其自己的特点。以电子病历、医学影像、病历参数、化验结果等临床数据为基础建立的医学数据库是一个复杂类型数据库,这些临床信息具有隐私性、多样性、不完整性、冗余性、异质性和缺乏数学性质等自身的特殊性和复杂性,使得医学DM与常规DM之间存在较大差异。医学DM方法包括统计方法、机器学习方法、神经网络方法和数据库方法等。将这些不同的挖掘方法应用到疾病的诊断、治疗和预后分析以及医疗管理等各个领域,从疾病的诊治、医疗质量管理、医院管理、卫生政策研究与医疗资源利用评价等方面去获取诸如概念、规律、模式等相关知识;用于对疾病进行分类、分级、筛选危险因素、决定治疗方案和开药数量等[5]。
一、数据核心原理
从“流程”核心转变为“数据”核心
大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。
例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下,云计算找到了破茧重生的机会,在存储和计算上都体现了数据为核心的理念。大数据和云计算的关系:云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价值的用武之地。而大数据比云计算更为落地,可有效利用已大量建设的云计算资源,最后加以利用。
科学进步越来越多地由数据来推动,海量数据给数据分析既带来了机遇,也构成了新的挑战。大数据往往是利用众多技术和方法,综合源自多个渠道、不同时间的信息而获得的。为了应对大数据带来的挑战,我们需要新的统计思路和计算方法。
说明:用数据核心思维方式思考问题,解决问题。以数据为核心,反映了当下IT产业的变革,数据成为人工智能的基础,也成为智能化的基础,数据比流程更重要,数据库、记录数据库,都可开发出深层次信息。云计算机可以从数据库、记录数据库中搜索出你是谁,你需要什么,从而推荐给你需要的信息。
二、数据价值原理
由功能是价值转变为数据是价值
大数据真正有意思的是数据变得在线了,这个恰恰是互联网的特点。非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。
例如:大数据的真正价值在于创造,在于填补无数个还未实现过的空白。有人把数据比喻为蕴藏能量的煤矿,煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”,价值含量、挖掘成本比数量更为重要。不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
数据能告诉我们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。大数据是数据数量上的增加,以至于我们能够实现从量变到质变的过程。举例来说,这里有一张照片,照片里的人在骑马,这张照片每一分钟,每一秒都要拍一张,但随着处理速度越来越快,从1分钟一张到1秒钟1张,突然到1秒钟10张后,就产生了电影。当数量的增长实现质变时,就从照片变成了一部电影。
美国有一家创新企业Decide.com
它可以帮助人们做购买决策,告诉消费者什么时候买什么产品,什么时候买最便宜,预测产品的价格趋势,这家公司背后的驱动力就是大数据。他们在全球各大网站上搜集数以十亿计的数据,然后帮助数以十万计的用户省钱,为他们的采购找到最好的时间,降低交易成本,为终端的消费者带去更多价值。
在这类模式下,尽管一些零售商的利润会进一步受挤压,但从商业本质上来讲,可以把钱更多地放回到消费者的口袋里,让购物变得更理性,这是依靠大数据催生出的一项全新产业。这家为数以十万计的客户省钱的公司,在几个星期前,被eBay以高价收购。
再举一个例子,SWIFT是全球最大的支付平台,在该平台上的每一笔交易都可以进行大数据的分析,他们可以预测一个经济体的健康性和增长性。比如,该公司现在为全球性客户提供经济指数,这又是一个大数据服务。,定制化服务的关键是数据。《大数据时代》的作者维克托·迈尔·舍恩伯格认为,大量的数据能够让传统行业更好地了解客户需求,提供个性化的服务。
说明:用数据价值思维方式思考问题,解决问题。信息总量的变化导致了信息形态的变化,量变引发了质变,最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类致力于发展的领域中。从功能为价值转变为数据为价值,说明数据和大数据的价值在扩大,数据为“王”的时代出现了。数据被解释是信息,信息常识化是知识,所以说数据解释、数据分析能产生价值。
三、全样本原理
从抽样转变为需要全部数据样本
需要全部数据样本而不是抽样,你不知道的事情比你知道的事情更重要,但如果现在数据足够多,它会让人能够看得见、摸得着规律。数据这么大、这么多,所以人们觉得有足够的能力把握未来,对不确定状态的一种判断,从而做出自己的决定。这些东西我们听起来都是非常原始的,但是实际上背后的思维方式,和我们今天所讲的大数据是非常像的。
举例:在大数据时代,无论是商家还是信息的搜集者,会比我们自己更知道你可能会想干什么。现在的数据还没有被真正挖掘,如果真正挖掘的话,通过信用卡消费的记录,可以成功预测未来5年内的情况。统计学里头最基本的一个概念就是,全部样本才能找出规律。为什么能够找出行为规律?一个更深层的概念是人和人是一样的,如果是一个人特例出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。
说明:用全数据样本思维方式思考问题,解决问题。从抽样中得到的结论总是有水分的,而全部样本中得到的结论水分就很少,大数据越大,真实性也就越大,因为大数据包含了全部的信息。
四、关注效率原理
由关注精确度转变为关注效率
关注效率而不是精确度,大数据标志着人类在寻求量化和认识世界的道路上前进了一大步,过去不可计量、存储、分析和共享的很多东西都被数据化了,拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。大数据能提高生产效率和销售效率,原因是大数据能够让我们知道市场的需要,人的消费需要。大数据让企业的决策更科学,由关注精确度转变为关注效率的提高,大数据分析能提高企业的效率。
例如:在互联网大数据时代,企业产品迭代的速度在加快。三星、小米手机制造商半年就推出一代新智能手机。利用互联网、大数据提高企业效率的趋势下,快速就是效率、预测就是效率、预见就是效率、变革就是效率、创新就是效率、应用就是效率。
竞争是企业的动力,而效率是企业的生命,效率低与效率高是衡量企来成败的关键。一般来讲,投入与产出比是效率,追求高效率也就是追求高价值。手工、机器、自动机器、智能机器之间效率是不同的,智能机器效率更高,已能代替人的思维劳动。智能机器核心是大数据制动,而大数据制动的速度更快。在快速变化的市场,快速预测、快速决策、快速创新、快速定制、快速生产、快速上市成为企业行动的准则,也就是说,速度就是价值,效率就是价值,而这一切离不开大数据思维。
说明:用关注效率思维方式思考问题,解决问题。大数据思维有点像混沌思维,确定与不确定交织在一起,过去那种一元思维结果,已被二元思维结果取代。过去寻求精确度,现在寻求高效率;过去寻求因果性,现在寻求相关性;过去寻找确定性,现在寻找概率性,对不精确的数据结果已能容忍。只要大数据分析指出可能性,就会有相应的结果,从而为企业快速决策、快速动作、创占先机提高了效率。
五、关注相关性原理
由因果关系转变为关注相关性
关注相关性而不是因果关系,社会需要放弃它对因果关系的渴求,而仅需关注相关关系,也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。
例如:大数据思维一个最突出的特点,就是从传统的因果思维转向相关思维,传统的因果思维是说我一定要找到一个原因,推出一个结果来。而大数据没有必要找到原因,不需要科学的手段来证明这个事件和那个事件之间有一个必然,先后关联发生的一个因果规律。它只需要知道,出现这种迹象的时候,我就按照一般的情况,这个数据统计的高概率显示它会有相应的结果,那么我只要发现这种迹象的时候,我就可以去做一个决策,我该怎么做。这是和以前的思维方式很不一样,老实说,它是一种有点反科学的思维,科学要求实证,要求找到准确的因果关系。
在这个不确定的时代里面,等我们去找到准确的因果关系,再去办事的时候,这个事情早已经不值得办了。所以“大数据”时代的思维有点像回归了工业社会的这种机械思维——机械思维就是说我按那个按钮,一定会出现相应的结果,是这样状态。而农业社会往前推,不需要找到中间非常紧密的、明确的因果关系,而只需要找到相关关系,只需要找到迹象就可以了。社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处。
例如:美国人开发一款“个性化分析报告自动可视化程序”软件从网上挖掘数据信息,这款数据挖掘软件将自动从各种数据中提取重要信息,然后进行分析,并把此信息与以前的数据关联起来,分析出有用的信息。
非法在屋内打隔断的建筑物着火的可能性比其他建筑物高很多。纽约市每年接到2。5万宗有关房屋住得过于拥挤的投诉,但市里只有200名处理投诉的巡视员,市长办公室一个分析专家小组觉得大数据可以帮助解决这一需求与资源的落差。该小组建立了一个市内全部90万座建筑物的数据库,并在其中加入市里19个部门所收集到的数据:欠税扣押记录、水电使用异常、缴费拖欠、服务切断、救护车使用、当地犯罪率、鼠患投诉,诸如此类。
接下来,他们将这一数据库与过去5年中按严重程度排列的建筑物着火记录进行比较,希望找出相关性。果然,建筑物类型和建造年份是与火灾相关的因素。不过,一个没怎么预料到的结果是,获得外砖墙施工许可的建筑物与较低的严重火灾发生率之间存在相关性。利用所有这些数据,该小组建立了一个可以帮助他们确定哪些住房拥挤投诉需要紧急处理的系统。他们所记录的建筑物的各种特征数据都不是导致火灾的原因,但这些数据与火灾隐患的增加或降低存在相关性。这种知识被证明是极具价值的:过去房屋巡视员出现场时签发房屋腾空令的比例只有13%,在采用新办法之后,这个比例上升到了70%——效率大大提高了。
全世界的商界人士都在高呼大数据时代来临的优势:一家超市如何从一个17岁女孩的购物清单中,发现了她已怀孕的事实;或者将啤酒与尿不湿放在一起销售,神奇地提高了双方的销售额。大数据透露出来的信息有时确实会起颠覆。比如,腾讯一项针对社交网络的统计显示,爱看家庭剧的男人是女性的两倍还多;最关心金价的是中国大妈,但紧随其后的却是90后。而在过去一年,支付宝中无线支付比例排名前十的竟然全部在青海、西藏和内蒙古地区。
说明:用关注相关性思维方式来思考问题,解决问题。寻找原因是一种现代社会的一神论,大数据推翻了这个论断。过去寻找原因的信念正在被“更好”的相关性所取代。当世界由探求因果关系变成挖掘相关关系,我们怎样才能既不损坏建立在因果推理基础之上的社会繁荣和人类进步的基石,又取得实际的进步呢?这是值得思考的问题。
解释:转向相关性,不是不要因果关系,因果关系还是基础,科学的基石还是要的。只是在高速信息化的时代,为了得到即时信息,实时预测,在快速的大数据分析技术下,寻找到相关性信息,就可预测用户的行为,为企业快速决策提供提前量。
比如预警技术,只有提前几十秒察觉,防御系统才能起作用。比如,雷达显示有个提前量,如果没有这个预知的提前量,雷达的作用也就没有了,相关性也是这个原理。比如,相对论与量子论的争论也能说明问题,一个说上帝不掷骰子,一个说上帝掷骰子,争论几十年,最后承认两个都存在,而且量子论取得更大的发展——一个适用于宇宙尺度,一个适用于原子尺度。
六、预测原理
从不能预测转变为可以预测
大数据的核心就是预测,大数据能够预测体现在很多方面。大数据不是要教机器像人一样思考,相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化,所以商家会比消费者更了消费者的行为。
例如:大数据助微软准确预测世界怀。微软大数据团队在2014年巴西世界足球赛前设计了世界怀模型,该预测模型正确预测了赛事最后几轮每场比赛的结果,包括预测德国队将最终获胜。预测成功归功于微软在世界怀进行过程中获取的大量数据,到淘汰赛阶段,数据如滚雪球般增多,常握了有关球员和球队的足够信息,以适当校准模型并调整对接下来比赛的预测。
世界杯预测模型的方法与设计其它事件的模型相同,诀窍就是在预测中去除主观性,让数据说话。预测性数学模型几乎不算新事物,但它们正变得越来越准确。在这个时代,数据分析能力终于开始赶上数据收集能力,分析师不仅有比以往更多的信息可用于构建模型,也拥有在很短时间内通过计算机将信息转化为相关数据的技术。
几年前,得等每场比赛结束以后才能获取所有数据,现在,数据是自动实时发送的,这让预测模型能获得更好的调整且更准确。微软世界怀模型的成绩说明了其模型的实力,它的成功为大数据的力量提供了强有力的证明,利用同样的方法还可预测选举或关注股票。类似的大数据分析正用于商业、政府、经济学和社会科学,它们都关于原始数据进行分析。
我们进入了一个用数据进行预测的时代,虽然我们可能无法解释其背后的原因。如果一个医生只要求病人遵从医嘱,却没法说明医学干预的合理性的话,情况会怎么样呢?实际上,这是依靠大数据取得病理分析的医生们一定会做的事情。
从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性,都是大数据可以预测的范围。当然,如果一个人能及时穿过马路,那么他乱穿马路时,车子就只需要稍稍减速就好。但是这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。
此外,随着系统接收到的数据越来越多,通过记录找到的最好的预测与模式,可以对系统进行改进。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。一旦把统计学和现在大规模的数据融合在一起,将会颠覆很多我们原来的思维。所以现在能够变成数据的东西越来越多,计算和处理数据的能力越来越强,所以大家突然发现这个东西很有意思。所以,大数据能干啥?能干很多很有意思的事情。
例如,预测当年葡萄酒的品质
很多品酒师品的不是葡萄酒,那时候葡萄酒还没有真正的做成,他们品的是发烂的葡萄。因此在那个时间点就预测当年葡萄酒的品质是比较冒险的。而且人的心理的因素是会影响他做的这个预测,比如说地位越高的品酒师,在做预测时会越保守,因为他一旦预测错了,要损失的名誉代价是很大的。所以的品酒大师一般都不敢贸然说今年的酒特别好,或者是特别差;而刚出道的品酒师往往会“语不惊人死不休的”。
普林斯顿大学有一个英语学教授,他也很喜欢喝酒,喜欢储藏葡萄酒,所以他就想是否可以分析到底哪年酒的品质好。然后他就找了很多数据,比如说降雨量、平均气温、土壤成分等等,然后他做回归,最后他说把参数都找出来,做了个网站,告诉大家今年葡萄酒的品质好坏以及秘诀是什么。
当他的研究公布的时候,引起了业界的轩然大波,因为他做预测做的很提前,因为今年的葡萄收获后要经过一段的时间发酵,酒的味道才会好,但这个教授突然预测说今年的酒是世纪最好的酒。大家说怎么敢这么说,太疯狂了。更疯狂的是到了第二年,他预测今年的酒比去年的酒更好,连续两次预测说是百年最好的酒,但他真的预测对了。现在品酒师在做评判之前,要先到他的网站上看看他的预测,然后再做出自己的判断。有很多的规律我们不知道,但是它潜伏在这些大数据里头。
例如,大数据描绘“伤害图谱”
广州市伤害监测信息系统通过广州市红十字会医院、番禺区中心医院、越秀区儿童医院3个伤害监测哨点医院,持续收集市内发生的伤害信息,分析伤害发生的原因及危险因素,系统共收集伤害患者14681例,接近九成半都是意外事故。整体上,伤害多发生于男性,占61。76%,5岁以下儿童伤害比例高达14。36%,家长和社会应高度重视,45。19%的伤害都是发生在家中,其次才是公路和街道。
收集到监测数据后,关键是通过分析处理,把数据“深加工”以利用。比如,监测数据显示,老人跌倒多数不是发生在雨天屋外,而是发生在家里,尤其是旱上刚起床时和浴室里,这就提示,防控老人跌倒的对策应该着重在家居,起床要注意不要动作过猛,浴室要防滑,加扶手等等。
说明:用大数据预测思维方式来思考问题,解决问题。数据预测、数据记录预测、数据统计预测、数据模型预测,数据分析预测、数据模式预测、数据深层次信息预测等等,已转变为大数据预测、大数据记录预测、大数据统计预测、大数据模型预测,大数据分析预测、大数据模式预测、大数据深层次信息预测。
互联网、移动互联网和云计算机保证了大数据实时预测的可能性,也为企业和用户提供了实时预测的信息,相关性预测的信息,让企业和用户抢占先机。由于大数据的全样本性,人和人都是一样的,所以云计算机软件预测的效率和准确性大大提高,有这种迹象,就有这种结果。
七、信息找人原理
从人找信息,转变为信息找人
互联网和大数据的发展,是一个从人找信息,到信息找人的过程。先是人找信息,人找人,信息找信息,现在是信息找人的这样一个时代。信息找人的时代,就是说一方面我们回到了一种最初的,广播模式是信息找人,我们听收音机,我们看电视,它是信息推给我们的,但是有一个缺陷,不知道我们是谁,后来互联网反其道而行,提供搜索引擎技术,让我知道如何找到我所需要的信息,所以搜索引擎是一个很关键的技术。
例如:从搜索引擎——向推荐引擎转变。今天,后搜索引擎时代已经正式来到,什么叫做后搜索引擎时代呢?使用搜索引擎的频率会大大降低,使用的时长也会大大的缩短,为什么使用搜索引擎的频率在下降?时长在下降?原因是推荐引擎的诞生。就是说从人找信息到信息找人越来越成为了一个趋势,推荐引擎就是说它很懂我,知道我要知道,所以是最好的技术。乔布斯说,让人感受不到技术的技术是最好的技术。
大数据还改变了信息优势。按照循证医学,现在治病的第一件事情不是去研究病理学,而是拿过去的数据去研究,相同情况下是如何治疗的。这导致专家和普通人之间的信息优势没有了。原来我相信医生,因为医生知道的多,但现在我可以到谷歌上查一下,知道自己得了什么病。
谷歌有一个机器翻译的团队,最开始的时候翻译之后的文字根本看不懂,但是现在60%的内容都能读得懂。谷歌机器翻译团队里头有一个笑话,说从团队每离开一个语言学家,翻译质量就会提高。越是专家越搞不明白,但打破常规让数据说话,得到真理的速度反而更快。
说明:用信息找人的思维方式思考问题,解决问题。从人找信息到信息找人,是交互时代一个转变,也是智能时代的要求。智能机器已不是冷冰冰的机器,而是具有一定智能的机器。信息找人这四个字,预示着大数据时代可以让信息找人,原因是企业懂用户,机器懂用户,你需要什么信息,企业和机器提前知道,而且主动提供你需要的信息。
八、机器懂人原理
由人懂机器转变为机器更懂人
不是让人更懂机器,而是让机器更懂人,或者说是能够在使用者很笨的情况下,仍然可以使用机器。甚至不是让人懂环境,而是让我们的环境来懂我们,环境来适应人,某种程度上自然环境不能这样讲,但是在数字化环境中已经是这样的一个趋势,就是我们所在的生活世界,越来越趋向于它更适应于我们,更懂我们。哪个企业能够真正做到让机器更懂人,让环境更懂人,让我们随身携带的整个的生活世界更懂得我们的话,那他一定是具有竞争力的了,而“大数据”技术能够助我们一臂之力。
例如:亚马逊网站,只要买书,就会提供一个今天司空见惯的推荐,买了这本书的人还买了什么书,后来发现相关推荐的书比我想买的书还要好,时间久之后就会对它产生一种信任。这种信任就像在北京的那么多书店里面,以前买书的时候就在几家,原因在于我买书比较多,他都已经认识我了,都是我一去之后,我不说我要买什么书,他会推荐最近上来的几本书,可能是我感兴趣的。这样我就不会到别的很近的书店,因为这家书店更懂我。
例如,解题机器人挑战大型预科学校高考模拟试题的结果,解题机器人的学历水平应该比肩普通高三学生。计算机不擅长对语言和知识进行综合解析,但通过借助大规模数据库对普通文章做出判断的方法,在对话填空和语句重排等题型上成绩有所提高。
让机器懂人,是让机器具有学习的功能。人工智能已转变为研究机器学习。大数据分析要求机器更智能,具有分析能力,机器即时学习变得更重要。机器学习是指:计算机利用经验改善自身性能的行为。机器学习主要研究如何使用计算机模拟和实现人类获取知识(学习)过程、创新、重构已有的知识,从而提升自身处理问题的能力,机器学习的最终目的是从数据中获取知识。
大数据技术的其中一个核心目标是要从体量巨大、结构繁多的数据中挖掘出隐蔽在背后的规律,从而使数据发挥最大化的价值。由计算机代替人去挖掘信息,获取知识。从各种各样的数据(包括结构化、半结构化和非结构化数据)中快速获取有价值信息的能力,就是大数据技术。大数据机器分析中,半监督学习、集成学习、概率模型等技术尤为重要。
说明:用机器更懂人的思维方式思考问题,解决问题。机器从没有常识到逐步有点常识,这是很大的变化。去年,美国人把一台云计算机送到大学里去进修,增加知识和常识。最近俄罗斯人开发一台计算机软件通过图林测试,表明计算机已初步具有智能。
让机器懂人,这是人工智能的成功,同时,也是人的大数据思维转变。你的机器、你的软件、你的服务是否更懂人?将是衡量一个机器、一件软件、一项服务好坏的标准。人机关系已发生很大变化,由人机分离,转化为人机沟通,人机互补,机器懂人,现在年青人已离不开智能手机是一个很好的例证。在互联网大数据时代,有问题—问机器—问百度,成为生活的一部分。机器什么都知道,原因是有大数据库,机器可搜索到相关数据,从而使机器懂人。是人让机器更懂人,如果机器更懂人,那么机器的价值更高。
九、电子商务智能原理
大数据改变了电子商务模式,让电子商务更智能
商务智能,在今天大数据时代它获得的重新的定义。
例如:传统企业进入互联网,在掌握了“大数据”技术应用途径之后,会发现有一种豁然开朗的感觉,我整天就像在黑屋子里面找东西,找不着,突然碰到了一个开关,发现那么费力的找东西,原来很容易找得到。大数据思维,事实上它不是一个全称的判断,只是对我们所处的时代某一个纬度的描述。
大数据时代不是说我们这个时代除了大数据什么都没有,哪怕是在互联网和IT领域,它也不是一切,只是说在我们的时代特征里面加上这么一道很明显的光,从而导致我们对以前的生存状态,以及我们个人的生活状态的一个差异化的一种表达。
例如:大数据让软件更智能。尽管我们仍处于大数据时代来临的前夕,但我们的日常生活已经离不开它了。交友网站根据个人的性格与之前成功配对的情侣之间的关联来进行新的配对。例如,具有“自动改正”功能的智能手机通过分析我们以前的输入,将个性化的新单词添加到手机词典里。在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友,还有更多更复杂的任务。别忘了,亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,Facebook知道我们的喜好,而linkedIn可以猜出我们认识谁。
当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。或者说,在你还不知道的情况下,体检公司、医院提醒你赶紧去做检查,可能会得某些病,商家比你更了解你自己,以及你这样的人在某种情况下会出现的可能变化。就像互联网通过给计算机添加通信功能而改变了世界,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。
说明:用电子商务更智能的思维方式思考问题,解决问题。人脑思维与机器思维有很大差别,但机器思维在速度上是取胜的,而且智能软件在很多领域已能代替人脑思维的操作工作。例如美国一家媒体公司已用电脑智能软件写稿,可用率已达70%。云计算机已能处理超字节的大数据量,人们需要的所有信息都可得到显现,而且每个人互联网行为都可记录,这些记录的大数据经过云计算处理能产生深层次信息,经过大数据软件挖掘,企业需要的商务信息都能实时提供,为企业决策和营销、定制产品等提供了大数据支持。
十、定制产品原理
由企业生产产品转变为由客户定制产品
下一波的改革是大规模定制,为大量客户定制产品和服务,成本低、又兼具个性化。比如消费者希望他买的车有红色、绿色,厂商有能力满足要求,但价格又不至于像手工制作那般让人无法承担。因此,在厂家可以负担得起大规模定制带去的高成本的前提下,要真正做到个性化产品和服务,就必须对客户需求有很好的了解,这背后就需要依靠大数据技术。
例如:大数据改变了企业的竞争力。定制产品这是一个很好的技术,但是能不能够形成企业的竞争力呢?在产业经济学里面有一个很重要的区别,就是生产力和竞争力的区别,就是说一个东西是具有生产力的,那这种生产力变成一种通用生产力的时候,就不能形成竞争力,因为每一个人,每一个企业都有这个生产力的时候,只能提高自己的生产力,过去没有车的时候和有车的时候,你的活动半径、运行速度大大提高了,但是当每一个人都没有车的时候,你有车,就会形成竞争力。大数据也一样,你有大数据定制产品,别人没有,就会形成竞争力。
在互联网大数据的时代,商家最后很可能可以针对每一个顾客进行精准的价格歧视。我们现在很多的行为都是比较粗放的,航空公司会给我们里程卡,根据飞行公里数来累计里程,但其实不同顾客所飞行的不同里程对航空公司的利润贡献是不一样的。所以有一天某位顾客可能会收到一封信,“恭喜先生,您已经被我们选为幸运顾客,我们提前把您升级到白金卡。”这说明这个顾客对航空公司的贡献已经够多了。有一天银行说“恭喜您,您的额度又被提高了,”就说明钱花得已经太多了。
正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化。所以商家会比消费者更了消费者的行为。也许你正在想,工作了一年很辛苦,要不要去哪里度假?打开e-Mail,就有航空公司、旅行社的邮件。
说明:用定制产品思维方式思考问题,解决问题。大数据时代让企业找到了定制产品、订单生产、用户销售的新路子。用户在家购买商品已成为趋势,快递的快速,让用户体验到实时购物的,进而成为网购迷,个人消费不是减少了,反而是增加了。为什么企业要互联网化大数据化,也许有这个原因。2000万家互联网网店的出现,说明数据广告、数据传媒的重要性。