前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据可视化范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
引言
在大数据时代来临之际,不仅仅伴随着发展的机遇,同时也伴随着发展的调整。现如今对数据的应用十分广泛,然而人们对数据的理解并不是十分正确与统一,没有一定的标准容易出现混乱的情况。人们无法全方位的掌握数据的综合信息,更加无法彻底的利用数据为发展服务,因此对大数据时代下对数据可视化的应用进行研究是十分有必要的。
1.数据可视化的发展
15世纪被认为是可视化发展的起源,天文学、绘图学等都快速发展,实现了对未知世界的探索与追求;18世纪时期数据图形开始出现,可视化的表达方式变的更加多样,包括地图、统计图等等。20世纪中期至今为止,由于电子计算机的出现给时代的发展带来了巨大的变化。计算机与数据分析之间存在密切的联系,高分辨率的图像与交互式图形分析都是使用传统手绘图根本无法实现的。在计算机技术与数据可视化融合之后,统计计算工具、图形软件工具等应运而生。
2.数据可视化的流程
2.1原始数据的转换
原始数据转换主要分为以下几个步骤:1)获取数据。数据可以从计算机本地获取,也可以从互联网上获取。2)数据分析。应用结构图表的方式来将数据的意义表示清楚,同时按照一定的类别顺序进行排列,进而将数据的意义变得一目了然。在分析完数据后进行过滤工作是十分关键的。3)数据过滤。将有价值的数据过滤留下来,将无用的多余的数据删除。降低数据处理量也是提升数据质量的重要方式之一,其能够有效的改善数据的精准度。4)挖掘。应用数据挖掘的方式来对数据格式进行分析,亦或是将数据与数学环境相联系,从海量数据中获得一定的规律,进而给数据表达提供有意义的材料。原始数据的转换过程可以简单,也可以复杂,这主要受到需要处理的数据的类型与复杂程度的影响[1]。
2.2数据的视觉转换
数据的视觉转换主要包括了表示与修饰两个阶段。表示,主要就是选择基础的视觉模型将其表现出来,即为视觉设计草图。表示这一步骤基本上确定看数据可视化的视觉效果。在选择表示方式的过程中还要结合数据的维度来选择合适的表现方式,例如可以选择树状、列表等。这一步骤也是数据的转换前后的审查与检验。尤其是数据的获取与过滤工作。因此可以看出,表示是数据可视化中十分关键的步骤。
3.数据可视化的适用范围
3.1思维导图
思维可视化已经广泛被应用在教学、互联网等需要进行逻辑分析与思路研究的工作淋雨中。例如在设计过程中普遍使用的思维导图,能够帮助人们通过发散性思维来解决问题。与知识可视化相似,如果在知识中加入了主观的意识与见解,就会被赋予思想的含义,而这种思维意义的知识又形成了一种新型的能够被人理解与传播的知识。思维导图能够将数据库中的数据进行分类并且展现出来。通过思维导图可以将所有的相关数据展现出来,让用户第一时间获得相关的数据以及数据彼此之间的联系,这样对于用户对于整体数据都有了更加整体的认识与了解,从而推动工作的顺利进行[2]。
3.2新闻报道
数据新闻能够让新闻工作者通过信息图表来将报道复杂的新闻事件。通过数据可视化能够让我们准确的了解周围的数据。这种对于数据能够帮助人们进行更加准确决定的行为受到了欢迎。只有数据可视化存在一定的交互性时,数据可视化才是真正可行的。所以,数据可视化不仅仅要保证设计良好,同时还要做到简洁方便,易被人接受。数据可视化能够在表现新闻事实、表达评论观点的过程中起到容易被受众理解的作用,同时也具有贴近性。新闻报道不单单要报道新闻事实,同时还能够大力收集新闻信息,向受众反馈信息。在互联网信息时代,新闻工作者可以通过微博、新闻论坛等多种方式来获得受众的反馈信息。然而这类的反馈信息没有相对应的针对性。而在数据可视化过程中部分可视化工作能够改善反馈信息与新闻无法融合的关键问题。互动性图表不仅仅能够与受众开展互动,发掘受众背后的故事,同时还能够对信息进行分析,得出受众对信息感兴趣的细节,帮助媒体不断发现受众的需求。另外在收集受众意见的过程中,可以让新闻工作者将其转化为有效的新闻之一,作为新闻报道的延伸与深化。
3.3界面交互
数据可视化的最后一个步骤就是对最终呈现的界面进行设计。在这一过程中用户扮演的角色出现改变,其能够对界面进行设计,转换数据的处理方式,将被动接受信息转为主动融合信息,分析信息。界面交互是信息分析、用户决策联系最为紧密的过程。心智模型与概念模型在界面交互的过程中被广泛应用。界面交互的可用性与用户感受是判断界面交互的重要标准。在界面交互过程中首先要注意对数据的筛选,其所指筛选并非将无价值信息过滤掉,而是由于要展现的数据量十分大,也不需要同时全部展现,因此要兼顾到可视化的目标。包括潜在的目标用户,要凸显重要的信息,提供一个可以进行深层次范围的入口,引导用户来满足其个性化需求。其次,在界面交互中不仅仅为了美观而设计美观,让形式成为内容的主导,而是要重视形式是内容表现的原则[3]。例如信息需要通过视觉元素来表现,额可以通过图形、图标或照片进行,如何能够将信息更加准确的表现出来才是最为重要的。数据可视化的界面可以分为两种类型,包括交互操作与元素直接进行以及需要借助界面上工具进行。交互操作与元素直接进行即为界面与内容融合在一起,用户在操作过程中更多的关注与元素之间的互动,融入感更加强烈。而需要借助界面上工具进行,与元素之间不便进行直接操作,或者是在用户的使用习惯中尚未形成交互的操作模式。
4.结束语
伴随着网络技术的不断成熟与发展,由量变转换为质变的大数据时代已经到来。全世界用户对传感数据的使用量显著上升,对数据挖掘分析工作的进步对于时代的发展有着不可忽视的重大意义。在用户对数据分析与数据可视化需求增长的过程中,用户对数据可视化的需求会更加强烈。一般用户也会主动或被动的参与到数据可视化的建设过程中来,从将用户所需的数据更加准确的呈现出来,从而让数据能够帮助用户做出更加准确的决策。(作者单位:湖南师范大学)
参考文献:
[1] 黄墨樵.论大数据时代下文化遗产数据的可视化――以故宫数字沙盘为例[J].博物馆研究,2014,(04):87-93.
[2] Viktor Mayer-Schonberger,Kenneth Cukier.Big Data:A Revolution That WillTransform How We Live[M].London:John Murray,2013:10-13
【关键词】信息可视化技术 地理空间元数据 因素
1 信息可视化和地理空间元数据的概念
1.1 信息可视化
信息可视化是个统称,它包括了多方面的内容,有数据、知识可视化、信息图形学等方面,具体是指不论通过动态或者静态的方式,从呈现的图标、文字等方面研究寻找问题的答案。它主要是创建一些直观的表达手法来展现一些抽象的理念和知识,方便用户理解,以便获得内在的信息和引发新的思考,对问题有新的解决之道。
1.2 地理空间元数据
元数据目前的定义诸多,都有其立脚点。有的认为元数据是对数据的一种描述,对数据进行的总体的提炼的解释和概括。有的认为它是一种机制,是描述说明数据集成的其他形式。还有的认为它是对地理数据的收集整理、标识数据的质量等方面的数据。还有其他的一些观点,都有其道理,定论不一,但在不同的方面有不同的适用价值。而地理空间元数据地理空间数据的集合,它其中还包括了信息资源的描述相关信息,可以概括空间特征。
2 地理空间元数据可视化的影响因素
地理空间元数据可视化的功能对用户是便捷有利的,但是不同的设备、不同的用户、不同的目的所需要的可视化的功能不可能一致,这需要因时因地设计。地理空间元数据可视化的设计有下列的影响因素:
2.1 目标要求
地理空间元数据可视化服务的是用户,所以要满足用户的目标需求。用户的不同需求,使元数据的主要内容和关键点不同,对信息的传送内容也不同,最终在可视化下,它的表现形式、搜索的删选化程度、应用的版式都会不同,用户的感官获取的感受和接收的程度会受到影响。进一步目标要求会影响用户的满意度,用户评价的依据较为注重数据的真实可靠性,实用性,还有准确度等方面,此外还有数据获取的成本以及便捷程度,用户也会考量。
2.2 用户
地理空间元数据的服务对象,大部分用户是GIS应用程序的用户,用户的范围广,从事各行各业,对地理空间元数据可视化的要求也是众口难调,不同的人有不同的具体的要求。并且地理空间元数据的使用者除了这些用户,还包括了元数据的开发者、管理者,他们也会使用元数据,还会定时检测元数据,查看用户满意度以及建议,进行修改和重新设计,不断的更新数据。
3 可视化技术的分类
3.1 单要素的可视化技术
单要素的可化技术顾名思义,一个元素为主导。他具体指方法为单一的的表现形式,如用图形、文字、或者其他的方法中的一种。其中图形因为其直观、简单的反映信息的特点,应用相对广泛。例如二维数据通常用散点图标识,非常简单直接的从图形上可以分辨出两种要素的关系,线性关系或非线性关系。如果元素超过两个,可以采用颜色进行区分,也十分鲜明直观。单要素的形式还是较为多样化的,可以根据用户的需要进行选择,选择合适的方法进行分析数据,获得信息。
3.2 多要素的可视化技术
通常情况下数据的产生是由多种因素共同影响的作用,这时分析原因或者结果,就不能采用单要素的可视化技术,无法满足现实的需求。地理空间元数据可视化多要素分析就应运而生了,它可以反映三个及三个以上的元数据要素的影响。这种可以较为完整分析因素对数据的影响,不会遗漏重要的因素。这种多要素可视化技术又可以分为多维可视化、图标显示技术、层次可视化技术。三种方式虽然有区别,但是总体上来看,图形应用的比较多。树状图、散点图矩阵、双曲线树等都可以有效表现多因素的相互关系,而且相较于文件,更为直观、简单、简洁明了。用户也可以根据突出的重点内容不同选用不同的图形,这样不仅可以表现因素之间的相互关系,相互作用,还可以突出重点因素,有利于用户快速把握重点信息,提取重点,可以更快速的解决问题。
4 小结
地理空间元数据可视化在现代的应用十分广泛,如同数据库一般,是个十分有效的解决问题的方法。而现阶段的地理空间元数据可视化在信息可视化下,有一定的发展,也有一定的影响因素,用户的不同目标也阻碍了它的发展,无法全面的普及市场。但是可视化的前景是广大的,现代信息技术的发展会推动它的发展前进,人们的日常生活工作会逐渐适应这种方法的使用,也需要这种方法的帮助分析问题。
参考文献
[1]李翠.Web前端地理数据可视化技术研究与实践[D].华东师范大学,2016.
[2]宋国民,吴军珂,黄丽华,徐少坤.基于平行坐标的地理空间元数据可视化检索研究[J].测绘工程,2015(05):1-4.
[3]宋国民,于晓彭,罗奋勇,徐少坤.双曲线树在地理空间元数据可视化检索中的应用研究[J].测绘科学技术学报,2014(03):300-304.
[4]徐少坤,宋国民,王海葳,赵海见,陈令羽.地理空间元数据可视化设计及关键技术研究[J].测绘工程,2014(04):45-50.
[5]潘立武.基于地理信息系统技术的溃坝洪水三维可视化研究[J].北京联合大学学报,2013(04):19-23.
[6]周光尧.基于观测对象的地理空间信息频度统计及可视化[D].中国科学院大学(工程管理与信息技术学院),2013.
[7]杨静飞,张强.基于地理信息可视化的空间认知研究[J].测绘与空间地理信息,2013(07):12-14.
[8]张小诺,王宇,李宏伟,白天路,王建鹏.基于三维可视化技术的电厂地理信息系统设计与应用[J].工程勘察,2013(07):63-67.
[9]徐少坤,宋国民,王海葳,陈令羽.基于信息可视化技术的地理空间元数据可视化研究[J]. 测绘工程,2013(03):83-87.
[10]徐少坤.地理空间元数据可视化研究与实践[D].信息工程大学,2013.
[11]刘芳.信息可视化技术及应用研究[D].浙江大学,2013.
[12]徐少坤,宋国民,陈令羽,王海葳.多维可视化技术在地理空间元数据检索中的应用研究[J].地理信息世界,2013(01):46-50.
关键词:三维环境矢量数据 可视化 数据匹配 坐标转换
中图分类号:P208 文献标识码:A 文章编号:1674-098X(2014)08(b)-0094-01
1 研究现状
从地图学发展过程来看,二维GIS发展成熟,在数据结构、存储、管理、空间查询及分析等方面具有无可比拟的巨大优势。而三维GIS在人机交互,实时渲染等方面有很好的效果。但两者皆有其缺点,二维GIS由于其符号的抽象性,无法表现出逼真的的地形环境,三维GIS出现时间短,发展不够完善,不能够实现较高层次的信息查询,基于拓扑关系的分析及相关属性方面的管理,目前,将二维GIS强大功能和三维GIS直观显示进行有机结合主要有以下三种模式:
(1)二三维切换模式。
(2)二三维联动模式。
(3)基于紧密型二三维结合GIS。
2 矢量数据可视化分析
2.1 矢量数据可视化符号论基础
在传统二维地图上,视觉变量包括形状、尺寸、亮度、密度、色彩,而到了三维环境中,视觉变量有了新变化。三维地图符号的视觉参量与二维地图符号的视觉参量存在差异,由状态、动态变化和操作3个方面的视觉参量组成。状态方面的参量与平面地图的静态视觉参量类似,然而,由于表达手段、技术的不同,参量描述与传统静态视觉参量也略有差异,主要包括形状、尺寸、色彩、亮度、纹理、空间造型等6个方面的参量。
2.2 二维环境与三维环境的差异
传统二维平面地图的认知方式是通过对地图的阅读获取关于地理实体的位置、大小、距离、方向、相互关系等空间信息,主要运用表象形式进行编码和解译。使用地图时,读者对空间信息的定位是使用外部参考框架,方向固定,。二维地图是对地理空间的简化和再现,然而二维平面地图不够生动;用户对二维地图的认知主要依靠人的视觉;VR技术在空间信息可视化中的应用为我们提供了一种新的认知环境――虚拟地理环境,是地图在数字化时代的延伸和拓展, 是数字地图支持下的一种新的空间认知工具。具体说来,三维环境与二维环境有如下几个方面的不同。
(1)投影方式不同,把三维场景中图形显示到二维平面多进行透视投影,而在二维场景中,一般只是进行简单的正交投影即可。
(2)绘制引擎不同,二维场景绘制时一般只要用GDI或GDI+二维引擎即可,而三维场景绘制时多采用OpenGL、OSG、D3D等三维引擎。
(3)漫游方式不同,在二维场景中,只能进行简单的近大远小缩放和上下左右漫游,到了三维场景中,观察方式变得更加丰富,如可以进行翻转、旋转等。
(4)应用环境不同,二维环境多应用于二维GIS或二维电子地图显示,三维场景多应用于三维GIS或逼真的虚拟环境表达。
(5)坐标系不同,二维环境中使用的X-Y坐标,三维环境中使用X-Y-Z坐标;
(6)数据模型不同,二维环境中多使用矢量数据和栅格数据,三维环境多使用DEM与纹理。
正因为两者环境存在差异,将矢量数据在三维环境中可视化必须解决二三维环境下一体化的问题,如坐标的转换问题、数据匹配问题等。
2.3 矢量数据可视化图形学基础
计算机图形学为我们在理论上提供了大量的算法理论,具体包括以下几点。
(1)线型生成技术为线状要素建模提供了有力支撑。
计算机图形学中的平行线生成算法、虚线生成算法可以为线状要提供很好的借鉴作用,规则曲线和自由曲线生成为线状要素显示提供了很大帮助。
(2)面域填充算法为面状要素建模提供了很好的思路。
面域填充算法包括扫描线填充算法、种子填充算法、图案填充算法等,尤其是图案填充算法为面状要素建模提供了很好的算法基础。
(3)几何变换特别是三维图形几何变换为矢量数据在三维场景中的显示起了很大作用。
2.4 矢量数据可视化思路
由前面的符号论分析可知,二维地图符号在三维可视化过程中并未过时,相反,还对三维符号发展起到借鉴作用,二维地图符号在三维环境下仍然可以使用;同时三维环境下地图视觉变量有了新的变化,如增加了纹理、空间造型等,这也启示我们可以在三维环境下使用新的视觉变量,比如,使用纹理进行矢量地图符号建模。
二维与三维环境存在差异,在认知上,二维环境相对于三维环境而言,不够生动,缺乏进入感等,这也是将矢量数据在三维环境中进行可视化的必要性。二三维环境的主要差异有投影方式、漫游方式、坐标系及数据模型,投影方式不同会导致显示效果不同,漫游方式不同会导致符号绘制后不同视角会有不同的显示,如图1所示,各类符号在不同视角下显示有明显不同,以视点逼近为例,点状符号将逐渐占据整个屏幕;同样,线状符号不同线型之间距离拉大;面状符号随着视点的变化其内部填充的图案也变得十分稀疏;这些变化都影响了人的空间认知,而这都是可视化需要解决的问题;坐标系不同则必须要考虑统一坐标系,以及不同坐标下的坐标转换;数据模型的不同则还需要考虑数据模型的匹配问题。
计算机图形学提供了大量的成熟的算法和理论知识,可以为符号建模、要素显示提供思路,OSG的强大功能可以减少工作量。
综上所述,矢量数据可视化思路如下。
(1)综合运用各种视觉变量,实现点状要素、线状要素、面状要素建模。
(2)根据图形学相关算法,解决地图符号在三维环境中的应用问题。
(3)利用相关技术(如RTT技术),解决各要素在不同三维场景中的匹配问题,如三维平面,三维球面,三维地形。
参考文献
[1] 危拥军.二维地图与三维可视化的关系[J].测绘科学技术学报,2007(12).
[2] 徐智勇.三维地图符号视觉参量研究[J].武汉大学信息学报,2006(6).
【关键词】 生物大数据 大数据可视化 发展趋势
在以往的10余年中,生命科学的各个领域得到了快速的增长,并且累积了海量的数据信息。海量的数据信息类型多样,数量惊人,拥有巨大的潜在价值。如果采用传统的处理方式来对海量数据进行处理不仅仅需要大量的人力、物力投入,而且还会使得失误率大大提升。在这一情况下,生物大数据可视化技术应运而生。
一、大数据及其技术
大数据是一种区别于传统意义的研究模式,其与传统模式中以个别案例作为研究对象的方式不同,其需要使用大规模的数据来开展研究。大数据最为显著的特征就是包括:1)海量数据。伴随着信息技术的进步,2009-2012年在医学领域有数以千百万计的患者的病历并采用电子格式保存[1]。电子病历形式的数据给予了利用大量患者数据开展医学研究的机会。2)类型多样。基因测序技术在细胞领域的各个层面都形成了组学系统。同时,很多数据都是呈现非结构化的状态,给医疗信息化的进步带来了巨大的空间;3)形成速度快。当前大数据的增长数据依然处于持续增加的状态中。在临床医学领域中,预计2019年采用电子病历形式存储的患者将会增加10倍。
二、生物大数据应用
生物大数据不仅仅拥有大数据的特点,而且同时还拥有生物数据的特征,生物大数据拥有数据量大、数据多样化、数据价值高等重要特征。就当前生物大数据的应用状况来看,生物大数据的应用有待进一步的深入开发,根据生物大数据的上述特征,其能够在医疗健康、农业领域、食品健康领域得到广泛的应用。
三、生物大数据可视化的现状
1、测序数据。测序数据能够将被比对至基因组中的所有数据类型通过图像的形式显现出来。其对于基因组数据展示模式大部分现存浏览器的相同特征:1)将染色置作为索引的基因组数据视图;2)以参考基因组为标准提供位置坐标轴;3)优越的交互性与可定制性,可以根据不同需求来隐藏或装载相关内容[2]。
2、分子结构数据。结构分子生物是物理、化学与生物学紧密联系的重要学科,其主要关注3D与4D复杂形状与功能关系的探索,成像捕捉、显微观察等技术给其研究工作提供了直观的视图数据。例如,软件Para View在使用过程中,使用者可以利用其通过定性预定量的方式选取大海量的数据快速建立三维视图模型,并且可以从随意一个角度来进行分子的结构进行细致观察。蛋白质等类型大分子结构十分复杂,其内部的位置关系与详细情况需要海量的运算空间,所以三维视图软件的使用相对于二维软件来说需要更加强劲的算法设计,因此软件的硬件设备也需要相应的提高,以支持软件的运算。为了全面提升海量数据的处理能力,Para View可以使用分布式存储计算资源,能够在超级计算机中来进行运算,从而实现可视化。
3、临床数据。虽然电子病历的普及范围是在不断扩大,然而非统一的标准以及非结构化的数据模式对于获取患者资料有着一定的阻碍[3]。鉴于改善这一问题,Flatiron技术建立Oncology Cloud就能够归纳整理来自多渠道的患者详细信息与患者恢复情况,并且还可以对数据集进行分类研究。医生不单单可以利用Oncology Cloud搜索到同类病人的治疗结构,还可以实时搜索到以往不同治疗方式下不同的疗效。又例如,Chimera软件可以将分子结构、序列对比、轨迹等数据整合起来,以形成高质量的动画效果。另外,针对临床数据的可视化软件还包括能够实现核小体定位与组蛋白分析的可视化等。
四、生物大数据可视化新技术展望与挑战
首先,在目前拥有的海量数据中存在着大量的冗余,因此在未来的生物大数据可视化技术发展趋势中可以将数据分类归纳,采用统一的规格来进行存储,降低数据存储与处理的成本,提升数据的易用性。其次,由于生物大数据都是位于不同的研究机构的,因此可以建立相关的通信协议,在通信协议的支持下可以实现同一界面对异地数据的可视化。最后,生物大数据的多样性与海量性给数据挖掘带来了巨大的困难,为了提升生物大数据的挖掘,在实现生物大数据可视化的过程中要在保证实用性的基础上提升软件的人性化水平,兼顾到使用者的体验感,提供更加友好的人机交互界面。
五、结束语
生物大数据可视化工作种类多样,针对不同需求有不同的工具来实现可视化。基于更彻底、更好的挖掘有效数据,生物大数据可视化工具的开发趋势已经朝着拥有统计分析功能的一站式集成软件发展。伴随着科技的进步,未来的生物大数据可视化工具将会更加人性化、更加美观、更加实用。
参 考 文 献
[1]周琳 , 孔雷 , 赵方庆.生物大数据可视化的现状及挑战[J].Science Bulletin, 2015, (Z1):547-557.
在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的指标数据信息。例如,要衡量一个地区的经济发展,需要观测的指标有:地区生产总值、劳动生产率、税收、人均GDP等;要衡量一个城市的综合发展水平也需要观测很多指标,如:工业总产值、非农业人口数、人均住房面积、工资总额、城乡居民储蓄率等等,在科研、生产、日常生活中,受多种指标共同影响和作用的现象是大量存在的,举不胜举。
这类原始数据集合往往由于样本数量巨大,刻画系统特征的指标变量众多,并且带有动态特性,形成规模宏大、复杂难辨的数据海洋。如何分析和认识高维数据集合中的内在规律性,简明扼要地把握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐没在其中的重要信息集中提取出来;如何充分发掘数据中的丰富内涵,清晰地展示系统结构,准确地认识系统元素的内在联系,以及直观地描绘系统的运行历程,这些是科学决策和决策支持系统建立的基础,是决策者做出科学决策的根据。
在数据信息的分析过程中,对直观图像的观察是一种重要的分析手段,它可以更好地协助系统分析人员思维与判断,及时发现大规模复杂数据群中的普遍规律与特殊现象,大大提高数据信息的分析效率。在当今的决策支持系统理论与方法的研究中,将抽象空间或高维不可见空间中的信息以及一些更复杂的现象转换成直观的平面图示,这种面思维的工作方式,能够极大地提高决策人员的洞察能力和增加决策者的知识,是实现决策支持系统高效率的最佳途径之一。
■ 可视化方法改进后的优长
在统计分析过程中,由于分析人员尽可能周到地选取有关指标,建立的指标体系中往往会出现信息重叠的现象。信息重叠的危害表现在:一方面会使传统的最小二乘回归分析失效,另一方面在分类或聚类过程中会过分地夸大某个指标在系统分析中的作用,出现“大数吃小数”现象,以致影响分析的客观性,妨碍决策者的正确判断。
为了解决上述问题,往往对指标系统进行简化处理,有一个特殊情况尤其引起人们的关注:如果能将一个p维指标系统有效地降至二维就可以在平面上描绘每一个样本点,以直接观察样本点或指标之间的相互关系及样本点间的分布特点和结构。所以主成分分析使高维数据点的可见性成为可能。概括地讲,主成分分析是一种对多指标系统进行简化的方法,它能够在保证数据信息损失最小的前提下,对高维数据集合进行降维处理,揭示系统的主要因素。特别是当高维数据降为二维时,可以在平面图上描绘系统指标的相互关系,使高维复杂系统具有可见性,大大提高决策者的洞察能力和分析效率。提取的主成分指标尽管多于三个,但是主成分指标之间几乎不相关,因此可以用雷达图来弥补主成分可视化的不足,主成分分析及雷达图内容多数教材都有详细介绍,在此不予赘述。以提取的主成分指标代替原始指标绘制雷达图,便可将高维数据降维可视化。
下面的内容便是笔者科研项目的结果,从最终的结果来看,这种改进的可视化方法效果明显改善。采用综合评价指标对全国35个中心城市的综合发展水平进行评价,选取了包括两个方面的15个具体指标,分别是非农业人口、 工业总产值、货运总量、批发零售贸易餐饮业网点数、批发零售贸易餐饮业人数、 财政收入、城乡居民年底储蓄余额、职工人数、工资总额、人均居住面积、城市煤气普及率、人均公共绿地面积、人均拥有铺装道路面积、人均公共绿地面积和每万人拥有公共厕所数,分别记为X1,X2,⋯,X15。其中前9个指标为社会经济指标,后6个指标为城市公共设施水平指标。调用SPSS中因子分析程序,对15个指标的原始数据进行标准化、同趋化处理,最终得到四个主成分指标:F1 ――城市规模及经济发展水平指标, F2――城市基础设施水平指标,F3――煤气公因子,F4――城市公共卫生指标(见下表)。
从下图看出,城市A几乎在各个公因子上的得分都是最大值,A城市对应的雷达图面积在全国城市中也位居前列,因此说明A城市的综合发展水平在全国处于领先地位。B城市虽然在F1、F2、F3上的得分很高,其对应的雷达图面积也较大,但B城市在城市基础建设上的得分较低,因此B城市在城市建设时需要在基础建设方面加强力度。C城市在各公因子上的取值、对应的雷达图面积都处于中等地位,因此两城市在全国属于中等发达城市。为跨入全国发达城市行列,两城市各方面都需加快发展。D城市的四个公因子取值都是35个城市中最小或者接近最小的,其对应的雷达图面积也是最小的,因此可以认为D城市是不发达城市。D城市需在各方面加快发展才能赶上其它城市的发展速度,由于F1(城市规模及经济发展水平公因子)的方差贡献最大,F1是城市发展水平的主要代表方面,因此在经济能力受限条件下,D城市应该集中主要精力加快城市规模及经济方面的发展,从而带动其他方面的发展,这也是抓住了工作的重心。
■ 需要注意把握的问题
1.由于提取的主成分对原始数据信息的贡献不同,因此可以根据方差贡献率将雷达图对应的圆按比例划分。一般情况下不需要使用所有的主成分绘制雷达图,只需选取前几个方差贡献较大的主成分即可,并结合因子分析对主成分重新命名。