前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据分析方向范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词: 数据挖掘;数据仓库;相关分析
中图分类号:TP 311.3 文献标志码:A 文章编号:1672-8513(2011)03-0182-03
The Application of Correlation Analysis Algorithms in the Data Invites Chien
ZHANG Hanyun,DUAN Peng
(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)
Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.
Key words: data mining;data warehouse; correlation analysis
相关分析法是在分析某个问题或指标时,将与该问题或指标相关的其他问题或指标进行对比,分析其相互关系或相关程度的一种分析方法,用少数几对综合变量来反映2组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文主要研究如何利用相关分析技术产生计算机专业课之间的相关系数,发现专业课程之间的相关度,对数据仓库中的数据进行约简[1].
1 相关分析
1.1 相关分析概述[2]
相关分析(Correlation Analysis)是研究随机变量之间的相关关系的一种统计方法.相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.例如,教育投资与教育发展速度的关系、教师教学水平和学生的学习效果之间的关系等[3].
相关系数值为-1(完全负相关关系)~+1(完全正相关关系)之间,相关系数为0时,表示不存在相关关系.例:
正相关:学生的学习能力与学习成绩的关系;
负相关:教师的身体状况与缺勤率的关系;
零相关:教师的身高与教学能力的关系.
Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(Coefficient of Product-Moment Correlation).进行相关分析时,我们一般会同时对2变量绘制散点图,以更直观地考察2变量之间的相互变化关系[4].
用Flag Significant Correlations 进行显著性检验,标出有显著性意义的相关系数,用一个星号“*”标记在α=0.05水平上有显著性意义的相关系数;用2个星号“**”标记在α=0.01水平上有显著性意义的相关系数[5].
1.2 相关分析的表示方法
进行相关分析的主要方法有图示法和计算法.图示法是通过绘制相关散点图来进行相关分析,计算法则是根据不同类型的数据,选择不同的计算方法求出相关系数来进行相关分析.
1.2.1 图示法
图示法的具体做法就是绘制相关散点图.相关散点图是观察2个变量之间关系的一种非常直观的方法.具体绘制的方法是:以横轴表示2个变量中的1个变量(作为自变量),以纵轴表示另一个变量(作为因变量).将2个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状和疏密程度来形象描述2个变量之间的相关关系.
相关散点图可以通过手工绘制而得到.但如果面对的变量值比较多,手工绘制的过程既费时,又不够精确.
1.2.2 计算法
相关系数也称为相关量,是用来描述变量之间变化方向和密切程度的数字特征量,一般用r表示.它的数值范围在-1到+1之间,它的正负号反映变量之间变化的方向;它的绝对值的大小反映变量之间关系的密切程度.
根据2个变量变化的密切程度,我们把相关关系分为完全相关、高度相关、中度相关、低度相关、零相关[6].
完全相关:│r│=1的相关;
高度相关或强相关:0.7≤│r│<1的相关;
中度相关:0.4≤│r│<0.7的相关;
低度相关或弱相关:│r│<0.4的相关.
1.3 Pearson相关
Pearson相关也称积差相关,积差相关也称积矩相关,是英国统计学家Rearson提出的一种计算直线相关的方法,因而又称为Rearson相关[6-7].
积差相关系数是2列成对观测值中各对观测值的标准分数乘积之和除以观测值对数所得之商[8].
1.3.1 Pearson相关的使用条件
1) 2个变量之间是线性关系,都是连续数据;
2) 2个变量的总体是正态分布,或接近正态的单峰分布;
3) 2个变量的观测值是成对的,每对观测值之间相互独立.
1.3.2 Pearson相关的计算公式
r=∑ZXZYn=∑X-Y-nσXσY.
式中,[ZK(]n表示数据的对数;σX,σY分别表示X和Y变量的样本标准差;[JP],分别表示X和Y变量的样本平均数.[ZK)]
对于学生成绩,其课程总体分布接近正态分布,满足Pearson相关的使用条件.在统计软件SPSS中,可以很方便地得出2变量之间的Pearson相关系数.[JP]
2 用相关分析法进行数据约简
2.1 学生成绩数据仓库的建立
数据选择上,主要选择了作者所在学校计算机专业3年来产生的专业基础课成绩,收集并整理了包含高等数学、C语言、数据结构和数据库系统原理的504条学生成绩数据.并将具体的成绩数据离散化为4个等级[9],即:
成绩>=80“A”; 70=
2.2 用相关分析法进行数据约简
对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间,这就常常使得这样分析变得不现实和不可行,尤其是需要交互式数据挖掘时.数据约简技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘,显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同[10].
数据约简并不是一个新的领域,现在已经提出了很多理论和方法,如:层次分析法,主成分分析法,随机抽样、免疫算法等.本研究根据实际需要,提出将相关分析方法应用于学生成绩的属性约简,即方便快捷又不失理论性.
在SPSS软件中,画出计算机专业课高等数学成绩的直方图,如图1.
用同样的方法,可以画出其他计算机专业课如C语言、数据结构等的直方图,可以看出,我们所建立的数据仓库中,学生计算机专业课程成绩基本上符合正态分布,满足Pearson相关的使用条件.
我们用双变量相关分析技术来分析相关课程之间的关联程度,并做出统计学推断,以最少的数据量反映最大的信息量,进而对数据库的属性进行约简.通过相关分析约简相关性较弱的属性,选择相关性强的属性而不直接利用数据库中的所有属性,从而减少大量冗余属性,以提高算法的效率.
在SPSS中进行课程间Pearson相关系数分析,得到计算机专业课程相关系数分析表如表1.
1:表中数值为4门课程进行相关分析得到的皮尔逊相关系数(Pearson Correlation)、相伴概率(Sig.(2-tailed))、样本个数(N).“*”标记在α=0.05水平上有显著性意义的相关系数;用两个星号“**”标记在α=0.01水平上有显著性意义的相关系数;
2:相伴概率用来判断求解线性关系的两变量之间是否有明显的线性关系.一般将这个Sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等;如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等;如C语言与数据结构的Sig是0,此数值说明C语言与数据结构有显著的线性关系(因为Sig0.05,则说明两变量之间没有明显的线性关系).
由表1可以看出,同一门课程之间的Pearson相关系数为1,是完全相关关系.高等数学与C语言之间的Pearson相关系数为0.283,C语言与数据结构之间的Pearson相关系数为0.281,数据结构与数据库系统原理之间的Pearson相关系数为0.565,并且都有“*”标记,由此可以推断这4组课程之间有显著性意义的相关性.
3 结语
用相关分析技术对数据库进行约简,结果表明:线性代数、计算机导论及Pascal语言等多个因素相关性较弱;而C语言、数据结构、高等数学及数据库系统原理之间相关性较强,根据数据库约简原则,可将线性代数、计算机导论及Pascal语言等多个属性项从数据库中删除,以便提高数据挖掘效率.
参考文献:
[1]段西凌,甘开鹏.数据挖掘在人口普查信息系统中的应用[J].云南民族大学学报:自然科学版,2006,15(2):170-172.
[2]茆诗松.统计手册[M].北京:科学出版社,2003.
[3]TANG Zhaohui,MACLENNAN J.数据挖掘原理与应用[M]. 邝祝芳,焦贤龙,高升,译.北京:清华大学出版社,2007.
[4]王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004,19(2):173.
[5]张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报,2004:133.
[6]赵辉.数据挖掘技术在学生成绩中分析中的应用[D].大连:大连海事大学,2007.
[7]王月敏.基于遗传算法的智能组卷系统研究[J].云南民族大学学报:自然科学版,2009,18(2):173-176.
[8]刘利锋,吴孟达. 关联规则的快速提取算法 [J].计算机工程.2008,34(5):63-65.
[9]李萍,段富.数据挖掘中数据约简的研究与应用[J].微计算机应用.2009,25(2):58-60.[ZK)]
[10][ZK(#]蔡勇,韩永国,刘自伟.数据挖掘技术在生源分析中的应用研究[J].计算机应用研究.2004,32(6):48-51.
收稿日期:2010-09-06.
Lin Mao
(Xuzhou College of Industrial Technology,Xuzhou 221140,China)
摘要:在虚拟现实项目制作中,由于种种原因,海量数据处理是一项艰巨而复杂的任务,本文主要论述了海量数据处理困难的原因,并提出了对海量数据进行处理的方法。
Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.
关键词:虚拟现实 海量数据
Key words: virtual reality;massive data
中图分类号:TP39 文献标识码:A文章编号:1006-4311(2011)19-0158-02
0引言
虚拟现实项目制作过程中,由于虚拟现实包含的内容丰富,需要载入的数据量有时会非常巨大,需要进行处理和查询的内容很多,然后还要以文字和图像的形式进行表示出来,所以经常会遇到海量数据处理的瓶颈,造成这种情况的原因是:
①数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。
②软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。
③要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。
在多个虚拟现实项目的基础上,尤其是通过与行内多名专家进行项目经验交流,以下的方法都可以对海量数据在虚拟现实项目中的处理进行改善。
1选用优秀的数据库工具
现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。
2编写优良的程序代码
处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。
3对海量数据进行分区操作
对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。
4建立广泛的索引
对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。
5建立缓存机制
当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。
6加大虚拟内存
如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为4096*6+1024=25600M,解决了数据处理中的内存不足问题。
7分批处理
海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
8使用临时表和中间表
数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作,可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。
9优化查询SQL语句
在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。
10使用文本格式进行处理
对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。
11定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。
12建立视图或者物化视图
视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。
13避免使用32位机子
目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。
14考虑操作系统问题
海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。
15使用数据仓库和多维数据库存储
数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。
16使用采样数据,进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。
还有一些方法,需要在不同的情况和场合下运用,例如使用键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。
参考文献:
[1]何来坤,徐渊.虚拟现实建模语言VRML及其应用[J].杭州师范学院学报,2005,(2).
【关键词】民航气象数据库系统;Oracle;宕机;inactive;LOCAL=NO
【Abstract】Timely, accurate, standardized acquire meteorological data information of aviation is running an important basis to protect the safety of civil aviation. In this paper, we introduce a normal fault of civil aviation meteorological database system, process reach to maxProcessors led to process frequently down, so users cannot receive new message and data. We use “kill -9” command killed inactive process which have same keyword “LOCAL=NO” in Oracle database system, so we solved the error code ORA-0020 in no restart.
【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO
0 引言
民航气象数据库系统利用数据库技术和商用数据库管理系统,对各类气象资料进行有效的组织与管理,采用统一的数据模型和用户界面,从而实现对气象资料的有效存储和快速检索,并具有分布调用、高度共享和安全可靠等性能,为航空气象服务、气象业务与科研培训提供有力的支持。航空气象情报及气象资料的及时、准确、标准化获取是保障民航安全运行的重要基础。本文介B了一起由数据库进程数达到最大导致民航气象数据库进程频繁宕机故障,并给出了故障问题处理方法。
1 民航数据库系统结构简介
民航气象数据库系统是具有飞行气象情报及气象资料的制作、交换、备供、存储等功能的信息系统,包括通信分系统、数据库分系统、预报平台及服务平台四部分[1],如图1所示。
1.1 通信分系统
通信分系统是民航气象数据库系统的基础系统,它主要实现各类气象资料的接收、检查、处理,并根据一定的规则向其它系统及地区中心进行资料分发,同时实现气象中心、地区中心与航站之间的数据交换。通信分系统将获取的各种气象数据发送给数据库分系统,数据库分系统将这些数据进行分类、解析和处理后存储在数据库中。
1.2 数据库分系统
数据库分系统采根据存储数据的用途及时间划分为实时库、历史库及临时库,分别满足不同的业务与服务的要求。数据库分系统又分为资料处理子系统和数据库管理子系统。
(1)资料处理子系统对服务器data目录下接收到的气象信息进行分析分解,质量控制后入库;
(2)数据库管理子系统采用C/S模式,对资料处理、数据库等进行实时监控与管理,预报平台与服务平台则通过获取Oracle数据库中的气象资料,以不同的形式展现给用户。数据库管理子系统主要侧重于对数据库中气象资料的管理。提供的主要功能有:系统登录、资料处理、数据库管理、数据库恢复、日志和统计、告警、用户管理、进程管理、系统配置、窗口、帮助等。
1.3 预报平台
预报平台(民航气象信息综合处理系统)利用气象实时数据库资料,通过对数据库中的气象资料进行检索、分析、处理,制作成文本、图形等形式的气象产品,为航空气象预报人员提供服务。
1.4 服务平台
气象信息服务平台从数据库中提取相关产品,以WEB形式展示向航空气象用户提供航空气象产品及服务。
2 故障现象
民航气象数据库系统数据库子系统运行环境:硬件环境为IBM服务器;操作系统为AIX5.2;数据库系统为oracle 10g。
数据库运行一段时间后,资料处理子系统相关进程自动停止运行,导致621客户端及相关协议单位无法检索到最新资料,且重新启动后再次停止运行或直接无法重新启动。
3 故障分析
通过查看数据库相应进程诊断文件方法检查故障原因,数据库诊断文件是获取有关数据库活动信息的一种方法,用于解决数据库出现的一些问题,主要包含有关数据库中出现的重要事件的一些信息,这些文件能更好的对数据库进行日常的管理。
5 结束语
本文介绍了一起民航气象数据库常见故障,即达到进程最大连接数后导致相关用户进程频繁down机问题,造成用户无法获取最新报文和自观数据,一般较为普遍的处理方法为采用修改系统最大进程连接数后重新启动数据库,但是民航气象数据库对系统停机重启要求较高,重启数据库将导致用户无法及时获取数据,具有一定的安全风险。本文主要利用Oracle数据库中远程连接进程的共同特点,都含有关键字“LOCAL=NO”,然后经根据关键字“LOCAL=NO”筛选出inactive进程使用“kill -9”强行杀掉[4],此方法可以实现在不重启数据库情况下解决ORA-0020问题。
【参考文献】
[1]太极计算机股份有限公司,民航气象卫星传真广播系统用户手册[M].1-60.
[2]李月军.数据库原理与设计(Oracle版)[M].北京:清华大学出版社,2012.
【关键词】 医学图像 DICOM格式 分层存储
一、引言
目前,医学领域当中,数字医学影像格式及其转换方式的通用国际标准是DICOM,而本文所描述的是以DICOM为基础,以PACS在临床应用为前提的相关的文件格式及存储方法。PACS是医学图像存储及通讯系统的缩写,它采用数字化的形式,对临床应用的医学图像进行管理、传送、存储和显示,它的特点非常明显,显示的图像质量高、传输过程中无失真、速度快、可共享等[1]。网络技术在医疗领域的不断发展,国内的众多医院都开始或已经建立了自己的医院管理信息系统,开展远程合作医疗,由此引发了对PACS的迫切需求。然而,在互联网环境下,如何快速、高效的存储和引用医学影像数据应用于临床,是PACS要解决的一个重要的问题。
二、DICOM标准格式的医学图像
DICOM标准的医学图像主要是由两个部分组成的,分别是文件头和数据集[2],可以从如下四方面的内容理解:
1)存储服务类及相关信息:这部分主要的功能是在规定的标准框架下,将数据格式层的相关内容转换成医学图像的专用信息。
2)DICOM文件格式:在DICOM格式的文件中,数据元素全部被封装到一个文件里形成数据集合,在文件的前面,设置文件的原信息,其中包括文件头、文件标识、组长度、元信息版本等一些相关信息,以此来表示文件为DICOM文件。
3)DICOM目录信息:在DICOM中,文件之间的逻辑关系是由图像之间的逻辑关系体现的,主要包括图像IOD及检查结果等信息,而定义这样的关系是由DICOM标准中基本目录信息对象实现的,而基本目录信息又是由多个目录实体构成的,目录实体的内部包含1-N条目录记录,它们采用递归的方式依次引用下级目录,主要包括4个方面的内容[3]:一、引用下级目录;二、指向相关的IOD文件;三、可控记录选择的键值;四、同级目录连接机制。
4)DICOM文件存储标准:针对于各种不同的医学影像设备所产生的不同格式的医学影像文件,DICOM设置了完整的存储归档机制,可以依据具体归档选取。
三、医学图像存储
DICOM标准下的医学影像数据具有分辨率高和海量的特点,所以,在PACS系统当中存储将面临巨大的压力;同时,医学图像的临床存取效率和数据安全可靠性也将成为一个重要的问题。为了解决上述问题,本文基于DICOM文件格式,提出一种分层存储的方法,即在将医学图像存储到数据库时,按图像的分辨率及拍摄部位的重要程度对其进行划分。
1、分层次存储的基本思想:相对于其它类型数据而言,医学图像数据数据量大、具有很强的规律性和关联性,而医学图像的空间和灰度分辨率高、数据表示的重叠信息边界不明显且对比度不高,又使医学图像具有特殊性;然而,在整个的医学图像上医生和患者感兴趣的只有病症局部信息,对其它部分的信息很少注意,因此,本文采用分层存储的方法对医学图像进行存储,也就是说在将医学图像存储到数据库时,按图像的分辨率及拍摄部位的重要程度对其进行划分;对于图像中的病变区域,我们称为“重点区域”,采用高质量的高保真无损压缩,以保证图像品质; 对非病变区域,我们称为“非重点区域”进行高效压缩,该部分以提高压缩效率为主,这样即突出图像重点区域,同时又保证了整幅图像的完整性。具体存储时,将图像库划分为基本图像库、缩略图库和标注图库,基本图像库存储高分辨率的 DICOM图像数据,缩略图库存储低分辨率的缩略图像,而标注图库存储标注了的病变区域的图像。
2、基本图像库:医学影像数据从医疗设备上成像后,经过解析,也就是去除DICOM格式的信息部分,只保留图像数据部分的内容[4],然后存储到基本图像库当中,从而建立起最初的基本医学图像数据库, 但这样的图像存在格式不统一的问题,所以在后续的处理工作当中要利用图像处理工具进行格式统一处理。
3、缩略图库:实际上,医疗设备上形成的医学图像数据,信息量是很大的,这样的图像数据在临床应用时传输是很困难的,不能够适应临床应用对实时性的要求,因此建立医学图像的缩略预览图是十分必要的,它可以方便用户在查看所需的图像时,快速定位,提高访问效率[5]。缩略图采用低分辨率的小图,是对基本图像进行的微缩,在对基本图像进行模糊化处理、重新采样、重新锐化之后,将其设置为每个像素点有 4-8bit,最后得到的图像存储到缩略图库。
4、标注图库:医学影像生成后,由相关的医生在图像上对病变区域进行标注,突出显示出病变部分,然后将标注好的医学图像存储到标注图像库中。
经过以上的分层存储处理后,医生和患者可以根据需要快速的从相应层次的数据库当中检索出想要的医学影像数据,可有效的提高临床应用效率。
四、总结
本文基于 DICOM格式的t学图像,以临床实际应用为依据,针对临床应用时医学图像批量存储以及利用效率低下问题,提出了按图像分辨率及拍摄部位重要程度进行分层存储的思想,并给出具体方法,以此为基础,设计了一种DICOM医学图像的分层存储管理数据库系统的方案,本方案的提出,能在一定程度上解决医学图像存储和利用效率低的问题,具有一定的实际意义。
参 考 文 献
[1] 王英,基于DICOM标准的医学图像存储与访问的研究,医疗装备,2005.
[2] 韩磊,基于DICOM的医学图像存储模型设计与实现,计算机时代,2006.
[3] 王龙,基于DICOM的医学图像存储与处理系统的实现,电脑学习,2010.
根据不完全统计,2016年1D6月,全球大数据领域共计发生157起投融资事件,其中中国发生了97起,超过总量的一半,其次为美国,发生41起,其他国家在大数据领域的投融资事件数量远远落后于中国和美国。
2016年1D6月,中国大数据领域投融资金额规模达到503.70亿元,排名第二的美国,投融资金额规模为111.38亿元。其他上亿元投资的国家分别为以色列5.35亿元、英国4.32亿元、德国2.24亿元、加拿大1.06亿元。
中美大数据领域投融资对比
从2016年上半年的整体投融资状况来看,中国和美国的投融资事件占全球绝大多数的比例,中美两国大数据业务的发展基本代表了大数据在全球的发展状况。深入对比中美大数据领域的投资,对掌握大数据的应用方向和技术方向具有较大的意义。
从图3可以看出,在大数据行业应用方面,中美都有涉及的行业有医疗、营销、物流、娱乐、体育和教育。其中,医疗领域是2016年上半年行业中发生投融资事件最多的领域,中国发生18起,美国发生5起;其次为营销领域,中国发生6起,美国发生3起。
相比美国,大数据的应用行业在中国更加广泛和活跃,2016年上半年中国有大数据投资而美国尚未涉及的领域比较多,如媒体、交通、金融、汽车、物联网、艺术、招聘、旅游、农业和租房等领域。其中媒体行业发生10起投融资事件,交通行业发生6起,金融行业发生6起。
在大数据技术应用方面,2016年上半年涉及的投融资方向有数据分析、数据应用、数据安全和数据工具。其中数据分析方向投融资事件最多,美国15起,中国14起;其次为数据工具方向,美国8起,中国5起;数据应用方向,中国6起,美国3起;数据安全方向,中国5起,美国3起。
从投融资的金额规模上看,2016年上半年,中国和美国的侧重点各不相同,中国偏重于大数据行业领域的应用,而美国侧重于大数据技术领域的应用。2016年上半年中国在大数据行业应用的投资总规模达到485.1亿元,在大数据技术应用领域只有18.6亿元;美国在大数据行业应用领域的总投资规模为26.9亿元,在大数据技术应用领域达到84.4亿元。
中国投融资规模的TOP3均为行业领域,分别为交通、物流和医疗,投融资规模分别为305.4亿元、105.0亿元和50.7亿元。而美国投融资规模的TOP3中有两个为技术领域,分别为数据工具44.2亿元、数据分析31.3亿元;有一个为行业领域――医疗16.6亿元。在行业应用方面,中美投资事件最多的均为医疗领域。
中美数据分析领域投融资市场对比
可以看出,美国比较侧重发展大数据的技术应用,而数据分析是大数据技术应用领域投融资最多的技术方向。2016年上半年,中国在数据分析方向的投融资事件达到14起,美国15起,高于中国。在金额方面美国更是远远超过中国,投融资金额高达31.3亿元,而中国只有7.3亿元。
2016年上半年,数据分析领域的投融资事件主要集中在分析平台、用户分析和商业智能方向,分别发生投融资事件12起、10起和3起,各自占比为41%、35%和10%;其他几个方向的占比都比较小。从金额分布上看,分析平台占比最大,达到61%,其次为用户分析16%,可视化分析13%。