前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇大数据库建设方案范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:中间库;数据转换;设计
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)26-0115-02
随着大数据时代的来临,数据与数据之间的联系被进一步挖掘,并在此基础上进行综合分析,形成决策。将不同数据库中的数据联合起来,形成相关,具有多种解决方案,设计一个中间库和一个中间件,专门负责数据的联系和转换,是当前主流的解决方案。
1 现状
伴随信息化的高速发展,我国绝大多数中小型企业和单位在信息化建设方面已经取得一定的成效,但在大数据背景下,以往建设的信息化系统出现了如下明显问题:
1)信息化孤岛。有些政府和事业单位,根据自身的业务范围,已经建设了几十个大小不一的信息管理系统,这些系统中,每个系统都有一个自身独立的数据库,系统与系统之间,数据库与数据库之间即使具有相同的字段,它们也没有任何数据关联。
2)由于数据库没有关联,则存在着明显的二次录入现象,比如一个人员名单的增加,需要在人事系统中增加,也需要在业务数据库中增加,工作量大而繁琐。
3)数据不一致。由于一条信息可能会在多个业务数据库中出现,如果这条信息没有及时流通到相关部门中,则这个部门数据库的数据不会更新,比如在一个高校的招生中,招生部门录取了一名学生,但名单还未到达教务处前,教务处的系统没有更新,导致了数据的不一致性。
4)数据沉睡。由于不同的数据库之间没有联系,故不能挖掘相关数据的相关性,不同数据库之间的数据不能联合分析,致使数据沉睡,价值发挥不足。
基于以上的问题,将不同数据库之间的数据有效联系起来,成为了数据有效发挥其价值的重要环节。
2 中间件设计
1)模型设计
经过多年的信息化建设,众多企业和单元已经具备多套信息管理系统,这些系统和系统之间具有如下特征:
① 系统之间相互孤立。在建设初期,每个系统都拥有独立的数据库,各数据库之间没有联系,修改其中一个数据库中的数据,其他数据库的数据不受影响。
② 系统之间存在联系。在操作某个业务时,修改一个数据库中的信息,其他数据库中的信息可能要改变。如删除一个名单时,涉及多个系统多次删除,形成二次录入。
③ 新形势下需要将多系统数据联合分析。在大数据背景下,需要将所有的信息系统统一起来进行综合分析,以形成精准决策和精准管理。
其具体模型如图1:
上述问题至少有2种解决方案:
方案1:在设计统一查询平台时,将综合平台的每一项信息与各业务平台中的数据联立。当需要在统一查询平台上查询某些信息时,在其中一个或几个数据库联合查询即可,如需进行数据转换,则进行适当转换。当综合平台中某个数据修改时,对应的若干个业务数据库统一完成修改。
方案2:在设计统一查询平台时,设计一个中间库。中间库与各基础库联立统一查询平台只在中间库上进行查询,在统一查询平台上进行修改操作直接修改中间数据库。在中间数据库和各基础业务数据库之间,设计一个数据转换模型,设计中间库与基础库数据之间的转换关系和转换规则。具体见图2:
比较分析方案1和方案2可以发现,方案2明显优于方案1。方案1具有两大明显不足,一是综合统一平台在查询某个数据时,需要从业务数据库中调取,这个数据有可能存在多个数据库中,多个数据库对这个数据的保存信息可能不一致,综合查询平台基于不同的基础业务数据库时,查询结果不一样。二是每次在修改数据时,都需要向多个数据库写数据,所有的数据库都必须全部打开等待数据写入,非常浪费系统资源。
方案2设计了一个中间库,统一查询平台的数据查询都基于此中间库,平台修改的数据也仅仅是修改中间库的数据,中间库设计了一个触发器,当中间库有变化时,才向各业务数据库写入数据,当各基础业务数据库发生变化时,向中间库写入数据。也可以设计一个算法,定时批量同步数据。
2)数据同步方案
① 数据转换基本流程
数据同步时,有两种情况,第一种是统一查询平台修改数据后,中间数据库的数据被修改,按照一定的规程根据被修改的中间数据库的情况修改业务数据库,其基本流程对应于图3。第二种情况是,在各业务平台上修改了数据,这些数据引起了业务基础库的更新,更新的数据库将引起中间库的更新,其基本流程图对应于图4。
② 数据同步方案
中间数据库与业务基础库中相同变量的对应关系是一对多,在中间数据中修改一个数据,可能涉及多个业务基础库的修改,但每个业务数据库修改的方式又不一样。如在中间数据库中增加一个姓名,定义为8个字节,业务基础数据库1和业务基础数据库2都涉及了姓名列,但在业务数据库1中,其字段长度为20,而业务基础库2中,其字段长度为30,故在转换时,需要为中间数据库每一个字段与所有的业务基础库的相同字段定义好转换规则,在转换时,必须查找对应的规则进行转换。
【关键词】 大数据 电信运营商 4V Hadoop Spark 流计算
一、引言
大数据的应用是在互联网的高速发展中诞生的。谷歌提出了一套以分布式为特征的全新技术体系,即分布式文件系统(GFS,Google File System)、分布式并行计算(MapReduce)和分布式数据库(BigTable)等技术。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的源头。
二、大数据发展现状
近年大数据的发展呈现以下两个特征:1)互联网公司引领大数据发展。互联网公司在搜索、广告领域积极采用大数据技术优化既有业务。二是今年以来陆续推出一系列面向第三方的大数据服务。2)传统企业大数据应用仍处在探索期,发展渐趋理性。传统企业在大数据应用的思路上也在纠偏,更加务实。一是更加注重更干净、结构化小的数据。二是更加注重企业自身沉淀下来的内部数据的价值挖掘。三是更加注重根业务需求把Hadoop 与传统数据仓库结合起来用。
三、大数据关键技术
1)大数据存储管理。传统的单机文件系统和网络系统要求一个文件系统的数据必须存储在一台物理机上,在冗余性、可扩展性和容错能力和并发能力上难以满足大数据的需求。2)大数据计算能力。传统的数据计算能力的提升依赖于扩容单机的CPU性能、增加内存、扩展磁盘等方式,难以支撑平滑扩容。以MapReduce为代表的分布式并行计算技术可以通过低成本的通用服务器搭建系统。通过添加服务器扩展系统的总处理能力。3)大数据分析技术。大数据分析主要在两个方面,一是对海量的结构化和半结构化数据进行高效率的深度分析,如从文本网页中进行自然语言分析;二是对非结构化的语音、图片和视频进行机器可以识别的分析提取有用的信息。
四、大数据的主流技术
1、Hadoop。Hadoop是基于Java语言开发,以分布式文件系统和Mapreduce为核心。其特点如下:1)可扩展性:Hadoop运行在基于X86结构的普通PC服务器或刀片服务器上,硬件和软件松耦合在一起,可以很方便的增加计算节点。2)可靠性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,确保能够针对失败的节点重新分布计算。3)低成本:Hadoop架构在廉价的硬件服务器上,不需要昂贵的硬件作支撑。其软件是开源产品,不需要授权费用。4)高效性:相比传统并行计算结构,Hadoop的计算和存储是一体的,实现任务之间无共享,I/O开销小。
2、Spark。Spark拥有MapReduce的优点,但不同于MapReduce的Job中间输出,其结果可以保存在内存中,从而不再需要读写HDFS。其有以下特点:1)速度快。Spark支持内存计算,对于小数据集能达到亚秒级的延迟。2)易于使用。Spark支持Sscala、Java和Python编写程序。Spark提供了超过80个高级运算符,以便于更容易的构建并行应用程序。3)与HDFS底层兼容。Spark能够运行在Hadoop 2.x的YARN集群管理器上,并且能够读取任何存在Hadoop数据。
2、流计算。流式数据是指将数据看作数据流的形式来处理。数据流是在时间分布和数量上无限的一系列动态数据集合体;数据记录是数据流的最小组成单元。流计算的技术特点如下:1)实时性。流数据是实时产生、实时计算,结果反馈往往也需要保证及时性。2)易失性。在流计算环境中,数据流往往是到达后立即被计算并使用,只有极少数的数据才会被持久化地保存下来,大多数数据往往会被直接丢弃。3)突发性。在流计算中,数据的产生完全由数据源确定,由于不同的数据源在不同时空范围内的状态不统一且发生动态变化,导致数据流的速率呈现出了突发性的特征。
五、主流技术方案比较
目前大数据平台建设最常见的是基于Hadoop平台和MPP数据库的两种方案。Hadoop、MPP数据库和传统数据库并非是互相取代的关系。因此,在很多大数据解决方案中,单一大数据技术无法满足所有的要求,而是要根据实际场景采用不同的技术方案或采用混搭架构进行综合处理。
六、电信运营商大数据部署建议
大数据平台建设目前有两种方式,建议采用第2种方式:1)以现有分析系统BI为基础,进行扩展,构建统一开放数据平台。2)以统一数据管理为契机,通过数据统一采集、存储与处理入手,新建大数据平台。方式2可迅速汇聚数据,不影响现网各系统的运行,后期可将经分,性能管理等系统上移为数据集市,专注于专业分析。各数据源仅将数据送往大数据平台。
大数据技术架构建议按照“松耦合、标准化、分层开放”的标准进行方案选取。而在数据层面,运营商面临数据规模大,数据处理复杂,数据结构多样化等多种挑战。无论是传统数据库还是分布式数据库,均难以单独满足数据存储和分析的需求。大数据平台建议采用Hadoop作为大数据的主要存储平台,各分析集市、应用系统可根据数据分析的深度,实时性采取Hadoop,Spark或MPP混搭架构。
参 考 文 献
面对中国大数据市场的蓬勃发展和实际需求,IBM不断加大对中国市场的投入,以领先的大数据与分析技术促进大数据在零售、银行、电信、医疗、制造和互联网等诸多行业落地,这与企业对大数据应用的热情形成良性互动,加速了最有说服力的、实打实的“案例”的先后涌现。
实践时代到来
“数据是竞争资源”、“细分市场越小,对数据的需求越大”,这些观念已经逐渐深入人心,大数据在证明其对企业的重要性和必要性后,走进了“榜样就是力量”的实战阶段——展望全球,IBM大数据与分析在全球的客户数已经突破3万家。
谈到中国的大数据市场,IBM全球副总裁兼大中华区软件集团总经理胡世忠表示:“IBM大数据与分析业已迈进‘中国实践阶段’。中国的人口和经济规模决定了中国具有全球最大的大数据规模,同时也意味着中国的大数据与分析解决方案比其他国家更具创新性。另外,中国经济发展面临的诸多挑战需要大数据这种创新方式提供更好的解决方案,这一巨大的需求在客观上为中国提供了广泛的大数据实践机会。我们相信,对于大数据,中国面临前所未有的机遇,有望在这一领域引领全球技术发展趋势。”
要落地,如何降低大数据分析成本、降低部署难度、提高分析速度是大数据应用无论如何也逃避不了的难点,也是企业最头疼的关键点。IBM从这三点入手,实际效果不辩自明。
青岛银行以PureData for Transactions专家集成系统支持公司数据中心建设,以整合的专家能力赋能大数据,支持公司数据中心建设,建立了高可用、高性能、简单、易于安装、简化运维、能够为青岛银行新柜面业务和其他重要交易业务提供可靠的数据平台系统。
安联全球救援(中国)对原有的数据分析和报告系统进行升级,利用IBM Cognos 10业务分析技术和解决方案来全面支持“安联全球救援业务分析智能系统”,从而更好地管理和运营自身的数据库,提高服务和运营水平,将更有价值的业务分析和预测提供给企业级汽车客户。
安联全球救援(中国)首席运营官金卡罗(Giancarlo Scupino)表示:“IBM大数据分析将我们的业务分析能力提升到了一个新的高度,使我们不再局限于过去简单的人工数据统计,而是对数据进行了更高层次的总结和分析。”
技术的力量
支持这诸多应用成功落地的正是IBM在大数据和分析领域的不断努力和层出不穷的新产品。正如IBM全球副总裁兼IBM中国开发中心总经理王阳所描述的:“如果你想要走进大数据时代,IBM会给你带来强有力的武器,以产品和解决方案帮助你来实现大数据时代的胜利。”
“IBM创新的大数据技术和解决方案,能够实现数据的快速挖掘与分析,帮助企业更加高效地获取大数据价值,从而深化客户关系,规避风险和诈骗,快速寻找新的业务机遇,提升业务表现。” IBM大中华区系统与科技事业部技术总监李永辉了IBM大数据与分析新产品及实现路线图。
关键词: 大数据;电信网络;精简架构;数据即服务
Abstract: In this paper, we discuss a number of domestic and international big-data telecommunications architectures and propose our own lean big-data architecture. This new architecture combines the practical application scenarios of operators, and the universal large platform is abandoned. There are two directions in big-data development: improving business efficiency and providing data as a service (DaaS). Capturing, managing, and mining core data of a telecom operator is the basis for service implementation. Rapid deployment and application of big data is the final target. A balance also needs to be struck between in efficiency, cost and time when deploying a big-data architecture.
Key words: big data; telecommunications network; lean architecture; data as a service
中图分类号:TN915.03; TP393.03 文献标志码:A 文章编号:1009-6868 (2013) 04-0039-003
1 电信运营商建设大数据
思路及关键技术
运营商的网络和用户是运营商的核心资产,而其中流动的数据(包括用户配置基础数据、网络信令数据、网管/日志数据、用户位置数据、终端信息)是运营商的核心数据资产。对于运营商来说,最有价值的数据来自基础电信网络本身,对于基础管道数据的挖掘和分析是运营商大数据挖掘的最重要方向。抓取、管理和挖掘这些数据是运营商的当务之急[1-2]。运营商基于核心数据的大数据应用可从两个方面入手:
(1)通过大数据应用提升自身运营效率。比较典型的应用包括:信令多维分析、网络综合管理及分析、业务和运营支撑系统(BOSS)经营综合分析、精准营销等。
(2)通过数据即服务(DAAS)拓展新的服务内容,提供对外服务。包括个体及群体的位置信息以及用户行为分析等,对于第三方公司(比如零售业或者咨询公司、政府等)都是非常有价值的信息。运营商可以基于这些数据提供对外DAAS服务,拓展市场空间。
为了构建电信运营的大数据应用,从技术能力的角度可以分为数据收集与存储、信息检索汇聚、知识发现以及智慧4个层面。电信大数据技术层面如图1所示。自下而上数据挖掘深度增加,难度加大,对于系统的智能需求提升。其中关键的技术包括抽取转换装载(ETL)、并行计算框架、分布式数据库、分布式文件系统和数据挖掘、机器学习等。
面对海量的大数据,如何有效进行数据处理是需要解决的迫切问题,分布式并行处理是有效手段。传统关系型数据库多采用共享磁盘(Sharing-disk)架构,当数据量达到一定程度,将面临处理的“瓶颈”以及扩展的困难,同时成本也偏高。当前有效的做法是采用分布式文件系统/分布式数据库结合做分布并行处理。目前基于开源的Hadoop平台是业界采用较广泛的一个实现方案。Hadoop[3]的核心思想是基于Hadoop分布式文件系统(HDFS)存储文件或者基于HBase数据库(也是基于HDFS),使用分布式并行计算框架MapReduce来并行执行分发Map操作以及Reduce归约操作。在Hadoop的计算模型中,计算节点与存储节点合一。存储数据的普通PC服务器可以执行MapReduce的任务。而在Sharing-disk模型中,存储节点与计算节点是分离的,存储的数据需要传送到计算节点做计算。Hadoop计算模型适合离线批处理的场景,比如Log日志分析、文档统计分析等。它是关系型数据库管理系统(RDBMS)的有益补充。
在私有技术上实现分布式存储和并行处理,在调用接口上与Hadoop兼容,这是一个可行的技术方案。这种方案可以避免上述Hadoop的缺点,同时在性能上做更多的优化。有效的手段包括增加数据本地性(Data Locality)特性,在多次迭代的计算过程减少数据在不同节点之间的传送;使用索引和缓存加快数据的处理速度。结合存储和计算硬件进行调优也是有效的手段,可以使用数据的分层存储,将数据分布在内存、固态硬盘(SSD)、硬盘等不同介质上[4],使得与计算资源达到很好的平衡。
面对海量数据实时性的要求,比较有效的方式是采用复杂事件处理(CEP)[5]。实时流处理采用事件触发机制,对于输入的事件在内存中及时处理。同时对于多个事件能合成一个事件[6]。实时流处理需要支持规则以满足灵活的事件处理要求。实时流处理可以使用分布式内存数据库、消息总线等机制来实现快速实时响应。目前商用的CEP产品有不少,但是在功能、性能以及适用范围上有较大差异,选择成熟度高以及合适的产品是关键。
针对大数据中大量的半结构化或者非结构数据,NoSQL数据库应运而生。NoSQL数据库放弃关系模型,弱化事务,支持海量存储、高可扩展性、高可用及高并发需求。NoSQL数据库在特定应用场景下有很高的优势,是传统数据库的有效补充。按照数据模型,NoSQL主要有四大类:键-值(Key-Value)型、列存储型、文档型、图型,它们对应不同的应用场景。比如Key-Value型适合简单键-值对的高效查询,而图型适合社交关系的存储和高效查询。
针对大数据挖掘分析、搜索以及机器自适应学习等技术在企业系统中逐步应用。相关的算法种类很多,当前需求较多的是分布式挖掘和分布式搜索。
由于数据类型以及数据处理方式的改变,传统ETL已经不适用。运营商需要根据应用场景做不同的规划。目前来说,由于运营商应用系统差别较大,尚未有一种统一的处理模式。比较可行的一种方法是依据数据的功用以及特性做分层处理,比如大量的数据源首先做初筛,初筛完之后有部分数据进入数据仓库或者RDBMS或者其他应用。初筛可以使用Hadoop或者CEP或者定制的方式来完成。
针对运营商的不同应用场景,需要采用不同的技术或者技术组合。比如用户实时详单查询,数据量巨大,但是它的数据类型简单,数据以读为主,不需要复杂的Join操作,数据的分布性好。相比传统的RDBMS,使用Hadoop可以大大提升查询性能,降低处理成本。更多的应用可能需要多种技术的组合。比如信令采集及多维分析,信令数据特别是分组域(PS)信令数据量大且实时性要求高,有效解决海量数据处理与实时性要求是它的关键,需要CEP与Hadoop的组合。在当前阶段,不同的技术成熟度不一,由于业界大数据应用进展较快,我们认为当前针对不同应用的精简方案是最合适的,也就是依据应用场景,挑选最合适的组件做组合,摒弃通用化的大平台。
2 中兴通讯大数据实践
中兴通讯依托在云计算等领域的长期积累,针对大数据形成了一套完整的技术体系架构。ZTE大数据技术体系架构如图2所示。架构依据运营商的不同的应用需求,注重采用组件搭建的方式,形成端到端的精简方案。下面以两个具体的案例进行说明。
(1)用户实时位置信息服务系统
该系统实时采集蜂窝网络用户的动态位置信息,并通过规范接口提供DAAS服务。实际工程中,当期接入的用户数达两千多万,每天用户位置更新数据可达40多亿条,高峰期更新达到每秒几十万次。除了采集的位置,还可以结合其他数据源比如用户年龄等属性做分析,以应用编程接口(API)开放给上层应用。此外该系统需要有良好的可扩展性,后续可以接入其他区域的数据源。另外这套系统需要有良好的性价比,成本可控,时间可控。依据这些需求,我们在成熟的组件K-V NoSQL 数据库的基础上搭建了系统。用户实时位置信息服务系统如图3所示。
用户实时位置信息服务系统是一个典型的精简方案,它基于分布式Key-Value NoSQL数据库的分布式缓存(DCache),组装了对位置流事件实时处理的系统。DCache既是消息总线,也是内存数据库,能很好地满足实时性的要求。同时DCache基于x86刀片服务器,采用分布式架构,系统的扩展性很好,成本较低。该系统性能优越,稳定可靠,取得良好的效果。
(2)信令监测多维分析系统
随着运营商数据业务快速增长,运营商对于网络质量提升、网络运营效率有着更大的压力。通过采集网络Gn接口、Mc接口信令并加以处理分析,可以获得网络运行的完整视图,基于信令的相关专题分析,比如网络质量分析、流量效率分析、多网协同分析、客户投诉及服务分析等对于运营商网络运营有极大的价值。
信令监测多维分析的难点在于信令流量大且数据量大,比如某运营商省公司Gn接口峰值流量可以达到4 Gb/s,每天信令数据可达1 TB。需要采集信令并做多种分析以服务于不同的部门。
信令监测多维分析系统采用分层的架构,便于数据共享及和应用的扩展。信令监测多维分析系统如图4所示。使用实时流处理满足实时性高的数据分析要求,对于会话或事务详单(XDR)初步处理完的数据采用传统RDBMS存储供后续分析查询使用。对于数据量庞大的XDR采用Hadoop HBase存储并查询,原始信令采用分布式文件系统存放在本地。
在这个方案中,数据根据它的使用特性采用不同的方式存储和处理,突破RDBMS处理“瓶颈”和扩展性的“瓶颈”,达到了很好的效果。在测试中,4节点PC服务器可以全部承担某运营商省公司PS域XDR的存储,入库性能可达50 Mb/s,针对上百亿条记录查询,可以在10 s内返回。取得了很好的实践效果。
3 结束语
电信运营商面临大数据发展的机遇,都在积极推动大数据的试点和商用。在当前大数据技术快速发展的形势下,根据需求和应用场景搭建精简方案,可以帮助运营商在当前激烈竞争环境中快速获得竞争优势,在效率、成本和时间上取得最佳平衡。
参考文献
[1] Cisco Systems. Cisco visual networking index global mobile data traffic forecast update, 2011 - 2016 [EB/OL]. [2013-03-25]. http://.
[2] MANYIKA J, CHUI M, BROWN B, et al. Big data: The next frontier for innovation, competition, and productivity [R]. McKinsey Global Institute, 2011.
[3] WHITE T. Hadoop权威指南 [M]. 2版. 周敏奇, 王晓玲, 金澈清, 译. 北京:清华大学出版社, 2011.
[4] SNIA. 2012 SNIA Sprint Tutorials-NextGen Infrastructure for Big Data [EB/OL]. [2013-02-15]. http://
[5] NEUMEYER L, ROBBINS B, NAIR A, et al. S4: Distributed stream computing platform [C]//Proceedings of the IEEE International Conference on Data Mining Workshops (ICDMW’10), Dec 14-17,2010, Sydney, Australia .Los Alamitos, CA, USA: IEEE Computer Society, 2010:170-177.
[6] SHARON G, ETZION O. Event-processing network model and implementation [J]. IBM Systems Journal, 2008,47(2):321-334.
作者简介
[关键词]地质大数据;数据中心;建设
中图分类号:P621 文献标识码:A 文章编号:1009-914X(2017)17-0098-02
地质矿产勘查部门经营几十年沉淀下海量的各类地学数据,由于缺乏有效的管理和综合开发利用,大部分依然埋存在数据坟墓中,以至无法创造附加价值。如何盘活这些数据资源,将沉淀的数据资源价值最大化,是一个面临的重大考验。引入云计算、大数据等新一代信息技术,建设地质大数据中心,从而实现地质数据智慧化服务和管理的新模式,为地质数据资源综合开发利用提供基础保障。
1 地质大数据中心发展趋势
随着地质调查信息化水平的提高,地质大数据时代到来的步伐不断加快,在大数据时代背景下,地质资料的管理、开发利用以及社会服务也将发生变化,与传统的资料存储相比,大数据时代下的地质资料数据具有载体形式多、数据格式多、信息量庞大的特点,给数据资料管理存储与应用服务带来了新的挑战,如何有效保存、快速发现和获取成为重要课题,建立具有高性能、容灾备份能力的数据中心成为了当今地质大数据时代信息化和数字化的必然要求[1]。
2 地质数据化管理现状
地质数据化管理化建设已经开展多年,但目前依然局限于解决某个部门某个项目的诉求上,处于比较落后阶段。没有统一的信息化管理平台,没有集中管理的数据存储中心。各类地学数据无法统一存储管理、数据安全管理缺失、信息安全管控能力薄弱、系统容灾性极差的尴尬局面。据公开数据显示,当前已经建设完成涵盖基础地质数据、地质矿产数据、物化遥数据、水工环数据等多专业的地学数据库。但这些数据库的建设方式大多数是简单地利GIS系统和数据库系统来装载数据,很少做数据层面的资源整合和以需求为主导的二次开发。不同专业属性的数据不能互相构建互通,造成信息资源分散,共享和统一的程度不高。
3 地质大数据中心建设现实需求分析
以存储、管理、开发利用地质数据为主题的大数据中心,是地质行业信息化建设的大放向,以数据为核心,连接各类地质业务平台,可以促进地质数据共享,有效地提高数据资源的利用率,这将成为地质数据资源转换为地质数据资产必备条件。
解决海量地学数据的存储和各类应用系统的整合部署,是目前地质大数据中心建设的迫切需求。海量数据的存储需求主要以各类项目和应用系统的需求为主导,项目包括已经完成、正在实施、计划开展的项目。以对基础地质、矿产地质、农业地质、矿山环境、地质灾害、旅游地质等的专业数据评估,都以矢量数据、栅格数据、文本数据、表格等为主,所产生的数据都属于PB级的数据量。为有效对这些海量数据进行采集、存储、管理和深度挖掘,以充分利用数据资源,地质大数据中心建设成为了未来发展的必然趋势。
4 地质大数据中心建设目标和原则
以地质数据生产、存储、管理、开发、利用为主线,采取统一、分步、集中、共享的建设方针,逐步构建地质大数据中心为目标。
统一:对数据中心化建设进行统一标准、统一规划、统一筹备、统一部署、统一管理。避免各个业务部门、地勘单位各自为营的建设。
分步:设备会贬值,技术会过时,数据中心建设是一个长期工程,不可能一步建设到位,必须根据规划,依据实际需求进行分步建设,逐步向目标推进。
集中:数据中心的硬件资源、软件资源、网络资源进行集中采购、集中部署、集中管理。避免重屯度胄纬傻淖试蠢朔眩便于软硬件资源的维护,同时强化信息安全的管理。
共享:地勘单位共享硬件资源、软件资源、网络资源,各类资源由管理部门统一调度,各个地勘单位原则上不再投入建设相关的设施。
数据中心的建设必须理清现状,明确需求,以资源整合、充分利旧、合理升级为建设原则。
资源整合:对硬件资源、软件资源、网络资源进行分析、评估、整合,各类资源能用就用,统筹部署、合理共享,提高资源利用率。
充分利旧:充分利用现有基础设施资源,可以改建为同城灾备中心和数据机房。
合理升级:运营多年的业务系统,设施可能已经落后,并且多年沉淀下来的数据,已属于海量数据。原则上在利旧的前提下,新数据中心机房的建设,在不影响现有数据存储、业务系统运营的情况下,合理升级数据的存储方案和业务系统的运营策略等。
5 地质大数据中心总体方案描述
数据中心建设的指导思想是:坚持整体规划、分布实施、统一标准、整体协调、整合发展、资源共享的原则,以网络为基础、应用为重点、信息资源开发利用为核心,建立一个高可靠、大容量、安全的数据中心。依据建设目标,以业务应用为驱动,切合实际数据存储规模需求作为建设切入点打造全新的地质模块化数据中心。数据中心的建设涉及到硬件资源的整合、软件资源的整合、网络资源的整合、业务应用系统功能整合、各类数据库的整合,每个环节都需从管理、应用、服务等诸多方面多角度全方位的考虑,并拟出技术方案方可实施。
1)地质大数据中心应用架构
对各类地质数据进行全面梳理、分析,整合现有的数据资源,构建完整、规范、统一的数据存储中心,集中存储,打破部门边界,实现资源的有效共享,为今后业务系统建设奠定基础(图1)。
2)地质大数据中心网络架构
数据中心的网络构架必须统筹局域网内部署,同时协调已有的各业务系统之间的运营需求,使这些已有的系统运行、真正投入使用,实现这些业务系统与下属地勘单位互联互通,进行项目实时动态管理。而这些系统运转的前提是数据中心机房的建设,需要大力的设备、人力、物力、财力的支撑,时间持续也很长久(图2)。
3)确立数据中心平台
构建一套基于软件定义的云存储平台,在标准硬件上构建一套系统满足文件存储及对象存储资源的诉求,并能实现存储资源的按需自动化发放。不同类型存储分别为不同业务按需提供存储资源。
文件存储服务:提供NFS、CIFS、FTP和HDFS等标准接口,以卓越性能、大规模横向扩展能力和超大单一文件系统为用户提供非结构化数据共享存储资源,应用于视频/音频海量存储、大数据应用等场景。
对象存储服务:兼容Amazon S3与OpenStack Swift,支持融入主流云计算生态,满足云备份、云归档、IoT及云存储服务运营场景需求。
通过存储系统软件将标准硬件的本地存储资源组织起来,构建全分布式存储池,实现一套存储系统向上层应用提供块、文件和对象三种存储资源服务,满足结构化、非结构化和半结构化等多类型数据存取对IOPS、带宽及海量扩展需求;提供快照、精简配置、远程复制、多租户等丰富的企I级数据服务特性,帮助企业轻松应对业务快速变化时的数据灵活、可靠存取需求。同时,提供基于标准接口协议的开放API,天然融入OpenStack云基础架构及Hadoop大数据生态[2]。
4)容量规划
根据实际数据存储的容量需求,总体配置1540TB裸容量,满足1PB可用容量需求,分布式存储系统最大可达到4096节点,200PB容量,本期配备11个节点,兼容未来5年内数据增长对存储容量的冗余需求。
5)存储网络拓扑
存储的组网架构包括管理网络、前端业务网络和后端存储网络。管理网络用于云存储系统与用户维护网络对接,为系统管理员提供管理UI,完成系统配置、租户管理、资源管理、服务发放等业务操作,以及告警/性能/拓扑等维护操作。同时可以汇聚所有物理节点的Mgmt接口,提供远程设备维护能力,如远程登录设备虚拟KVM、查看温度、电压等硬件运行数据等。前端业务网络用于云存储系统与用户网络对接,为租户用户提供租户UI,完成资源申请、使用情况查询等操作,并处理租户客户端或API发送的业务请求。
后端存储网络用于云存储节点间内部互联,提供HA(High Availability)组件如DSS(Data Service SubSystem)的心跳通信,以及各组件之间的内部通信和数据交互(图3)。
6)地质大数据中心建设阶段规划
数据中心建设是一个中长期建设的过程,可按数据存储中心、数据处理中心、数据应用中心、数据运营服务中心五个阶段逐步实施(图4)。
6 地质大数据中心建设模式
地质大数据中心工程可以考虑参其它单位的模块化数据机房建设模式:系统运营商投资建设,应用单位购买服务。
由于项目建设初期资金投入大、运营周期长、维护难度大,为了降低项目建设初期资金筹措风险以及后期运行维护压力,可借鉴目前硬件商推荐的“系统运营商投资建设,政府购买服务”。
该方案的优点在于:在系统运营服务期内,政府只需要按年向中标的系统运营商支付系统建设运营服务费即可,大大降低财政资金压力;同时,不需要再成立专门的平台维护机构,专注于业务处理,提高行政效率。
7 结束语
在国家大数据互联网建设的背景,针对目前地质数据存储、管理存在的问题和安全隐患提出,为了保障数据安全,建立地质大数据中心,挖掘深层数据信息,提高办公效率,解决存在的隐患问题。通过对数据中心构建的可行性分析认为是可行的,地质大数据中心的构建推动地质大数据挖掘、综合利用,促进地质数据资源服务全行业的积极作用。
参考文献: