前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据分析师范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
1.数据采集
了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。比如:
Omniture中的Prop变量长度只有100个字符,在数据采集部署过程中就不能把含有大量中文描述的文字赋值给Prop变量(超过的字符会被截断)。
在Webtrekk323之前的Pixel版本,单条信息默认最多只能发送不超过2K的数据。当页面含有过多变量或变量长度有超出限定的情况下,在保持数据收集的需求下,通常的解决方案是采用多个sendinfo方法分条发送;而在325之后的Pixel版本,单条信息默认最多可以发送7K数据量,非常方便的解决了代码部署中单条信息过载的问题。(Webtrekk基于请求量付费,请求量越少,费用越低)。
当用户在离线状态下使用APP时,数据由于无法联网而发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。
在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。
2.数据存储
无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。比如:
数据存储系统是MySql、Oracle、SQL Server还是其他系统。
数据仓库结构及各库表如何关联,星型、雪花型还是其他。
生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。
生产数据库面对异常值如何处理,强制转换、留空还是返回错误。
生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。
接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。
数据仓库数据的更新更新机制是什么,全量更新还是增量更新。
不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。
在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。
3.数据提取
数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。
从哪取,数据来源——不同的数据源得到的数据结果未必一致。
何时取,提取时间——不同时间取出来的数据结果未必一致。
如何取,提取规则——不同提取规则下的数据结果很难一致。
在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。
其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。
4.数据挖掘
数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:
没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。
没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。
挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。
在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。
5.数据分析
数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。
6.数据展现
数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。基本素质要求如下:
工具。PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。
形式。图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。
原则。领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。
场景。大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。
最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。
7.数据应用
数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。
数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。
【关键词】大数据;大数据营销;京东
一、数据分析时代演变历程
(一)数据1.0时代
数据分析出现在新的计算技术实现以后,分析1.0时代又称为商业智能时代。它通过客观分析和深入理解商业现象,取缔在决策中仅凭直觉和过时的市场调研报告,帮助管理者理性化和最大化依据事实作出决策。首次在计算机的帮助下将生产、客户交互、市场等数据录入数据库并且整合分析。但是由于发展的局限性对数据的使用更多的是准备数据,很少时间用在分析数据上。
(二)数据2.0时代
2.0时代开始于2005年,与分析1.0要求的公司能力不同,新时达要求数量分析师具备超强的分析数据能力,数据也不是只来源于公司内部,更多的来自公司外部、互联网、传感器和各种公开的数据。比如领英公司,充分运用数据分析抢占先机,开发出令人印象深刻的数据服务。
(三)数据3.0时代
又称为富化数据的产品时代。分析3.0时代来临的标准是各行业大公司纷纷介入。公司可以很好的分析数据,指导合适的商业决策。但是必须承认,随着数据的越来越大,更新速度越来越快,在带来发展机遇的同时,也带来诸多挑战。如何商业化地利用这次变革是亟待面对的课题。
二、大数据营销的本质
随着顾客主导逻辑时代的到来以及互联网电商等多渠道购物方式的出现,顾客角色和需求发生了转变,世界正在被感知化、互联化和智能化。大数据时代的到来,个人的行为不仅能够被量化搜集、预测,而且顾客的个人观点很可能改变商业世界和社会的运行。由此,一个个性化顾客主导商业需求的时代已然到来,大数据冲击下,市场营销引领的企业变革初见端倪。
(一)大数据时代消费者成为市场营销的主宰者
传统的市场营销过程是通过市场调研,采集目前市场的信息帮助企业研发、生产、营销和推广。但是在大数据以及社会化媒体盛行的今天,这种营销模式便黯然失色。今天的消费者已然成为了市场营销的主宰者,他们会主动搜寻商品信息,货比三家,严格筛选。他们由之前的注重使用价值到更加注重消费整个过程中的体验价值和情境价值。甚至企业品牌形象的塑造也不再是企业单一宣传,虚拟社区以及购物网站等的口碑开始影响消费者的购买行为。更有甚者,消费者通过在社交媒体等渠道表达个人的需求已经成为影响企业产品设计、研发、生产和销售的重要因素。
(二)大数据时代企业精准营销成为可能
在大数据时代下,技术的发展大大超过了企业的想象。搜集非结构化的信息已经成为一种可能,大数据不单单仅能了解细分市场的可能,更通过真正个性化洞察精确到每个顾客。通过数据的挖掘和深入分析,企业可以掌握有价值的信息帮助企业发现顾客思维模式、消费行为模式。尤其在今天顾客为了彰显个性,有着独特的消费倾向。相对于忠诚于某个品牌,顾客更忠诚与给自己的定位。如果企业的品牌不能最大化地实现客户价值,那么即使是再惠顾也难以保证顾客的持续性。并且,企业不能奢望对顾客进行归类,因为每个顾客的需求都有差别。正是如此,大数据分析才能更好地把握顾客的消费行为和偏好,为企业精准营销出谋划策。
(三)大数据时代企业营销理念———“充分以顾客为中心创造价值”
传统的营销和战略的观点认为,大规模生产意味着标准化生产方式,无个性化可言。定制化生产意味着个性化生产,但是只是小规模定制。说到底,大规模生产与定制化无法结合。但是在今天,大数据分析的营销和销售解决的是大规模生产和顾客个性化需求之间的矛盾。使大企业拥有传统小便利店的一对一顾客关系管理,以即时工具和个性化推荐使得大企业实现与顾客的实时沟通等。
三、基于数据营销案例研究
———京东京东是最大的自营式电商企业。其中的京东商城,涵盖服装、化妆品、日用品、生鲜、电脑数码等多个品类。在整个手机零售商行业里,京东无论是在销售额还是销售量都占到市场份额一半的规模。之所以占据这样的优势地位,得益于大数据的应用,即京东的JDPhone的计划。JDPhone计划是依据京东的大数据和综合服务的能力,以用户为中心整合产业链的优质资源并联合厂商打造用户期待的产品和服务体验。京东在销售的过程中,通过对大数据的分析,内部研究出一种称为产品画像的模型。这个模型通过综合在京东网站购物消费者的信息,例如:年龄、性别、喜好等类别的信息,然后进行深入分析。根据分析结果结合不同的消费者便有诸如线上的程序化购买、精准的点击等营销手段,有效的帮助京东实现精准的营销推送。不仅如此,通过对于后续用户购物完成的售后数据分析,精确的分析商品的不足之处或者消费者的直接需求。数据3.0时代的一个特征便是企业不在单纯的在企业内部分析数据,而是共享实现价值共创。所以,京东把这些数据用于与上游供应商进行定期的交流,间接促进生产厂商与消费者沟通,了解市场的需求,指导下一次产品的市场定位。总的来说,这个计划是通过京东销售和售后环节的大数据分析,一方面指导自身精准营销,另一方面,影响供应商产品定位和企业规划,最终为消费者提供满足他们需求的个性化产品。
四、大数据营销的策略分析
(一)数据分析要树立以人为本的思维
“以人为本”体现在两个方面,一方面是数据分析以客户为本,切实分析客户的需求,用数据分析指导下一次的产品设计、生产和市场营销。另一方面,以人为本体现在对用户数据的保密性和合理化应用。切实维护好大数据和互联网背景下隐私保护的问题,使得信息技术良性发展。
(二)正确处理海量数据与核心数据的矛盾
大数据具有数据量大、类型繁多、价值密度低和速度快时效高的特点。所以在众多海量的数据中,只有反映消费者行为和市场需求的信息才是企业所需要的。不必要的数据分析只会影响企业做出时代Time2017年第04期中旬刊(总第657期)正确的决策。鉴于此,首先企业需要明确核心数据的标准;其次企业要及时进行核心数据的归档;最后要有专业的数据分析专业队数据进行分析,得出科学合理的结果以指导实践。
(三)整合价值链以共享数据的方式实现价值创造
目前,高校专业课程教学方式大多以“知识点”为核心组织教学,学生主要以学习知识为主,工程应用实践机会较少。项目沉浸式教学就是让学生参与到企业的实际项目,将所学的知识在完成实际项目的过程中,在企业导师的指导下和同伴交流中进行应用、整合和重构,其实质就是一种结合构建主义学习理论和情境学习理论的探究性学习模式。目前国际上相关的项目式教学理论还有CDIO和POPBL[1-2],其中CDIO代表构思、设计、实现和运作,该理念是以麻省理工学院为主的大学在2000年创立的,旨在通过以完整的工程项目为载体,将传统的课程教学与企业工程项目紧密结合;POPBL表示面向项目和基于问题的学习方式,是基于问题的学习方式PBL的进一步提升,不但通过问题引导学生学习,还通过实际项目锻炼学生的思维能力和实践能力。这几种理念在现实教学中的应用都存在一定的局限性。
在国内,清华大学、大连理工大学等也都采纳CDIO的教学理念进行教学改革。其中,清华大学工业工程系通过数据结构及算法、数据库系统原理等必修基础课程进行实践,提炼出一个以院系整体为单位的知识传播和创新模式[3]。大连理工大学努力探索构建CDIO与创新教育融合的新体系,从课程体系、教育模式等多方面入手,以达到培养创新型工程科技人才的目的[4]。尽管如此,这些基础课程的实践与工程实际的要求还有一定的距离。为此,达内等培训公司要求其师资需要有多年的行业经验,在基本的知识授课结束后指导学生到合作企业进行实训,这在一定程度上可以解决项目沉浸式教学,但作为一个培训项目,知识的系统性还有一定的改进空间。IBM公司最近几年与一些大学商(管理)学院合作的A100计划,鼓励高校专业教师与企业合作,带领学生深入企业,利用比较成熟的数据分析工具帮助企业解决实际问题,但这种方法对指导教师的实践经验、时间投入等都有较高的要求,一般大学的专业师资难以满足。
数据分析类课程包括商务智能、大数据核心技术、客户智能等较多的理论知识,且有一定难度,这些知识在实际应用中有一定的技巧,需要大量的实践才能掌握其中的精髓。实施项目沉浸式教学,为减少前期学生学习的难度,通过学习已经完成的项目文档,通过实验方式了解项目需要的知识和技能,并利用仿真型的项目练习。在此基础上,可以进入真实企业项目,摸索数据分析全过程中遇到的问题以及解决技巧,从而增强学生解决数据分析问题的能力。
随着社会对数据分析类人才的需求增加,很多高校都开设了数据分析类的课程,培养数据分析师或数据挖掘工程师,因此选择数据分析类课程进行教学改革,有一定的代表性和前沿性。
2 项目沉浸式教学的内涵
如何克服传统专业课程教学脱离企业所需能力的培养疼点,传统的产学结合方式受到了挑战。项目沉浸式教学方法结合高校教学与达内等企业培训两者的优点,深入到企业实际项目,把企业真实的项目实施过程融入教学情境,大大增强了教学的实战性,使学生适应企业的需求,创新能力有实质性的提高。
项目沉浸式教学的主要目的是通过企业项目培养学生的技能,近年来一些教学改革的措施等大多在一定程度上改善了知识传授的问题,而如何培养使用这些知识解决实际问题的技能却是学校难以解决的。有些高校老师推出第二课堂,组织学生自发研究科研问题,这在一定程度上增强了学生对问题的深入思考和创新能力,但这些问题多是实际问题的简单抽象,比较适合做理论研究。项目沉浸式教学就是通过课程指导教师与企业合作,利用掌握的专业知识解决企业的实际问题,然后与企业专家一起指导学生浸入实际项目,引导学生掌握解决数据分析实际问题的必要技能和思维方法。
项目沉浸式教学与项目(project)教学法还是有一定的区别。项目教学法中的项目是教师虚拟的实际问题,是实际问题的抽象和简化,无论是数据以及分析数据的要求都与实际项目不同。在一般的项目教学法中,学生学习知识的方式主要是通过完成课程内布置的课程项目的要求,最终的评估也是由任课老师进行。一般来说,课程项目需求明确,考虑的因素较少且理想化,背景相对比较简单,用到的知识也基本是课内所学,很少涉及通过多次试错得到的技能。项目沉浸式教学需要围绕客户的问题,对庞杂的业务数据进行分析,得到辅助用户决策的有用知识。在此复杂的训练过程中,无论数据的选择、数据的净化以及有效分析方法的选择都没有现成的答案,需要学生在掌握坚实的理论知识基础上,通过多次比较、探索和讨论才能得到有价值的知识,并最终解决用户的问题,而不是仅仅应对课程考核。
与一般的项目教学相比,项目沉浸式教学面对的项目是要解决企?I实际业务遇到的问题。相对于课程练习,学院与企业合作的项目应用背景更加复杂,不确定因素更多,而且需要用到的知识不仅是课内学习的知识,还需要解决具体问题的经验技能。数据分析项目需要经过以下几个阶段:提出问题、获取并清洗数据、数据建模、评价与部署。在这4个阶段中,各个阶段都没有固定的解决方法可以简单套用,学生需要以现有知识为基础,通过模仿学习、试错、反复实验,才能积累其中必要的技能。
项目沉浸式教学偏重于实践,在训练学生技能的同时,也要对学生的思维方法进行训练。在数据分析的过程中,为了保证数据分析的质量,有些思维方法是必要的,通过指导教师对实际问题的示范讲解,结合实际项目的沉浸式教学,学生需要深刻地领会这些思维方法并灵活应用,从而使学生能与企业的需求接轨[5]。
3 实施项目沉浸式教学的条件
在项目沉浸式教学中,学生在项目中是主角,指导教师和企业的专家也会在项目开展过程中对总体方案以及具体步骤进行指导,引导学生进行合理的分工、思考、讨论和具体问题求解,他们更多地起到示范、引导和评判的作用。
项目沉浸式的教学方式在复旦大学软件学院已经尝试多年,结合学院卓越工程师的人才培养,实践检验表明这种教学改革对于培养动手能力强的创新人才是非常有效的。我们与多个企业合作过数据分析项目,与主流的业界企业有多年的合作,了解实际项目的开展过程以及所需的能力,熟悉项目沉浸式教学的基本过程和技巧。
校内的指导教师需要有一定的项目经验,在学生完成项目的过程中,给予正确的指导,帮助学生完成项目。我们与多个企业合作过数据分析项目,与主流的业界企业有多年的合作,了解实际项目的开展过程以及所需的能力,熟悉项目沉浸式教学的基本过程和技巧。对于数据分析项目来说,在识别项目需求和目的、数据收集与处理、对比多种分析模型、评估调整优化和部署等阶段,每个阶段都需要有相关的经验、技巧和思维方法。指导教师的职责就是在每个阶段给予学生适当的引导,能在学生遇到难题时给与实例、启发和思路的指导,对分析结果给与合适的评价,而不是直接提供答案。
对学生来说,项目沉浸式教学对自?W能力、敢于挑战困难以及对数据分析具有较强的兴趣更加看重。这个学习过程需要耗费很多的时间和精力,对有功利心和速成思想的同学将是一个挑战。此外,数据分析项目一般都需要学生以小组为单位完成,因此学生之间的协作能力也非常重要。团队之间的交流意识也会使学生尽快适应数据分析项目的不同角色。
对合作企业的专家来说,由于他们有实施分析型项目丰富的经验,对各类数据的处理针对特定的分析需求有实战性的思路和技能,但这些经验很难直接表达清楚。他们可以针对学生的问题,结合实际背景给出可行的建议,能够从指导教师不同的角度引导学生,在一定程度上弥补指导教师经验不足的短板,帮助学生在完成实际项目的过程中,综合考虑多种因素,选择最合适的解决方案。
综合来说,项目沉浸式教学的重点还是培养学生完成项目,对所学的知识能够活学活用。因此,相较于其他教学方式,项目沉浸式教学对学生的要求更高,需要指导教师、企业导师和学生紧密配合。
4 项目沉浸式教学的过程
项目沉浸式教学的重点是通过项目实践培养学生技能,通过项目提高学生应用知识的能力。对于数据分析类等应用能力要求很高的课程,项目沉浸式教学的实施过程主要分为项目预热、项目实施和项目总结等3个阶段。
(1)项目预热。项目启动阶段对于项目沉浸式教学的开展具有重要意义,在专业知识学习结束后,可以把以前指导教师做过的项目整理成案例和实验指导书,由指导教师示范整个项目的开展过程,突出项目过程中的问题以及解决关键所在。然后把数据提供给学生,根据实验指导书的要点由学生模仿数据分析的过程。这个阶段学生遇到的问题会比较少,主要是熟悉数据分析项目思路。
这个阶段也可以用企业专家提供项目案例和相关资料,启发学生补充学习课堂教学忽略的知识,并通过项目资料的学习和练习,初步了解数据分析项目常用的思维方法以及处理过程常见的问题。
(2)项目实施。项目实施过程是整个教学中最重要的环节。在该过程中,学生对于已经掌握的知识在实际问题中加深理解。还需要学习项目分析过程遇到的新知识和新工具,这就要求学生有足够强的学习能力。例如,学生在进行数据分析时,需要根据已学算法基础或者学习新算法,选择合适的数据分析算法,建立合适的数据分析模型,通过对比分析,不断完善改进问题的结果。此时导师就需要根据项目经验引导学生对问题的理解、数据的预处理、建模优化以及评估等阶段的处理。学生在完成项目的过程中,需要将项目中新用到的知识、技能进行整合,构建自己的知识网络,并结合实际项目深入理解、巩固和提高。
对于学生来说,项目实施是一个探索的过程。学生在完成项目的过程中,会遇到具体业务、数据预处理、比较选择合适的分析算法等很多实际问题,而这些问题的解决方法在课堂上、书本上没有讲授,或者根本没有明确的答案,需要学生不断地进行探索、思考,这个过程是积累宝贵的实践经验,培养实践能力的过程。
(3)项目总结。项目总结阶段是一个不可缺少的环节,起到提炼、强化技能,扩展知识体系的作用。这个阶段可以帮助学生对整个项目进行总结回顾、理清的过程,突出项目中遇到的问题和求解方法,从而作为新的案例和实验素材。
上述项目沉浸式的教学过程是一个反复的过程,每次顺利地完成一个项目,指导教师也会增强对实际项目的理解,并积累更多实践经验;而学生顺利地完成项目,会增强对业务的认识并强化数据分析的技能。
这里以我们与IBM合作的SUR项目“基于Spark的文件传输网络设计以及负载优化研究”为例,简要说明项目沉浸式的教学过程。这个项目首先由IBM研究院的专家根据多年的实践经验提出,目的是优化文件传输网络的设计,在工程实际有一定的应用需求。针对这个需求,我们与IBM专家一起,组建了由3名复旦大学软件学院高年级本科生组成的项目小组,通过多次磋商,进一步细化了文件传输网络的功能需求。然后通过对实际文件传输网络的分析,摸索其中节点的数据流向和流量,抽象出便于分析的文件传输网络模型。通过仿真分析,研究这个模型的特点和参数设计。在此基础上,从多种分析方法中,通过比较发现深度学习神经网络比较适合预测网络节点之间文件传输网络流量的预测,并利用Spark实现神经网络的高速训练和计算。有关深度学习、Spark等知识都需要学生自学,并用Python语言实现实验模型,通过多次比较调优。这个过程历经数月,师生共同努力,多次修改设计,其中IBM专家提供了相关的资料,并根据经验对每个阶段的工作提出了建议,最后得到比较可行的方案。
5 项目沉浸式教学建设存在的问题
项目沉浸式教学的理念对教师和学生都有较高的要求,目前在高校的专业课程教学中还存在一些需要解决的问题。
(1)专业知识的教学问题。项目沉浸式教学对于学生的专业基础知识和动手能力有一定的要求。当前很多高校的专业课程注重基础知识的培养,脱离了实际应用背景,而这些知识的掌握只有实际应用才可以深入理解。这就要求指导教师能根据实际项目应用的需要,梳理相应的数据分析知识体系,帮助学生对于实际问题的分析奠定比较扎实的专业基础知识。
(2)学生时间的协调问题。学生在完成实际项目的过程中,需要结合所学多门专业课程的知识,因此项目沉浸式教学需要学生能拿出一定的时间,自学项目要求的额外知识,并通过反复试错完成项目。我们建议项目沉浸式教学与学校的各种科创项目结合起来,根据学生做项目的成果,满足一定的条件就给予一定的学分,以便进一步调动学生的积极性。
(3)项目风险管理问题。由于学生缺乏实际项目的研究经验,因此学生参与企业的实际分析项目具有一定的风险。指导教师与企业专家合作,吸引有一定实践经验的员工?⒂胂钅浚?承担项目关键问题,学生刚开始介入项目时可以根据分工承担相对容易的工作,并逐步承担有难度的数据分析环节,培养数据分析在各个岗位和阶段需要的基本技能。
6 结 语
关键词:大数据;计算机;数据备份;安全保障
中图分类号:TP311
文献标识码:A
文章编号:1009-3044(2017)10-0025-01
数据信息作为时代的信息管理标志其安全性必须收到更大的重视,数据信息的安全存储系统尤为重要,防止信息数据的丢失的管理备份系统更为重要。因此能够将数据信息妥善管理,保证其正常工作的技术相当重要,但当数据真正丢失或不可避免地出现问题以后能够尽快地将其找回或者是在有效的时间内将其完整地恢复,以确保整个计算机系统能够正常工作的技术更是必不可少的。
1.数据备份概念及其特点
数据备份指的是将计算机系统的所有数据或者是部分重要数据借助某一种或多种手段从计算机一个系统复制到另一个系统,或者是从本地计算机存储系统中复制到其他的存储系统中。其目的就是保障系统可用或者是数据安全。防止由于人为的失误或者是系统故障问题亦或是自然灾害等方面的原因造成系统数据的安全性无法保障的问题。数据备份更重要的原因是数据信息的多重保存以备不时之需。
数据备份按照备份的实现方式可以分为单机和网络两种备份方式,传统的备份就是单机备份针对计算机本身将数据进行异地存储,现代比较流行的就是网络备份。这是针对整个网络而言的,这种方式的备份较为复杂,是通过网络备份软件对存储介质和基础硬件存储设备的数据进行保存和管理。由于网络备份是在网络中进行数据备份的,因此也就不同于普通的传统单机备份,是包含需要备份的文件数据和网络系统中使用到的应用程序以及系统参数和数据库等内容的。
数据备份的作用在于:一方面,在数据受到损害时对数据进行还原和恢复;另一方面,数据信息的历史性、长久保存,方便数据的归档。
2.数据备份存储技术
备份换言之就是数据的再存储,因此备份技术是存储技术的重要内容之一,但是数据备份存储作为计算机系统技术与简单的备份区别很大。计算机数据备份存储技术时更为全面、完整、稳定安全的数据信息的备份,是网络系统高效数据存储的,也是安全性较高的网络备份。
文件存储作为最基础的数据类型是随机存储在硬盘上的数据片段和文档资料,这些存储的数据文档、报表甚至是作为数据库文件的应用程序等等在存储一定的量就会出现超出容量的情况因此对其的整合是必要的。这样的整合是将存储的各类数据或者是数据库以一个顺序和程序的形式出现,帮助人们解决备份存储的空间问题,技术问题以及成本问题。更能将工作人员的连续数据维护和监控从繁重的工作中解放出来。
3.保障计算机数据网络备份的安全性策略
通过网络传输的备份数据在传输过程和传输路径方面必须确保数据的安全性。若不能保证数据的安全那么一些企业的关键数据和重要应用程序就会受损,甚至是失去了备份的意义。因此相比单机备份而言网络备份更要确保安全传输和安全存储。
首先确保备份数据的机密性。数据信息的网络备份不能被非法用户随意获得,因此在数据备份过程和传输过程中必须防止数据的机密性被破坏。一般数据备份常用的方法是加密。必须保证是数据拥有者才能使用这些数据信息,关键的数据信息的加密工作相比更加严格。数据内容不容有失,甚至是数据的相关名称和代码等也不能随便被非法进入系统的人获得才是最能保障数据安全的方式。
此外,在数据网络传输存储之前一定要确认接受信息一方的真实性,核实双方信息是否匹配,一定要在双方身份确认之后才能对网络的数据信息进行发送和接受,这样既避免了欺诈行为又确保了网络中间不可信的因素存在使数据信息遭到破坏。
其次。确保备份数据的完整性。数据备份存储不是一个简单的过程,数据信息是通过设备和网络之间传输来完成备份数据存储的。这一个成必须要保障所传输的信息完整地被上传而且这些数据信息不能被其他方拦截和篡改,以破坏备份数据信息的内容和属性等。此外在存储时也要保障数据信息的正确无误完整保存。
再次,备份存储的数据可用性。数据存储必须是可用的,而且是计算机资源用户合理合法的使用。对于网络备份系统的信息和信息用户系统的信息是完全一致的,是可用的。备份数据资料必须在合法用户需要时可以随时安全使用。这是网络数据备份存储必须保证的。
关键词:分布式数据流,分布式数据流系统
近年来,数据流查询处理是数据库研究领域的一个热点方向。数据流的特征可概括为无限性、瞬时性、流速不定性、语义不定性(数据模式随时可能改变)等。针对数据流的以上特征,不考虑将数据流存储在传统的关系数据库中,数据流上的查询是近似查询、连续查询(continuousquery)。目前,数据流管理系统中所采用的近似查询的方法主要有以下几种:随机抽样(randomsampling)、数据写生(sketching)、直方图(histograms)、小波变换(wavelets)、窗口(windows)等。如何保证查询的服务质量成为上述各种近似查询方法必须考虑的问题。数据流上的查询处理给人们提出了一个很大的难题——对处理器、内存等系统资源非常苛刻的需求。到目前已经出现了许多数据流的原型系统:单节点(单CPU)上的数据流管理系统,如Stanford大学的Stream[1]系统、布朗大学的Aurora[2,3]系统等;有分布式数据流处理系统,如MIT的Medusa[4,5]项目,Brandeis、Brown、MIT的合作项目Borealis[6,7]等。这些项目在数据流处理的查询语言、近似查询算法、保证服务质量的策略,以及系统的负载均衡等方面做了大量的工作,但同时也揭示出在分布式数据流处理系统中更多值得研究的问题。本文将对基于structuredoverlaynetwork的分布式数据流系统的近似、自适应查询处理进行研究,给出查询处理模型。
1集中式数据流查询处理及分布式散列表、Chord路由协议的相关说明
1.1数据流查询处理相关的概念定义以及假设说明
集中式数据流查询处理的体系结构由两部分构成,即查询计划生成子系统(FRONT-end)以及查询执行子系统(BACK)。其中两部分与关系数据库系统相比均有较大的区别。查询执行子系统如图1所示。
通过这种散列,将系统当前的所有查询映射到节点空间,然后由该节点上的查询处理器完成到达的查询。
b)查询内并行处理方式。在系统的范围内,由操作符、输入均输出记录队列、维持操作符状态的大纲信息构成网状结构。
c)命名发现机制。参与查询处理的节点有全局惟一命名participant(如IP地址等)。当在一个节点上面定义一个新的流模式、数据流、操作符,这些实体均隶属于其命名空间。该实体可以采用下面的命名方式:(participant,entity-name)。为了了解系统中数据流模式的定义、系统中的数据流、数据流的到达(存放)位置、系统中哪一部分查询执行,就要考虑在catalog中存放必要的数据。其中catalog信息是通过在DHT下分布式存储的,前面已经分析了catalog信息的存储问题。
系统中对每一个数据流、每一个查询、查询中的算子、算子大纲、节点间输出队列均有惟一的命名。查询处理器位于DHT之上。同查询相关的数据粒度限定为数据流、输入数据源(记录集)、节点间传输数据队列、算子大纲,而不是针对单个记录而言。对于这些粒度的数据可以通过在DHT中通过put(namespace,object)、get(namespace)、multicast(namespace)消息得到。
对于操作符(算子)在节点间迁移的情况,可以提供远程算子定义接口。当节点A上查询执行的下一步join操作要求节点B的查询执行器完成时,节点B接收到远程调用请求,初始化join算子,将节点A上发出调用请求算子的状态信息(大纲,synopsis)作为参数传递给B,然后就可以在节点B上进行join算子运算。查询内并行就是有若干这样的节点间的算子迁移,使一个查询计划得以在多节点的算子之间并行执行。
对于基于滑动窗口的数据流处理的join操作,如果有两个数据流,查询处理基于时间的窗口,进行join操作的两个数据流时间范围较长,那么要求在一个节点上维护操作符的状态信息将会变得非常困难,join算子状态信息存储要求的内存空间可能非常大,则会进行操作符分割操作。在该节点的近邻节点上同时进行join操作,最终将各个节点上的状态信息进行合并操作即可。算子迁移、算子合并、算子分割等操作在基于DHT的系统上实现具有良好的扩展性。DHT层为数据流处理系统在荷载大的情况下进行负载脱落、查询计划间并行、查询计划内并行提供了可以随意扩展的基础平台。
3结束语
本文给出了基于structuredoverlaynetwork的分布式数据流查询处理模型,考虑了对于到达系统的大量数据流的分片存放策略;同时在查询处理中对查询内的并行、查询间的并行、算子在分布式节点的迁移等提供了很好的支持。对系统catalog目录信息的分布式存放维护,从而消除了单节点查询处理引擎在资源(CPU、内存)上的约束。本文没有考虑分布式查询模型在网络带宽资源方面的问题,这将是以后要完善的地方。基于结构化覆盖网的分布式数据流查询模型提高了系统性能、查询服务质量,并且基于Chord实现,具有很好的扩展性。
参考文献:
[1]BRIANB,SHIVNATHB,JENNIFERW.Modelsandissuesindatastreamsystems[C]//Procofthe21stACMSymposiumonPrinciplesofDatabaseSystems,2002.
[2]BALAKRISHNANH,BALAZINSKAM,CARNEYD,etal.RetrospectiveonAurora[J].VLDBJournal,2004,13(4):370-383.
[3]ABADID,CARNEYD,STONEBRAKERM,etal.Aurora:anewmodelandarchitecturefordatastreammanagement[J].VLDBJournal,2003,12(2):120-139.
[4]ZDONIKS,STONEBRAKERM,CHERNIACKM,etal.TheAuroraandMedusaProjects[J].IEEEDataEngineeringBulletin,2003,26(1):3-10.
[5]CHERNIACKM,BALAKRISHNANH,BALAZINSKAM,etal.Scalabledistributedstreamprocessing[C]//Procofthe1stBiennialConferenceonInnovativeDataSystemsResearch.Asilomar,California:[s.n.],2003.
[6]ABADIDJ,AHMADY,BALAZINSKAM,etal.ThedesignoftheBorealisstreamprocessingengine[C]//Procofthe2ndBiennialConferenceonInnovativeDataSystemsResearch(CIDR’05).Asilomar:[s.n.],2005.
[7]TATBULN,ZDONIKS.Dealingwithoverloadindistributedstreamprocessingsystems[C]//ProcofIEEEInternationalWorkshoponNetworkingMeetsDatabases(NetDB’06).Atlanta:[s.n.],2006.
[8]Distributedhashtableslinks[EB/OL].