首页 > 文章中心 > 大数据时代的优缺点

大数据时代的优缺点

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇大数据时代的优缺点范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

大数据时代的优缺点

大数据时代的优缺点范文第1篇

关键词:大数据;高校;教育管理;创新

我国的高校一直都是为我国培养各类高精尖人才的摇篮,并且也一直是我国科技人文方面的弄潮者、带头人。如今我国进入了大数据时代,大数据时代是一个信息爆炸的时代,在这样的时代当中利与弊都是相当明显的,一方面大数据时代的到来可以让学校在教育管理方面变得更加轻松利用互联网就可以完成许多以往极为繁琐的问题,并且无论是在学校与学校之间的沟通交流还是学校与学生之间的沟通交流都会变得极为便利。但另一方面大数据时代的来临也是高校对于自身教育管理模式不得不做出新的审视,从而对高校教育管理进行创新。今天我们就来谈一谈关于大数据时代下高校教育管理创新的相关问题。

一、大数据时代对高校教育管理的创新

(一)大数据时代对高校教育管理的理念与思维进行创新

在传统的教育模式当中教材的制定通常都是少数教师经过自身的教学经验对教材进行较为主观的制定,就算其本身有着调研程序的存在,但是也是具有极大局限性的,无法完整且真实的反应全国教育效果的数据统计出来,因此传统模式下,教材的制定是具有很大局限性的。大数据时代的来临则彻底改变了这样的情况,首先在大数据时代当中我们通过高效的网络调查与统计可以极为迅速的将现有的教材当中,哪一部分是让学生喜欢的具有良好教学效果的,哪一部分又是学生不喜欢的,通过这样的方式我们就可以在最短的时间内找出教材当中的优点和缺点,这些优缺点往往都是较为客观的并不带有太多的主观意识。其实大数据对于教材编写的影响仅仅是大数据对于高校教育管理影响的一个侧面,无论是对于学生经常进入的误区统计,还是对于各个教室教育效果的统计,都在对整个教育管理的理念与思维进行着根本的改变。

(二)大数据时代对高校教育模式进行了创新

在传统的高校教学当中尽管大部分高校课程都是开放式,可以让非本专业的学生进行旁听,但是这种模式却依旧使得教学资源较为集中化,一个高校的教育资源仅仅能集中在其高校本身而无法向其他高校扩散。但是在大数据时代,这种集中化的教学模式将得以根本性的改变,教师可以通过互联网将自己的课程上传到网络当中让学生在网络中听课,一方面可以让学生反复的听课以加深印象和掌握其中的重点,另一方面这种网络化教学所面对的受众是更为广泛的,无论是高校内在读的学生还是其他高校的学生乃至社会人员都可以进行听课,从而使得高校教育不再仅仅限于其一所大学之内,如今这样的网络化教学模式实际上已经悄然来到,例如目前最为流行的MOOC,MOOC集中了优质的教学资源使学生无论身在哪一个大学内都能享受到顶级大学的教学资源。MOOC对于我国的教学资源不均衡现象有着很好的改善,它除了具有其他在线课程教学所具备的优点之外还具备着一些其独特的优点。其实这种在大数据时代下所产生的网络教学模式都与高校教育管理的影响也是十分深远的,使得其不仅需要对传统的课堂教学进行管理,其同样需要将精力放在网络教学方面,以保证其整体的良好教学效果。

(三)大数据时代对高校教育的评价模式进行了创新

在教育评价中利用大数据进行分析,运用技术层面来对于教学进行评价与分析从而对整体的教育综合质量进行提升。大数据时代的到来使得其对于教育的评价不在局限于主观的臆断和个人的经验之谈而是变为了一种具有数据支撑的客观评价,其可以通过在各类教学平台上学生对于各个导师课程的点击量进行统计也可以活跃度调查来对整个教育评价进行数据支持。

二、大数据时代下高校教育管理的发展趋势

(一)增加高校教育管理的预知性

未卜先知或许听起来是较为玄幻的一种说法,但是这种说法在未来的大数据时代当中却变得越来越有依据和底气。我们通过对大数据的分析可以对任何事物的未来进行一个较为客观的判断,虽然这个判断未必是百分之百正确的,但是这样的可能性却是极高的。对于高校教育管理员其实也是如此,高校可以通过对学生与教师各类日常生活活动以及教育活动的数据分析找到学生目前所普遍存在的问题,这里包括了在教学活动中和生活中的问题,并且也可以对未来这些问题的发展趋势做出一个较为合理的判断,其整个过程都是有着各类数据作为支撑的,因此其准确性还是能够有所保证的。大数据的预知性在未来必然会在高校的教育管理当中被越来越多的应用。

(二)高校教育管理将要求教师需要一定的数据分析能力

在未来的教学活动当中高校教师不仅需要优秀的教学能力,其还必须拥有一定的数据分析能力,因为在未来摆在教师面前的不仅仅是一个个的课程方面的难点重点,还包括了各类学生的数据信息,教师必须通过对于这些数据的分析来得出在未来的教学活动当中应当侧重于哪里,又将精简于哪里,从而使得其教学更加具有效率和实用性。

三、结束语

大数据时代的到来对于高校教育管理工作带来影响是一个必然的存在,并且在未来高校的教育管理模式必然也会以创新作为出路,只有在教育管理方面进行创新才可以使得高校的教育更加具有效率,也更加能够使得其培养出的人才对社会更加有益。

参考文献:

[1]中国互联网络信息中心.第34次中国互联网络发展状况统计报告[R].2014.

[2]教育部.教育信息化十年发展规划(2011-2020年)[Z].2012.

大数据时代的优缺点范文第2篇

[关键词]大数据;信息技术;数据处理

[中图分类号]TP274[文献标识码]A

20世纪中叶计算机的诞生标志着电子时代正式开始,从此人类社会开始生产并存储各类型的数据。经过数次计算机技术革命,单位面积所能存储的数据量大大提高。近年来,由于WEB2.0应用的全面爆发,网络参与者同时也成了网络信息的制造者,由WEB2.0带来的大规模非结构化数据开始呈现出几何增长。因此,麦肯锡公司在2011年的报告《Big Data:the Next Frontier for Innovation》[1]中,对这种密集型数据爆炸的现象成为“大数据”时代的到来。

1大数据的概念

大数据的概念并不是凭空出现的,它的前身是海量数据。但两者之间有所区别。海量数据强调了数据量的规模之大,并没有对其特性进行定义。而大数据的概念包含了大数据的体积、传播速率、特征等内容。虽然截至目前还没有对大数据有统一的定义,但被广泛接受的定义为:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合[2]。大数据的特点一般归纳为四点:一是数据总量大,目前大数据的最小单位一般被认为是10~20TB的量级;二是数据类型多,包括了结构化、非结构化和半结构化数据;三是数据的价值密度很低;四是数据产生和处理的速度非常快。这四个特点又被称作大数据的4 V理念,即:Volume,Variety,Value,Velocity[3]。

2大数据的技术

依据大数据生命周期的不同阶段,可以将与大数据处理相关的技术分为相应的三个方面:

2.1大数据存储

从海量数据时代开始,大规模数据的长期保存、数据迁移一直都是研究的重点。从20世纪90年代末至今,数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。其中主要有:DAS(Direct Attached Storage),直接外挂存储;NAS(Network Attached Storage),网络附加存储;SAN(Storage Area Network),存储域网络和SAN IP等存储方式[4]。这几种存储方式虽然是不同时代的产物,但各自的优缺点都十分鲜明,数据中心往往是根据自身的服务器数量和要处理的数据对象进行选择。

此外,这两年数据存储的虚拟化从研究走向现实。所谓虚拟化,就是将原有的服务器进行软件虚拟化,将其划分为若干个独立的服务空间,如此可以在一台服务器上提供多种存储服务,大大提高了存储效率,节约存储成本,是异构数据平台的最佳选择。从技术角度来讲,虚拟化可以分为存储虚拟化和网络虚拟化,网络虚拟化是存储虚拟化的辅助,能够大幅度提升数据中心的网络利用率和传输速率。目前IBM、浪潮、思科等公司纷纷发力虚拟化市场,可以预见虚拟化会成为未来大数据存储的一个主流技术。

2.2大数据挖掘

在大数据的处理技术中,超大规模的数据挖掘一直是难点,也是重点。面对上百TB,甚至PB级别的异构数据,常规的处理工具往往难以担当重任。需要考虑到的是大数据是个不断生长的有机体,因此在挖掘过程中还要考虑到未来数据继续增长所带来的影响。

因此,大数据的挖掘需要采用分布式挖掘和云计算技术。Google公司一直是分布式挖掘技术的领导者,它研发了MapReduce分布式挖掘工具[5],英特尔公司在此基础上开发了Hadoop分布式挖掘工具。这两个工具都具有高效、高扩展、高可靠性和高容错率的特点,并提供免费版本,适用于各种类型的大数据挖掘。

2.3大数据分析

从内容来说,大数据的分析分为技术和方法两种类型。从技术上讲,主要是分布式的数据分析和非结构化数据处理等。从方法上讲,主要是利用常用的数理统计方法来进行数据分析,例如使用可视化的数据分析工具。但两者是一个有机的整体。大数据处理的最终目的是为了将数据之间的关系以可视化的方式呈现在用户面前,包括了处理的全部过程和展现的过程。在数据分析过程中,不仅仅是需要计算机进行自动化的分析,更需要人工进行数据选择和参数的设定,两个是辩证的关系。

随着大数据行业的兴起,产生了一个新的职业,被称作数据科学,而从事该行业的人员被称作数据科学家。这类科学家的一个特点就是能够艺术性地将数据进行可视化分析,简单明了而且能够展现出数据之间的关联关系。

3大数据的应用

麦肯锡在大数据的研究报告中指出,大数据的应用已经渗透到每一个行业和业务职能领域,逐渐成为了重要的生产因素[6]。按照专业领域划分,信息技术、互联网行业、商业、遥感探测已经开始应用大数据技术来进行研究和生产效益;生物信息技术、科研情报所、图书情报领域已经对大数据展开了研究,并进行了规划;其他专业和行业对大数据可能仍处于了解阶段,但大数据的浪潮很快就会波及大部分的行业领域。

从大数据的应用效果来看,总体趋势与上述的三类专业呈现出一致性。百度、淘宝等公司作为信息技术、互联网和商业领域的杰出代表,已经对大数据开始了深度应用,马云在卸任阿里巴巴CEO时更是阐述了大数据时代将改变互联网商业的面貌,谁提前开始大数据的应用,就可以获得未来行业发展的优势。大数据的普及需要一个过程,首先从重点应用行业开始,例如信息技术领域行业,逐渐扩展到其他行业。美国已经由白宫颁布了大数据开发与利用的国家级战略,由美国国防部和国土安全局牵头开展全面推广大数据的应用。我国目前对大数据的研究并不多,应用更是缺乏。如果要推动大数据的应用,应当由国家层面进行大数据的平台建设。在今年的国家自然科学基金和社会科学基金的课题指南中,已经提出了很多设计大数据的课题,相信在未来几年内国家会对大数据的研究、开发与利用提供政策和资金支持。

总而言之,大数据的技术与应用还是处于起步阶段,其应用的前景不可估量。各个行业应当把握时代脉搏,充分认识到大数据所能带来的革命性改变,只有这样才能够保持创新与进步,从而站在行业的最前沿。

参考文献:

[1]Manyika J,McKinsey Global Insti? tute,Chui M,et al. Big data: The next fron? tier for innovation,competition,and produc? tivity[M]. McKinsey Global Institute,2011.

[2]卢胜军,王忠军,栗琳.赛博空间与大数据双重视角下的钱学森情报思想[J].情报理论与实践,2013,36(004): 1-5.

[3]Hirt C W,Nichols B D. Volume of fluid(VOF)method for the dynamics of free boundaries[J].Journalofcomputational physics,1981,39(1): 201-225.

[4]Chirillo J,Blaul S. Storage Security: Protecting,SANs,NAS and DAS[M].John Wiley & Sons,Inc.,2002.

[5]Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1): 107-113.

[6]郑玲微.大步跨入“大数据”时代[J].信息化建设,2013(1).

大数据时代的优缺点范文第3篇

在社会城市化、产业聚集化、数据资源化、生态全球化的今天,城市竞争成为各地区的必修课题。作为中国西部开发的重要代表城市,虽然在生态文明建设和大数据发展上抢占了鳌头,在城市形象塑造与传播上却显得分外薄弱。现有的形象是什么?形象传播得又如何?现存的策略有哪些优缺点?本文将试分析大数据+生态文明城市形象塑造与传播的大致情况,以供参考。

关键词:

城市形象塑造与传播;整合营销传播;新媒体;大数据;生态文明

21世纪大众传媒的发展使得整合营销传播成为传播业界的惯用手段,而从2009年新浪微博的出现,到2011年微信的诞生,新媒体时代的微传播成为炙手可热的传播新趋势。近五年以来,通过发展大数据产业和生态文明,城市形象塑造与传播取得了一定的成果,但不足之处也非常明显。本文将分析现有营销策略,为城市形象塑造与传播理论的研究添砖加瓦。2014年,环境空气质量优良天数为314d,优良率为86.0%,森林覆盖率达到45%,人均公共绿地面积达11.2m2。①在此条件下,大力发展生态文明和大数据产业,将城市形象塑造与传播的诉求点放在了“生态资源”和“互联网+”上。“十二五”期间,累计旅游接待3.19亿人次,旅游总收入3858.65亿元,较“十一五”分别增长127%和245%。②

营销手段和传播渠道缺乏创新性和多样性:①营销对象定位不准,受众细分不足。没有准确定位目标人群,导致了拳拳出击,次次不中的现象。②营销手段陈旧,模式单一化。除去传统的新闻媒体发稿,虽然政府也通过召开了各类发展研讨会、论坛等,但会议本身缺乏主动性,很难长期形成影响力。③传播渠道过窄,忽视新媒体影响力。陷入了与时代脱节的泥淖。很多宣传只坐在纸媒和电视媒体上,没有做到全媒体覆盖传播渠道和目标受众接收渠道产生了偏差。怎样在有限的资源里实现后发赶超,是这类偏远地区城市亟待解决的问题。通过分析的城市形象塑造与传播策略,了解在城市形象塑造与传播上出现的问题以及上诉成功案例的经验总结,我大体得出以下几点体会:

1准确城市定位,明确目标

受众城市正是由人为所打造的某种兼具实体功能和精神服务的产品,当然也需要有自己的受众群,自己的营销对象。根据的现有营销策略分析,应该在现有营销成果的基础上,积极分析,认真细分市场,重新分配城市的营销策略。

2击中传播诉求,做好城市产品

中医讲究对症下药,对于城市形象的传播也是这样。只有弄懂了受众想要什么,才能给他什么。拥有很多特色资源,这个时候,我们应该深入分析受众需求,帮助他们挑选适合他们的诉求点,对症下药,一针见血。

3跟上媒介步伐,更新传播渠道

现今新媒体大行其道,传播方法日新月异,消费者从哪里接收,我们就应该在哪里宣传。未来的五年,将是中国移动互联网井喷式发展的五年。现在迎头赶上还为时不晚。传统媒体,甚至过去的“两微一端”已经不能满足需求。年轻人们正以光速更新换代他们的信息接收渠道。以传统媒体、新媒体和公关活动混合形成的3D全媒体营销将成为传播的主流。

4大胆创新手段,开启“后受众时代”

受众时代的营销都如同计划经济,先调查清楚受众喜欢什么,需要什么,再根据受众的需要来生产产品。而现在,创造需求,引导需求,教授需求才是发展主流。不管是引导人们生态、绿色的生活方式,还是用大数据提供未来产业发展的新基础,都需要“后受众时代”。所做的事情是走在受众需求的前面,发掘受众内心渴望。受众,诉求,资源,渠道。这些可能还远远不足以概括当今城市形象塑造与发展。更多的变化在不断产生,每一秒都有新的变化。我们只有保持求知的心态,严谨的态度和大胆的创新,才能把握时代脉搏,让城市形象焕发光彩。

参考文献:

[1]陈喜波.城市形象与城市形象学[J].城市问题,2001(6):46~48.

[2][美]菲利普•科特勒.俞利军,江春,译.国家营销:创建国家财富的战略方法[M].北京:华夏出版社,2001.

[3]康宇航,王续.城市形象塑造与传播的市场细分[J].城市问题,2003.

大数据时代的优缺点范文第4篇

关键词:大数据;云计算;图模型;数据处理

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)22-5002-02

1 概述

随着产生数据的设备使用数量越来越多,使用范围越来越广,大量的非结构化数据每秒钟都被产生出来,比如视频、照片、社交媒体评论以及网站评述等数据都是这样的数据。这意味着越来越多的数据不能被存储在预定义的结构化表格中,相反,这类数据往往由形式自由的文本、日期、数字适时组成。某些数据源生成速度非常快,甚至来不及分析就进行存储。这也是无法单纯依靠传统数据管理和分析工具来存储、管理、处理和分析大数据的原因。为了从这些大数据中获取和分析特定的需求信息,就需要对大数据的技术进行研究。

2 大数据介绍

大数据近几年来新出现的一个名词,它相比传统的数据描述,有自己的四个特性[1],分别是:Volume(大的数据量)、Velocity(输入和处理速度快)、Variety(数据多种多样)、Veracity(真实有价值)。因此,大数据需要新的处理模式来取代传统的数据处理方法,它同时包含数据量巨大和快速的处理速度两层含义。

云计算是一种大数据的处理技术平台,综合了各种资源之后提供一些虚拟技术服务。这样的方式可以很大程度降低用户维护、处理、使用数据以及其他计算资源的成本。数据单位已不再是用GB,TB能够满足的描述需要,而是步入了PB级别的时代。传统的数据存储方式已经不能满足这些数据的存储和处理,只有依托云平台存储技术的方式来解决这个当前已经面临的问题。

3 大数据技术分析

3.1 大数据的处理方式

大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。

数据流处理的方式适合用于对实时性要求比较高的场合之中。并不需要等待所有的数据都有了之后再进行处理,而是有一点数据就处理一点,更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量,对辅助存储器的要求反而不高。

批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务分别单独进行处理,并且形成小任务的过程中不时进行数据传输之后计算,而是将计算方法(通常是计算函数——映射并化简)作用到这些数据块最终得到结果。

3.2 大数据技术模型

大数据的技术模型目前主要研究的是图1的模型。

图1是一种描述复杂关系的数据结构,它并不像线性链表和树那样看上去结构简单和清晰,但它能描述一些更为错综复杂的层次和关系。对实际关系的描述使用范围和频率都更多更广。采用一些数学方法和算法工具来对图进行处理,是处理大数据的一个前提。存储图结构数据的时候一般选用邻接矩阵或邻接表的方式来进行,这在数据结构这门学科里面已经有所研究。图的两个顶点之间用边进行连接,这个可以看作网络结构里面,相邻两个节点之间有传输消息的通路。一个复杂的网络结构对应出来的也是复杂的图结构,处理的时候需要将该图进行分割处理,采用分而治之的办法来解决问题。

如果节点A和B之间的所有通路都被C阻塞了,就意味着C有向分割了A和B,即A和B在给定条件C时独立。

这种方法就降低了条件限制的复杂性,有效地将问题利用数学模型求解出来。

3.3 大数据处理系统应用

开源是现在很多大型国际IT公司倡导的服务方式,这个理念拥有很多拥护者。虽然它最初的出现和商业搭不上边,但已为具有现展理念的国际大型商业IT公司所接受,他们所认同的是面向服务的开源,进而出现了新的经济增长方式。

目前有一些较为前沿的公司已经研发开源的大数据处理技术,比较典型的是推特研发的Storm系统和谷歌研发的MapReduce模型。前者是以数据流方式进行数据处理而后者是采用批量数据的处理方式。

MapReduce是目前用得比较多的方法,其核心思想就是两个步骤:Map和Reduce。Map过程就是一个映射过程,完成这一步之后再对其进行Reduce过程处理,也即是精简的过程。最后将处理的最终结果进行输出。

3.4 大数据技术发展趋势

传统的关系型数据库和新兴的数据处理技术目前是并存状态,它们之间将来会相互学习,相互渗透,相互影响,互相融合,最终形成对数据分析有利的格局,能够更好地为大数据处理服务,从庞大巨量的数据当中找到需要的数据并对之进行处理、分析乃至决策。

4 结束语

大数据是当今越来越多的数据源每分每秒不断产生新数据后的一个产物,对他它的研究和利用是紧迫的事情。目前研究的一些大数据技术都有其优缺点,技术种类也不是很多,还处于一个上升的阶段。研究大数据的处理、分析、利用技术和方法,对今后这一分支的发展起到关键性的作用,对后来的科技产品乃至我们的日常生活都会带来巨大的影响。

参考文献:

[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/

[2] 戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011(4).

[3] 钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12):2332-2343.

大数据时代的优缺点范文第5篇

关键词:协同过滤;基于用户;基于物品;相似程度

一、协同过滤推荐的研究现状

首先了解一下推荐系统,比较普遍认可的定义是Resnick和Varian在1997年[1]提出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定购买什么产品,模拟销售人员帮助客户完成购买过程。”而协同过滤是推荐系统中最常见也是最广泛应用的推荐方法。Grundy书籍推荐系统[2]是公认的第一个对协同过滤应用的系统。还有Tapes-try邮件处理系统[3],Ringo[4]等。Sarwar等[5]提出的利用夹角余弦来计算产品的相似程度。Chen和Cheng[5]通过观察不同产品在用户的列表次序来计算用户与用户的相似程度.而Yang和Gu[7]利用建立用户的兴趣点来计算用户与用户间的相似程度。

二、协同过滤推荐的主要思想

协同过滤推荐的思路可以说是来源于生活。通过在生活中购买产品你会发现一些有趣的现象。比如说,人们总是更倾向于相信来自熟人的推荐,在你的朋友圈内,很多朋友都在使用同一种产品,那么你就也会很大程度有意的选择此产品。另外就是,在你对某种产品感兴趣时,当你发现有和你感兴趣的这种产品类似的产品,与此同时,其他购买者对这种产品的体验良好,那么你也很可能会购买这种商品。协同过滤的主要思想可以分成两个部分:一是通过分析用户以往的购买或者选择信息,来计算用户之间的相似程度,通过相似程度高的用户可以说是近邻对一个产品或信息的偏好来预测目标用户的对此产品或信息的偏好程度。二是通过分析对用户以往对某类产品的评价情况来预测该用户对此类中新产品的偏好程度,及计算以往评价过的产品与要推荐产品间的相似度。

协同过滤推荐主要有两种,一个是基于User的,另一个是基于iterm的。

1、基于用户的方法主要是寻找与目标用户相似的用户,认为有相似偏好的用户可能对某个产品或信息有相似的评价。通过利用相似近邻的偏好程度来进行对目标用户的评价的预测。比如说有三部电影《饥饿游戏》《千与千寻》《分手大师》。A下载了《饥饿游戏》,播完了《千与千寻》,没播完《分手大师》。B多次观看《饥饿游戏》,播完《千与千寻》,没看《分手大师》。C下载了《分手大师》,没看《饥饿游戏》,没播完《千与千寻》。那么可以看出来A与B很相似,那么再出现一个电影《变形金刚》,A是多次观看,那么应该把变形金刚推荐给B而不是C。关于这个用户之间相似程度的计算,可以通过对电影的评分机制进行量化,然后利用夹角余弦来计算用户之间的相似程度。设用户i和用户j在n维对象的空间上的评分向量为i,j,那么计算cos(i,j)的公式为:

cos(i,j)=i・j|i|*|j|

若两个用户的夹角余弦值相近,则可认为他们是相似用户。

关于相似程度的计算还可以通过皮尔森相关系数和修正余弦函数相似性等很多方法。

2、基于物品的方法主要首先是计算物品与物品之间的相似程度,然后结合用户以前的购买评价过的物品或选择行为,最后对用户进行某种新物品的推荐。比如说A喜欢看《分歧者》,《复仇者联盟》,《超体》。然后有两部电影《何以笙箫默》和《敢死队》。可以很明显的看出可以向A推荐《敢死队》。基于物品的系统过滤在计算物品的相似度时,也是可以通过评分量化,很多时候也是可以加入tag技术,对物品打标签,做标签矩阵。比如A喜欢的电影中《分歧者》是有动作,爱情,科幻三个标签,每个标签的权重不一样可以按0到1之间的分值设定。然后同理其他电影,最后通过量化计算相似度发现《敢死队》更符合推荐。关于tag矩阵也可以是0-1矩阵。关于计算相似程度与(1)中提到过的方法类似。

三、协同过滤推荐的优缺点

协同过滤的优点有:

1、可以进行过滤复杂性的,机器难以进行提取有效自由文本的信息,如音乐,图像等艺术类信息。

2、相对容易给用户制造惊喜。与基于内容的推荐不同,推荐给用户的物品内容可能是用户不太熟悉的内容,很可能发现用户潜在的喜好但用户本身却没有意识到的。

3、用户的不断增加,协同过滤推荐系统的性能也会增高。

协同过滤的缺点:

协同过滤推荐算法的典型缺点就是稀疏性问题和冷启动问题。冷启动问题就是,当有新用户进入时,由于没有历史行为数据而无法对其偏好进行判断,因此对其进行推荐。同样当有新物品进入系统时,由于没有用户对其评价过,它就得不到推荐。

四、总结

个性化推荐服务实质就是有效率有针对性的解决大量数据的问题,推荐算法在一定程度上实现了这个问题,可是现实生活中,并不是一个算法,而是好几种类型的推荐算法混合运算,最后得出的推荐结果才能比较令人满意,也会比单一算法精确很多。关于推荐系统性能的评价指标最典型是精确度和推荐效率这两个指标。其中衡量精确度可以是平均平方误差,平均绝对误差和标准平局误差等。个性化推荐没必要非得追求完全精确,因为本身推荐的内容就无法保证用户百分之百的感兴趣,但是还是要努力不断追求精确度,这样才能发挥其自身解决超载问题,给用户提供感兴趣物品或信息的价值。网易云音乐作为音乐行业的后起之秀,在个性化推荐方面做的相当不错,很多用户反应网易云音乐的个性化推荐总是给人惊喜,虽然网易没有在这方面给出过多的介绍,但是不难看出,他们公司非常注重这个方面的功能板块。因此对这个时代而言,不仅仅是对电子商务方面,个性化推荐的价值以及意义都是非常重要的。(作者单位:河北大学)

参考文献:

[1] Resinick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.

[2] Rich E.User modeling via stereotypes.Cognitive Science,1979,3(4):329―354.

[3] Goldberg D,Nichols D,Oki BM,et al.Using collaborative filtering to weave an information m ACM,1992,35(12):61―70.

[4] Shardanand U,Maes P.Social information filtering:Algorithms for automating`Word of Mouth'.Proc Conf Human Factors in Computing Systems Denver,1995:210―217.

[5] Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms.Proc 10th Int' l WWW Conf,Hong Kong,2001:1―5.