首页 > 文章中心 > 个性化推荐

个性化推荐

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇个性化推荐范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

个性化推荐

个性化推荐范文第1篇

关键词: 个性化推荐;算法;推荐系统

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)27-0162-02

1个性化推荐系统

随着互联网的飞速发展和云计算的兴起,人们已然处于一个信息爆炸的大数据时代。每天面对海量的数据信息,搜索引擎在一定程度上为人们解决了信息筛选问题,但当用户无法用准确的关键词描述自己的需求时,搜索引擎的筛选效率将会打折扣。用户如何在一个网站上快速而有效地找到自己所需要的信息?网站如何将用户最关注最感兴趣的信息筛选出来实时呈现在用户面前?推荐系统的出现解决了这些问题。

推荐系统是根据用户的兴趣爱好向用户推荐符合其需求的对象,亦称为个性化推荐系统。个性化推荐系统通过一定的方式将用户和信息联系起来,不仅可以帮助用户找到感兴趣的信息,而且能够将信息分类呈现在不同的用户面前,从而实现用户与信息提供商的双赢。个性化推荐系统已经全面运用到各个互联网网站中。在电子商务领域,网站通过使用个性化推荐系统向用户推荐其可能感兴趣的商品,提高用户的购买率和用户的忠诚度。Netflix网站使用个性化推荐系统为用户推荐喜欢的电影,豆瓣电台通过个性化推荐系统向用户推荐符合其口味的好音乐,Goodreads网站利用推荐系统为用户推荐适合其阅读的书籍。

2个性化推荐系统中关键算法分析

个性化推荐系统为用户提供个性化体验的同时,也日益受到越来越多的学者和互联网网站的关注。个性化推荐系统的工作原理是首先输入数据源(用户和项目的各种属性和特征,包括年龄、性别、地域、物品的类别、时间等),然后选择合适的推荐算法,最后将产生的推荐结果(按照用户喜好程度排序的项目列表)推荐给用户。不同的个性化推荐系统使用不同的推荐算法,因此个性化推荐系统最为核心之处在于根据不同的数据源选择不同的推荐算法。

目前,个性化推荐系统中主要使用的推荐算法有:协同过滤推荐算法、基于内容的推荐算法、基于人口统计学的推荐算法、组合推荐算法。下面对主要的推荐算法进行比较并分析它们的优缺点及适用场景。

2.1协同过滤推荐算法

协同过滤推荐是使用最广泛的个性化推荐算法之一。协同过滤有两种主流算法:基于用户的协同过滤和基于项目的协同过滤。

2.1.1基于用户的协同过滤

基于用户的协同过滤是根据不同的用户对项目的评分来测评各用户之间的相似性,基于用户间的相似性进行推荐。即通过用户的浏览记录、购买行为等信息分析各个用户对项目的评价,发现与当前用户最相似的“邻居”用户群(“K-邻居”的算法);然后将K个邻居评价最高并且当前用户又没有浏览过的项目推荐给当前用户。基于用户的协同过滤推荐算法是以用户与用户之间的关系为着眼点,因为兴趣相近的用户可能会对同样的东西感兴趣。如:Facebook网站首先对用户个人资料、周围朋友感兴趣的广告等相关信息进行分析,计算出各用户之间的相似性,进而对用户提供广告推销。所以说,在当前流行的社交网站中,基于用户的协同过滤推荐是一个不错的选择,若将基于用户的协同过滤推荐算法与社会网络信息相融合,会增加用户对推荐解释的信服程度。

2.1.2 基于项目的协同过滤

基于项目的协同过滤是通过用户对不同项目的评分来测评各个项目之间的相似性,基于项目之间的相似性做出推荐。即利用所有用户对物品或者项目的偏好,计算不同物品或项目之间的相似度,然后根据用户的历史信息,将类似的物品或项目推荐给用户。基于项目的协同过滤是以项目与项目之间的关系为中心,因为用户可能偏爱与他已购买的商品类似的商品。如在购书网站上,当用户看一本书时,网站会给用户推荐相关的书籍。此时,基于项目的协同过滤推荐成为了引导用户浏览的重要手段。对于一个电子商务网站,用户的数量远远超过商品的数量,同时商品的数据相对稳定,因此计算商品的相似度计算量较小,不必频繁更新。所以基于项目的协同过滤推荐适应于提供商品的电子商务网站。

协同过滤推荐算法优势在于:不需要各领域的知识;能跨类型推荐(如推荐音乐、艺术品、电影等);计算出来的推荐结果是开放的,可以共享他人的经验,能很好地发现用户潜在的兴趣爱好;自适应性好;随着时间推移预测精度会提高。

协同过滤的推荐算法不足之处在于对于历史信息依赖性较强;还有冷启动问题,当新用户或者新物品进入系统时,难以进行个性化推荐。同时在大规模网络中,数据极端稀疏,算法效率较低,难以处理大数据量下的即时结果。

2.2基于内容的推荐算法

基于内容的推荐算法是根据历史信息(如评价、分享、收藏过的文档) 学习用户的兴趣,建立用户偏好文档,计算待推荐项目与用户偏好文档的匹配程度, 将最相似的项目推荐给用户。如:在音乐推荐中,基于内容的推荐系统首先分析用户欣赏过的音乐的共性(歌手、曲风等),再推荐与用户感兴趣的音乐内容相似度高的其他乐曲。

基于内容的推荐算法生成推荐的过程主要依靠三个部件:(1)内容分析器:用一种适当的方式表示从项目信息中提取的有用信息。(2)文件学习器:该模块收集用户偏好的数据,生成用户概要信息和偏好文档。(3)过滤部件:通过学习用户偏好文档,匹配用户概要信息和项目信息,将生成一个用户可能感兴趣的潜在项目评分列表。

基于内容的推荐算法生成的推荐结果直观明了,容易理解。不需要领域知识,不需要很大的用户社区,仅需要得到两类信息:项目特征的描述和用户过去的喜好信息。

基于内容的推荐算法有三个主要缺陷:(1)过度规范问题:推荐给用户的项目与其消费过的项目很相似,不能为用户发现潜在感兴趣的资源。 (2)内容分析有限:只能预处理一些易提取的文本类内容(网页、博客等),而在提取多媒体数据(图像、音频、视频等)时较困难。(3)冷启动问题:当一个新用户没有对任何项目进行评分或没有浏览过任何商品时,系统无法向该用户提供准确的推荐。

2.3 基于人口统计学的推荐算法

基于人口统计学的推荐算法是根据人口统计学数据(即系统用户的基本信息:年龄、性别、工作、兴趣、爱好等),计算用户间相关程度,得到当前用户的最近邻集,然后将把“邻居”用户群喜爱的项目推荐给当前用户。

基于人口统计学的推荐算法优势在于:不需要用户的历史喜好信息,可以很好解决冷启动问题;不依赖于项目的属性,其他领域的问题都可以无缝接入;而且随着时间推移,预测精度也会逐渐提高。

但是在一些有较高要求的领域(如:音乐、艺术品、电影、书籍等)进行推荐时,此算法对用户基本信息进行分类过于粗糙。同时在收集人口统计信息时,不易获取比较敏感的信息,从而导致推荐系统在准确度方面不如其他算法,无法得到良好的推荐效果。

除了上述比较典型的推荐算法,还有其他一些推荐算法: 基于知识的推荐算法、基于效用的推荐算法和基于关联规则的推荐算法。基于关联规则的推荐算法是将用户的购买历史记录、浏览痕迹、打分记录作为数据源,挖掘出的关联规则就是推荐对象。关联规则挖掘是用来发现不同商品在销售过程中的相关性,而且关联规则的发现是算法的关键,也是算法的瓶颈。

2.4 混合推荐算法

任何一个个性化推荐算法都有它独特的优势和不可避免的缺陷,因此现实应用中,直接用某种算法来做推荐系统的很少,往往是将各种推荐算法组合起来,这样可以扬长补短,提高推荐的准确度和效率。尤其是大数据环境下,各种混合推荐算法的推荐效果要优于单一推荐算法。基于内容的推荐算法和协同过滤算法都无法解决冷启动问题,因为这两种算法都需要历史信息。若将协同过滤推荐算法与基于知识的推荐算法组合起来,则能很好地解决冷启动问题。

文献[2]以电影为推荐对象, 通过线性组合的方式将基于内容的推荐算法和基于协同过滤的推荐算法相融合, 得到最终的推荐结果。两种算法的组合很好地避免了基于内容推荐算法不适合推荐多媒体数据的缺陷, 解决了协同过滤算法中用户对电影评分少的数据稀疏的问题。

在一些大型的网站使用的就是融合了多种算法的推荐系统。比如淘宝网为顾客推荐商品时采用了基于内容和基于关联规则两种算法的组合。根据用户的浏览痕迹、收藏记录、购买行为以及反馈信息产生可推荐的关联规则,根据商品的相关属性(描述,评价,名称,收藏人气,累计销量等等)对优质商品进行评分,计算出用户带权重的标签,最后进行个性化推荐。

3 总结与展望

综上所述,个性化推荐系统将用户和项目有机地联系起来,是一个高效的信息服务系统。为增强个性化推荐系统的功能,未来的个性化推荐系统应该将企业的销售系统、客户关系管理系统等企业信息系统集成在一起,共同为企业发展提供决策支持。那么个性化推荐系统如何与这些系统集成,如何与社会网络相结合,改变用户购物模式,企业销售方式,都是未来的研究方向。

设计个性化推荐系统最终目的都是为了提高用户体验感和满意度。一个被用户接受和认可的推荐系统,在帮助用户发现潜在感兴趣的项目的同时还能够帮助项目提供商将项目投放给对它感兴趣的用户。一个好的推荐系统能够对公司或业务产生增值效应,会给用户带来更好的体验。但是如何将用户的体验感进行量化是一个具有挑战性的课题。

参考文献:

[1] 张亮,赵娜.改进的协同过滤推荐算法[J].计算机系统应用,2016,25(7)

[2] 马瑞敏,卞艺杰,陈超,吴慧.基于Hadoop 的电子商务个性化推荐算法――以电影推荐为例[J].计算机系统应用,2015,24(5).

[3] 乔亚飞,张霞,张文博.智能图书系统中的个性化推荐[J].计算机系统应用,2016,25(9).

[4] 朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2).

[5] 朱扬勇,孙婧.推荐系统研究进展[J].计算机科学与探索,2015,9(5).

[6] 刘鲁,任晓丽.推荐系统研究进展及展望[J].信息系统学报,2007(1).

个性化推荐范文第2篇

移动互联网大潮来临,基于移动端的各种新闻客户端成为人们获取资讯的主要媒介,这也成为新旧媒体融合发展中的一大主要态势。与过去典型以来编辑操作的传统媒体不同的是,如今的移动新闻客户端把机器的角色放在了首要位置中。这是新科技革命为媒体发展带来的福利,技术驱动型媒体平台如雨后春笋般搭建开来,共享经济环境下全民创作势不可挡。随着更多种类丰富的内容不断诞生,有限的编辑劳动力感受到了运营的负担,及时编辑部投入很大的运营成本增加运营人员,在个性化阅读者日益差异化的阅读兴趣面前仍显得微弱。在资本和技术的推动下,“大智移云”成为时代背景,技术公司成为主导媒体生态的一大重要角色,个性化推荐新闻客户端被广泛运用。

个性化新闻客户端最先由“今日头条”带动而来,如今在北京的大街上,到处可见它的商业广告,各方数据也不断说明今日头条所获得的用户群体已占客户端相当大的一部分;接着,腾讯新闻客户端、一点资讯客户端、搜狐新闻客户端陆续引入个性化推荐的机器算法,实现编辑+机器二力共同作用的新闻信息制作模式。任何一个人的手机页面中,都能够出现更多符合个人兴趣点的多方面内容,突破了新闻单一枯燥的特点,正在得到更多人的好评。

二、个性化推荐新闻客户端中的问题

个性化推荐新闻客户端让忙碌的人们不再受困于海量信息,能够在很快的时间内获得自己需要的信息。但这种机制的优势也容易带来不可忽视的缺陷。

(一)自媒体平台门槛低导致内容源参差不一

以个性化推荐新闻客户端为例,现在几乎每家客户端都搭建了自媒体平台,所有有能力参与创作的人都可以通过注册账号提供内容,而这些文章一经,便通过高度快捷的个性化推荐机制传播到各处。这种传播效率令人欣慰,但需要思考的是,这些科技媒体担负的不再是媒体的角色,新闻专业主义从来也不是他们需要考虑的问题。在商业化运营的过程中,这些提供内容制作的平台把海量内容当作吸引流量的入口,大肆鼓励各行各业的人们参与创作,既要满足大类阅读需求,更要满足小众群体的长尾阅读需求。我国网民呈现出低年龄、低学历、低收入水平的特点,而当这些人参与到个性化推荐客户端的制作中后,就很容易暴露出更多问题。

(二) 内容娱乐化、浅薄化带来乱象

以“今日头条”为例,笔者通过长时间的使用,观察发现其并不能做到基于读者兴趣的个性化推荐,首屏推荐内容多为娱乐八卦类内容。一点资讯客户端的首页推荐基本符合用户兴趣,但也夹杂着笔者并未订阅过的娱乐八卦内容。社交媒体环境下,碎片化的浅阅读已成为常态。技术的运用、硬件的升级,使得如今的个性化推荐新闻客户端打破了传统媒体单一的功能,它所承担的多功能价值已经对它自身的功能提出挑战,它已成为集媒体、社交、娱乐、购物于一体的多功能媒体,而这同时也折射出个性化推荐新闻客户端所面对的社交场景。事实上,人类已走进娱乐时代,任何人都深受着“娱乐至死”的影响,个性化推荐新闻客户端的内容除了新闻信息,同时提供了视频、游戏、小说、音乐等其他娱乐方式。数据表明,视频、游戏、音乐已经成为用户最热衷的移动娱乐方式。娱乐化时代,人们忽视了严肃新闻的方向,过多了关注了娱乐性,个性化推荐新闻客户端从内容和功能上来说,已是促使个性化推荐新闻客户端自身文化不断娱乐性的原因所在。

(三)个性化推荐客户端限制用户视野

个性化推荐新闻客户端的特点在于,人们基于“强关系”而产生的社会信任,使人们形成了较之以往更为密切的社会互动,个体与个体之间、个体与社会之间的联系日益紧密。人们为了感知世界的变化,不再主动去寻找自身需要的文化信息,而是依赖于社交媒体所形成的社群氛围,社群传递什么样的文化信息,人们就选择接受什么样的文化信息,因此,自身对于世界的认知过程已经变成了对这一社会群体中文化信息所形成环境的印象。在移动社交时代,人们的生活与个性化推荐新闻客户端注定彻头彻尾的捆绑在一起,正如麦克卢汉所说的,“媒介是人的延伸”,在一个快速变动而有丰富多元的移动化时代,移动互联网已成为一种普遍的生活方式,而个性化推荐新闻客户端也将这个时代的媒介文化呈现出不同特点。

三、个性化推荐新闻客户端的发展

以智能手机媒体为代表的个性化推荐新闻客户端,无论是对于电视环境下成长的一代,还是对于互联网环境下成长的一代,都带来了全新的改变。作为一种肩负文化传播的平台,它也应该营造出精英文化与大众文化和谐发展的场景,从而也使越来越多的优秀文化形态被传递。

(一)打破媒体局限,发挥新闻力量

当前,我国在继续推进社会改革的过程中遇到很多问题,突出了表现为社会转型过程中,由于人们的社会权利不平等造成的不均衡的利益表达机制,使得弱势群体的话语权被牢牢掌握在强势群体。个性化推荐新闻客户端的出现于普及,使得任何人都可以借助媒介平台进行公共活动的讨论,这是新时期为公民赋权的一个最好机会,应该牢牢把握这个有利的形式实现社会民主的进程。所以,现在应努力打破移动社交平台娱乐化、碎片化的信息传递局限。

(二)弥补法律空白,营造媒体环境

新闻客户端的迅速到来,对我国现有关于媒体文化的法律法规和政策监管提出了挑战,我国关于手机等个性化推荐新闻客户端的法律还依然存在空白。个性化推荐新闻客户端的快速性和网络传播模式,很容易在各个环节滋生问题,任何个体作为这张大网上的一个环节,其不良行为都有可能诱发社会问题的产生。面对当下对个性化推荐新闻客户端的控制越来越难的情况,政府应该观察这一新媒体的快速应用带来的危害,尽快完善监督管理立法,尽早出台个性化推荐新闻客户端方面的立法,从媒体终端运营到媒体内容制造等方面规范各个环节,减少由于技术失误带来危害媒介安全和意识形态安全的问题发生。

(三)提高媒体技术,丰富媒体内容

个性化推荐范文第3篇

【关键词】个性化推荐;商品关键属性;ROCK聚类算法;粗糙集

1.背景

现如今在茫茫如海的网络信息中去寻找对自己有用的信息已经越来越难,为此个性化推荐技术应运而生,它能够针对每一位用户提供专属于他自己的推荐信息,尤其是在商业上应用广泛,时至今日几乎所有大型的电子商务网站,如亚马逊、京东商城和当当网等,都推出了个性化推荐服务[1],他们往往通过用户的注册信息、浏览记录和消费记录对每位用户进行个性化推荐[2,3]。然而针对农村市场的电子商务网站现在还不多,对农村用户的个性化推荐更是寥寥无几,中国到目前为止还是一个农业大国,农村市场有着无限的潜力可以挖掘,纵然消费能力弱和物流条件差等可能是阻碍这一进程的原因,但是随着国家对乡镇农业的持续大力支持,农业信息化的前景将更加广阔,而针对农村市场建立相应的电子商务网站并对农村用户进行个性化推荐势必也将提上日程。农资信息网通过传播农业技术知识、宣传农业政策法规和提供农资产品的电子商务平台等服务将成为服务农民、开拓农村市场的先行者[4]。在网站建设中如果将针对农村群体的个性化推荐技术加入其中,那么网站将会为那些知识较缺乏、信息较闭塞的广大农村用户提供更贴切、更周到的服务,将更符合用户需求的信息和产品推荐给他们。

农村市场的农资用户与普通的电子商务网站用户在推荐模式上有着很大的区别。首先,普通的电子商务网站用户是依照自己的兴趣爱好、生活习惯和需求去浏览网页并进行购物,所以针对他们的个性化推荐往往以兴趣爱好作为首要因素;然而,对于农资用户而言,兴趣爱好并不是左右他们购买商品的原因,能否满足他们的需求,也就是说东西好不好、实不实用才是影响其个性化推荐的主因,因此销售后的回访、评价往往对日后的推荐影响重大,然而由于农资产品的特色性质,它的验证期往往很长,少则三个月多则一年,因此针对农资用户建立推荐模型则需要时以年计的数据库为依托,不可能迅速投入商业应用,所以应该利用线下销售中得到的大量不完备信息进行整理,找到影响推荐的关键信息,才能使网站推荐系统投入商用[5]。第二,商品对用户的吸引力往往不在于其本身所有的属性,而在于该商品包含了某种或多种关键属性,是这些关键属性让用户了那些商品,所有我们将运用粗糙集技术去处理那些大量的不完备信息并简约出商品的关键属性。第三,由农民朋友日常的消费习惯得知,他们购买的农资产品时往往会借鉴周围朋友的购买经验,也就是说相同人群的人购买的商品也大致相同,所以ROCK聚类算法在这方面能够提供很好的帮助,因为ROCK算法提出了邻居概念,即:如果两个消费者不仅它们本身相似,而且它们的邻居也相似,则这两个消费者很可能属于同一个簇。

本文针对农资产品个性化推荐的特殊性建立了个性化推荐系统模型。

2.ROCK算法

ROCK(Robust Clustering Using Links)算法是一种凝聚的层次聚类算法,是由Guha等人在1999年提出的,适用于类别属性[6]。

对于具有分类属性的数据,传统的聚类算法一般采用距离函数来度量数据对象间的相异度。然而,实验表明这种距离度量方法对具有分类属性的数据不能得到好的聚类结果。而且绝大多数聚类算法只考虑点与点之间的相似性,因此在聚类的每一步,具有最大相似度的点被合并到同一个簇中这样很容易导致错误的合并。例如,有几个点来自两个显著不同的簇,而这几个点非常接近,那么根据上述的点与点之间的相似度,这两个显著不同的簇将被错误地合并在一起。为了避免这种情况,ROCK采取了更加周全的方法,也即引入了邻居的概念。如果两个点不仅它们本身相似,而且它们的邻居也相似,则这两个点可能属于同一个簇,因此被合并。

【定义1】邻居:两个点Pi,Pj,如果满足sim(Pi,Pj)≥A,则称Pi,Pj为邻居。其中,sim是一个相似性度量函数,A是由用户给定的阈值。sim可以是一个距离度量或者甚至是由领域专家提供的非形式化的度量,只要它能够标准化为0和1之间的值,而且这种值越大,相应的两点间的相似度越高。

【定义2】连接:link(Pi,Pj)为二数据点Pi,Pj的相同邻居数,值愈大表Pi,Pj同一簇的几率愈大。

【定义3】标准函数:

在聚类过程中,我们需要最大化簇内link(pq,pr)数量的同时最小化簇间link(pq,pr)的数量。此式子能够帮助我们找到簇内最多链接的同时尽量减少簇间链接数。其中:

ni为簇Ci中数据点的总数;

为Ci中预期的邻居总数;

为Ci中预期链接总数。

是根据数据集设定的一个函数

【定义4】优化函数:

此优化函数用于合并相似簇,而且能够有效避免出现离群数据点时将所有簇都合并为一个簇。

其中为二簇中预期交叉链接個数。

ROCK算法流程如下:

1)输入参数:包含n個数据点的集合S,及预期簇数k;

2)最初阶段,每一数据点为一簇;

3)计算各点的链接数;

4)为每一个簇i,建立一个区域堆q[i],包含每一个与簇i的链接数不为零的簇j;

5)q[i]中的各簇j依g(i,j)值由大至小排序;

6)建立一全局堆(global heap)Q,包含每一q[i]的优化函数最大值的簇j;

7)每一回合,合并Q中最佳簇j与q[j]中的最佳簇;

8)合并的同时重新运算各区域堆及全域堆,包括新形成的簇;

9)当簇数不小于k时,持续合并,此外当所有q[i]=0时停止合并。

3.粗糙集

粗糙集理论是一种不精确、不确定性知识的数学工具,由波兰科学家Z.Pawlak提出,一经提出便引起了广泛的讨论[7]。粗糙集的知识形成思想可以概括为:一种类别对应于一个概念(类别一般表示为外延即集合,而概念常以如规则描述这样的内涵形式表示),知识由概念组成;如果某知识中含有不精确概念,则该知识不精确。粗糙集对不精确概念的描述方法是通过下近似(Lower Approximation)和上近似(Upper Approximation)概念来表示。一个概念的下近似概念中的元素肯定属于改概念,而一个概念的上近似概念只可能属于该概念。

粗糙集把客观世界抽象为一个信息系统。一个信息系统S是一个四元组,S=:

U是对象的有限集合,记为U={X1,X2,….Xn};A是属性的有限集合,记为A={A1,A2,…An};V是属性的值域集合,记为V={V1,V2…Vn};其中Vi是属性Ai的值域;F是信息函数,即,f:U*A->,f(Xi,Aj)属于Vj;属性集A由集合C和集合D组成,其中C为条件属性集合,D为决策属性集合,两者无交集。对于属性集A中任意一个属性a,通过f(Xi,a)函数时,如果某两条记录对于属性a取值相同,我们则称此两个记录基于属性集等价,所有基于某个属性集等价的记录被定义为等价类。

粗糙集的近似空间(Approximation Spa-ce)。近似空间有一个二元组,其中U为对象的有限集合,B为A的一个子集,R(B)={(x1,x2)|f(x1,b)=f(x2,b)}。则对于任意一个概念O。

设属性集B1是B2的真子集,如果R(B1) =R(B2),则称B2可归约于B1,如果B1不可进一步归约,则称B1为U的一个归约子。

设属性集P和Q,则P对Q的属性依赖度为:

表示集合X在属性集上的下近似。

设属性集BC,C是条件属性集,D是决策属性集,则属性重要度(Attributessi-gnificance)定义为:

4.属性简约和聚类

4.1 当前农资电子商务网站的推荐模式

当前中国国内关于农产品的电子商务网站还不是太多,专门针对农资产品的电子商务网站更是凤毛麟角,这些已有的农资电子商务网站中应用的产品推荐系统还不是太成熟,其主要的推荐方式如下:

1)最新产品推荐及热销产品推荐

这种方式多应用于小型电子商务网站或网站的运营初期,某些网站也会在节假日促销时使用这种推荐方式;这是一种形式简单但是效果尚佳的推荐方式,满足了用户求优、求新和求性价比的心理诉求,其缺点是不能对客户进行深度挖掘,没有针对性,容易掩盖具有高价值量的客户需求。

2)评价式推荐

通过对产品的售后评价,对同类产品进行好评排序,将好评度最高的商品推荐给用户。这种推荐方式也较多用于小型电子商务网站或B-C商家的网店中,能较好的为那些对某一种或某几种商品有需求的用户提供帮助,服务范围较窄而推荐作用强大。这两种推荐方式还停留在全体推荐的层次上,没有针对个人的推荐。

4.2 关于农资产品的个性化推荐模型

本推荐模型针对现有农资推荐系统的问题,运用粗糙集技术遴选出商品的关键属性,并通过ROCK聚类算法对用户进行聚类,从而针对每个用户个人进行推荐,更有针对性且效果更好。

该推荐系统的流程如下:

1)将搜集好的线下农资产品销售记录进行简单简约(由于是线下交易数据大多数为不完备数据),然后遴选出关键属性;

2)对线下销售记录中包含任一关键属性的用户提取出来,运用ROCK聚类算法找到对不同属性感兴趣的不同用户簇;

3)当出现新用户时,判定新用户的属于哪一个用户簇,将该用户簇内用户感兴趣的商品推荐给新用户。

4.2.1 基于粗糙集的商品属性简约

表1是与线下交易信息匹配的决策信息表,其中有些信息是不完备的,而不完备的信息中也可能包含关键属性,所以我们通过粗糙集技术对其进行简约,从而找到影响用户购买的关键属性[8、9]。我们将商品类别作为决策属性,将价格和商家品牌等属性作为条件属性,如表1所示。

仅以上图属性已知部分为数据库,建立实例如下:

U={1,2,3,4,5,6,7};

A={Cotton,Corn,Wheat};

V={High,Medium,Low,Yes,No};

f(1,category)=wheat;f(1,price)= medium;…。

按条件属性进行分类,如E1={1,6};按决策属性进行分类,如Y1={1,6}。

则在R中的两个划分为E和Y,E作为分类条件,Y作为分类决策,据此可进行规则描述,如规则R(1,1)可表示为:Des(E1)—>Des(Y1)。其置信度为cf=1.则说明当price=medium,brand=no为购买wheat产品的置信度为1,即price= medium,brand=no为wheat产品的关键属性。实例演示完毕。

由以上实例得知,在通过粗糙集进行属性简约的过程中,需要提前确定置信度阈值,由于数据量的问题,本文没有涉及属性之间相关度的研究。

通过粗糙集技术进行简约,得到不同用户所对应的关键属性类型如下:

(用户1:商品类别,厂家),(用户2:商品类别,无),(用户3:商品类别,价格,…)等等。

4.2.2 运用ROCK算法进行聚类

聚类流程如下:

1)根据上文得到的用户数据集,将每个用户都作为一个独立的数据点;

2)利用相似度计算公式,计算任意两个数据点之间的相似度,从而确定任意一个点的邻居个数;

3)利用定义2确定任意两个数据点之间的相同邻居数,即链接数;

4)为每一个簇建立一个区域堆q[i](初期时,一个数据点记为一个簇),将与该数据点有相同邻居的数据点按个数的多少加入该堆中,利用标准函数对堆内的簇进行归并,从而形成大小不同的若干个区域堆[10];

5)建立一个全局堆Q,按区域堆q[i]的大小排序加入到全局堆中,运用优化函数合并堆内的相似簇;

6)判断全局堆Q中个数a,如果a

5.结论

由于该项目处于建站初期,在数据的采集和整理等方面的条件还不是很完善,尤其在许多专家知识的获取上还不能很好地用计算机知识去表达,致使实例的验证不是太完美,作者将会在日后逐步去改善。

参考文献

[1]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004,10:1306-1313.

[2]雷琨.电子商务个性化推荐系统研究[D].电子科技大学,2012.

[3]郭韦昱.基于用户行为分析的个性化推荐系统设计与实现[D].南京大学,2012.

[4]王炬.农业信息化进程中的问题及对策研究[D].西南农业大学,2003.

[5]杨宝祝.我国农业信息技术与农业信息化发展战略研究[J].农业网络信息,2007(09):4-8.

[6]胡可云,田凤占.数据挖掘理论与应用[M].2008.

[7]邓大勇.基于粗糙集的数据约简及粗糙集扩展模型的研究[D].北京交通大学,2007.

[8]陈志敏,姜艺.综合项目评分和属性的个性化推荐算法[J].微电子学与计算机,2011(09):186-189.

[9]李岱峰,覃正.一种基于资源多属性分类的群组推荐模型[J].统计与决策,2010(08):153-155.

[10]王荣,李晋宏,宋威.基于关键字的用户聚类算法[J].计算机工程与设计,2012(09):3553-3557,3568.

作者简介:

个性化推荐范文第4篇

关键词:云计算;技术;个性化;系统

中图分类号: TP3 文献标识码: A 文章编号: 1673-1069(2016)32-166-2

0 引言

如今,互联网技术的深入发展,开始与各个领域实现有机融合,更多的人开始参与到在线购物、社交网络等网络活动中,网络给人们提供了一个无限的信息资源空间,这个资源库中包含了各式各样的信息,随之发展起来的信息检索技术便捷了人们对信息的搜索需求,搜索引擎成为用户获取信息的主要渠道,但该技术无法为用户提供个性化的兴趣服务,这就需要建立基于云计算的个性化推荐系统,这也是本文所要分析的主要内容。

1 云计算技术与个性化推荐系统概述

1.1 云计算技术

云计算技术依托的是互联网,将互联网的相关服务以动态化、易扩展、虚拟化的资源提供给用户。云计算的定义有很多种,目前较为认可的是云计算技术是根据用户使用量来进行相应交易的计算模式,云计算能够为用户提供便捷、按需的网络访问,进入网络、服务器、应用软件等可配置的计算资源共享区域,这些可以快速提供的资源,无须进行过多的管理,并与服务供应商交互不多[1]。云计算平台所拥有的超强计算能力,可以应用在模拟核爆炸、预测市场发展趋势及气候变化等活动中。

1.2 个性化推荐系统

推荐系统就是结合用户或顾客的购买行为规律以及兴趣特点来推荐相应的信息或商品,使用户满意。现如今,电子商务发展态势迅猛,商品的种类和数量与日俱增,网络信息是冗杂的,用户或顾客需要花费大量的时间找寻目标信息与商品,信息过载问题直接影响了用户或顾客的满意度,导致用户的流失。个性化推荐系统在此形势下应运而生,所谓个性化推荐系统是利用海量数据挖掘技术,通过云计算平台构建的一种高级商务智能平台,主要服务于网站,为用户提供完全个性化的决策支持和信息服务[2]。

2 基于云计算技术的个性化推荐系统分析

2.1 推荐算法与推荐策略

2.1.1 推荐算法

推荐系统利用各个网页间、网页与关键词之间的粗粒度关联和排序,实现为用户推荐相应信息与商品的服务。随着系统的不断发展,其也开始利用网络化计算能力,注重用户兴趣与模型的分析,而个性化推荐系统是在推荐系统的基础上建立的更高级的信息导向系统。个性化推荐系统的构建需要推荐算法的支持,常用的有协同过滤推荐算法、基于内容的推荐算法、关联规则推荐算法、混合推荐算法等。其中协同过滤推荐算法还可以细分,根据不同的算法特征分为基于用户的推荐算法(也叫作基于存储的算法、基于邻居的算法)、基于项目的推荐算法、基于模型的推荐算法等。这些推荐算法都具有自身的优缺点(详见表1),为了弥补各类推荐算法的缺陷,可以将两种互补的算法结合起来[3]。例如基于内容的算法和协同过滤算法这两种算法,我们可以为用户直接展示用不同算法得出的推荐结果集,也可以先用第一种算法得出一种结果集,再用第二种算法计算第一种结果集,进而得到更加精确的结果,更好地满足用户的需求。

2.1.2 推荐策略

以往许多的推荐系统都是结合单一的推荐算法和推荐策略建立的,在使用的过程中逐步暴露除了系统个性化与适应性方面的缺陷,无法结合实际的应用优化推荐策略。因此,在构建个性化推荐系统时要充分结合当下推荐系统的优势以及瞬息万变的市场需求,制定出综合化、系统化、合理化、可行性较高的推荐策略。

前文分析了各类推荐算法的优缺点及应用场景,基于此,本文提出的个性化推荐系统中应用的推荐策略是根据推荐系统数据量的大小制定的,当数据量偏小时系统会采用传统的个性化推荐算法;当数据量偏大时系统会利用云计算平台进行计算,具体就是将数据集发送到云平台的各个节点来实现多节点分布式大规模数据计算。

2.2 系统架构及流程设计

2.2.1 系统架构

云计算技术集成了分布式计算、网格计算、并行计算和网络存储等先进的技术,其有机整合了多个经济性较好的计算实体,逐步形成了具有超强计算能力的分布式系统。为了充分发挥出云计算技术的优势,本文设计的基于Google云计算平台的个性化推荐系统架构如图1所示,该系统能够对大规模数据进行快速、准确地处理,并且可以根据业务规模的不断扩大进行相应的拓展,充分展示了较高的通用性与扩展性[4]。

基于云计算技术的个性化推荐系统主要包括以下几部分:①推荐计算子系统,该子系统由数据预处理模块、数据挖掘模块、推荐模块组成,其中数据预处理模块的功能包括异构数据的过滤、统计、转换等;数据挖掘模块主要是计算推荐结果的聚类,需要充分利用聚类、关联规则算法进行分别计算;推荐模块则是利用各类算法计算出精准的推荐结果,已达到用户的需求。②业务应用子系统,该子系统主要是为后期的系统扩展服务,根据业务需求的变化转变系统的功能,并为系统需求制定合理的推荐规则。③基础云计算平台,其充分利用集群提供的大容量计算能力,在不同节点上进行大量的计算。

2.2.2 个性化推荐系统的操作流程

本系统的推荐流程是依据Map Reduce软件架构,其是处理海量数据的并行编程模式,主要适合应用于大规模数据集的并行运算,其封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供可以把大容量的计算自动并发和分布执行的简单通用接口。具体如图2所示[5]。

3 结束语

综上所述,开发设计基于云计算技术的个性化推荐系统是适应时展需求的,其能够更好地满足和引导用户信息需求。本文设计的系统还不完善,还需在以后的运行实践过程中不断的改进。

参 考 文 献

[1] 肖理钏.基于云计算模式的图书文献个性化推荐技术研究[J].科技广场,2015(08):22-27.

[2] 毅,刘亚军,陈诚.基于云计算技术的个性化推荐系统[J].计算机工程与应用,2015(13):111-117.

[3] 谷瑞.基于云计算的个性化推荐系统的研究[J].苏州市职业大学学报,2013(04):14-16+21.

个性化推荐范文第5篇

关键词:云书签 个性化推荐 WebOS 网站推荐系统 协同过滤

中图分类号:tp311.5 文献标识码:A 文章编号:1007-9416(2015)04-0063-04

1 引言

随着互联网的高速发展与Web2.0技术的广泛应用,互联网用户的上网需求日益丰富与多元化。如何有效地管理用户浏览的网页、使用的网络应用程序成为一个重要的问题。

WebOS称为网络操作系统,是一种基于浏览器的虚拟操作系统。它提供了一个访问运行在服务器端的网络应用程序的窗口。用户通过浏览器来使用网络应用程序。用户浏览器与服务器程序的通信通过HTTP协议实现。WebOS的界面类似于一般操作系统的桌面。目前的WebOS主要提供网络应用程序的服务。这种服务模式较为单一,网络应用程序的普及度也不高,导致了WebOS未得到广泛应用。用户使用浏览器的最基本需求是浏览网页,必然需要网页书签来收藏和管理自己访问的网页。本文设计的WebOS系统主要基于网页书签服务,提供高效美观的书签管理方式,把握了用户的最基本需求。

面对庞大数目的网站,用户如何快速地获得自己感兴趣的网站而不被海量的信息所淹没以至于花费大量时间搜索无用信息?本文采用了个性化推荐技术来解决该问题。个性化推荐是根据用户的兴趣特点,针对性地为其提供信息和服务,目前主要应用于电子商务中。本文设计的WebOS将该技术运用到网站推荐中,根据用户的收藏记录反映出的兴趣信息,运用协同过滤推荐算法,将符合其兴趣的相关网站推荐给用户,达到拓展性阅读的功效。

本文设计了一个WebOS系统。它基于Linux,Apache,Mysql, PHP,HTML5,Javascript以及Ajax的架构,集成了书签服务、个性化推荐、文件管理与网络应用程序管理的功能,提供流畅快捷的用户体验。

2 网站个性化推荐

2.1 功能描述

当今互联网中网站的数量是巨大的,而大多数人常访问的网站数却很少。海量的网站信息很容易将用户淹没,增大了用户找到自己真正感兴趣的信息的难度。用户获取网站信息的主要途径为搜索引擎和门户网站。这两种方式本质都是“人找信息”的模式,均存在信息过载和无法根据用户兴趣进行个性化信息服务的缺点。本文设计的系统引用了个性化推荐技术,采集用户的网页收藏和浏览记录,依据一定的推荐算法,为每个用户针对性地推荐符合其兴趣的网站。例如某用户经常在淘宝网上购物,系统察觉他的网上购物的兴趣,就会自动推荐给他亚马逊、京东商城、Ebay等一些优质的购物网站,提供他更多元化的选择。

2.2 推荐算法概述

推荐算法是个性化推荐系统中最核心与关键的部分,很大程度上决定了系统性能的优劣。目前应用较广的推荐算法主要有协同过滤推荐、基于内容推荐、基于用户信息推荐、基于知识和规则的推荐等。互联网中网站和用户的数量都是非常巨大的,网站的类别与用户的需求也千差万别。本系统目标是同类网站推荐。对于某一类网站,网站数量远小于用户数量。基于项目的协同过滤比传统的基于相似用户的协同过滤方法计算量更小、准确度更高。网站的信息几乎是全领域而不是面向某一特定领域(如图书、电影)的,很难像基于相似用户的协同过滤算法那样找到完全“兴趣相近”的用户。基于这些特点,经过一定量的实验,本系统决定主要采用基于项目的协同过滤算法(item-based collaborative filtering algorithms)。算法基于用户的收藏和浏览频率给网站赋予评分值,根据评分值计算已评分项目与待预测项目的相似度,再以相似度作为权重,加权各已评分项目的评分,得到预测项目的预测评分值,以预测评分值作为排序依据得出Top-N推荐项目表。

2.3 数据模型

该算法的核心数据模型是一个用户-项目评分矩阵A,如表1。矩阵的行代表用户,列代表网站,矩阵单元的值为用户给网站的评分。评分可通过用户对网站的收藏和浏览频率来确定。

在矩阵中,假设用户数量为,网站数量为。则为的矩阵。其中,第行代表用户,第列代表网站。第行第列的值表示用户对网站的评分。

2.4 用户对网站评分的计算方法

在传统的推荐系统中,用户对项目的评分由用户的打分行为显示确定。用户对项目的评分值在一定范围内浮动,如0到10。分数越高表示用户对项目的喜好度越高。

而在本文设计的网站推荐系统中,用户不会对网站做显示的打分行为。用户对网站的兴趣体现在收藏和浏览频率上。因此,我们用这两个指标来计算用户对网站的评分。

设为该用户收藏该网站子页面的个数。用户收藏一个网站的子页面越多,这个网站对他就越重要。设为近一段时期内用户访问某网站的频率,频率等于从当前时刻向前推一段时间间隔中用户访问网站的次数/这段时间间隔的长度。用户访问一个网站的频率越高,表示他对该网站的兴趣越浓。而用户的兴趣又是随时间变化的,一段时间内可能对某类特定网站感兴趣,过一段时间又可能聚焦于新的兴趣。固采用近期访问频率作为指标能够反映用户兴趣的变化。

用户对网站的评分值为上述两个指标的函数:

函数的规则有很多设定方法。本文采用两个指标的加权平均值确定:

式中权重,由系统设定。

2.5 未评分项目的处理方法

由于使用网站收藏与浏览量来确定用户给网站的评分,使得评分的计算不同于一般的推荐算法。我们定义如果用户对某个网站没有评分,则该用户对该网站的评分值为0。这样做的原因是:用户对网站的评分是隐式进行的,并不会通过打分的方式进行评分。收藏是反映用户对网站的兴趣的最重要因素。一个用户对大部分收藏的网站的浏览量差别不会很大。如果仿照一般的推荐算法,在计算两个网站相关度时仅考虑同时收藏两网站的用户,则用户对网站的评分向量很可能差别甚微,甚至相似度接近于1而失去比较意义。如果将未收藏其中一个网站的用户加入进来,他们对未收藏的网站的评分设为0,则相似度计算会有较大差别,可较客观地反映用户兴趣的差异。

2.6 算法输入与输出

本文采用的推荐算法的输入部分为所有用户对网站的评分信息,这些信息储存在数据库中,用以构建数据模型。在实际系统中,输入信息由用户的书签和他收藏网站的浏览量获得。

输出包含两部分。一是用户对于其没有评分的网站的预测评分,二是由用户可能感兴趣的网站组成的Top-N推荐列表。

2.7 网站相似度计算

协同过滤算法中项目间的相似度计算方法主要有余弦相似性、相关相似性和修正的余弦相似性。后两种方法实际是对余弦相似性算法的两种修正。

在表1的矩阵中,我们把每个网站的评分信息看成是一个维线性空间的向量。两个网站间的相似度用相应的两向量的余弦夹角表示。

计算网站和网站相似度之前先找出至少收藏其中一个网站的用户集。设为矩阵中用户的全集,用户对网站的评分为,对网站的评分为。则

令两个不同网站和的评分向量为与,则它们的相似度可用以下公式算出:

另外我们令(为方便后续计算)。

由于不同用户的评分尺度是不一样的,仅以用户评分为网站得分依据的余弦相似性算法忽略了这一点。因此,我们对余弦算法进行了修正,在计算时将用户给网站的评分减去网站所得的平均分,以提高准确度。为此,我们令表示集合中的用户给网站的评分的算数平均值。则相似度计算公式为:

修正余弦相似性是对余弦相似性算法的另一种修正方案。它在计算网站相似度时将用户给网站的评分减去该用户对所有网站的评分的平均值。由于网站推荐将未评分的网站设置为0分,且每个用户参与评分的网站只占全体网站的极小部分,所以在计算用户平均评分时不考虑评分为0的网站。我们令为用户对他所评分的所有网站的评分值的算数平均值。则相似度计算公式为:

2.8 预测评分

对于某一目标用户,我们令集合表示他已评分的网站,表示他未评分的网站。

预测评分的目标是根据目标用户对已评分项目的评分与已评分项目和未评分项目的相似度,计算出他对未评分项目的预测评分。本文使用的算法是:对于某一待评分网站,它的预测评分为该目标用户已评分网站的分值的加权平均值,权重为它们与该待评分网站的相似度。

求目标用户对某个他未评分网站的预测评分的计算公式为:

2.9 推荐算法优化

上述算法是理论上的协同过滤算法。在实际应用中会遇到一些问题。为此,我们需要对算法进行进一步优化以提高运行效率和推荐准确度。

如果将全体用户与全体网站构成的矩阵进行计算,计算量将是十分庞大的。由于用户和网站都是海量的,导致用户-网站评分矩阵稀疏性很高。本文设计的优化方法旨在降低稀疏性与计算量。

对于海量的网站,系统先对其进行聚类分析。这么做是因为系统的目标是对相关网站的推荐。推荐相关网站才符合依据用户兴趣的要求。计算一个购物网站和一个社交网站的相似度是没有意义的。因此,系统基于网站内容对网站进行聚类,对用户的推荐目标网站必须是与他的已收藏网站处于一个类中的。这样就大幅度减少了计算矩阵的列数。

对于海量的用户,我们也对其进行聚类分析。由于不同地区、年龄、职业、社交群体的用户群所关注的信息集是有很大差别的,我们将不同用户群的推荐计算任务独立开来分别执行。这样就减少了用户-网站矩阵的行数。很多推荐系统中所反映的基于好友的推荐效果比单纯基于算法的推荐效果更好体现了将用户聚类与划分群体方法的优越性。

推荐系统的冷启动问题一直存在。冷启动问题是指推荐系统刚刚建立时,由于用户数很少,评分数也很少,导致推荐系统性能不稳定,用户就不能得到有价值的推荐。本文设计的解决方案是为刚注册的用户人工推荐一些热门的网站作为初始数据,用户若不喜欢可以删除。这就使得初始的推荐由加法模型变成了减法模型。这种减法模型的依据是网站推荐与一般的商品推荐存在一个重要区别。那就是存在一些主流、热门的大网站是大部分用户都会访问的。这样就一定程度上解决了冷启动问题,使得刚注册的用户也能很好地使用系统,不会失去兴趣。

2.10 推荐系统性能的量化评估

推荐系统预测评分的质量一般采用预测分值和实际分值的平均绝对误差(MeanAbsoluteError,MAE)来衡量。对于某一用户,令表示用户对网站的实际评分,该评分从用户-网站评分数据库中获取。令表示用户对网站的预测评分,它由上文所述算法计算得出。令集合表示该用户已评分的网站,如公式2-7所示,表示集合的元素数目。则对于用户的由以下公式算出:

由于评分误差的大小受评分区间的影响。未排除这一因素,我们引入了平均相对误差,它是用平均绝对误差与评分区间宽度的比值表示:

衡量整个推荐系统预测评分质量的指标为所有用户的的算术平均值。令表示全体用户的集合,表示全体用户的数目。

Top-N推荐质量的衡量采用信息检索领域的评分标准,即准确率(precision)和召回率(recall)。对于某个目标用户,表2给出了网站收藏与推荐的关系。

由此表可计算出系统的准确率和召回率:

最终整个系统的准确率和召回率分别是所有用户准确率与召回率的算数平均值。

3 实验结果与分析