协同过滤推荐算法综述 协同过滤算法.docx
协同过滤推荐算法综述 协同过滤算法 摘要:举荐系统是电子商务系统中最重要的技术之一,协同过滤举荐技术是目前应用最广泛和最胜利的举荐技术。本文首先介绍了协同过滤的基本概念和原理,然后总结了协同过滤举荐算法中的关键问题和相关解决方案,最终介绍了协同过滤举荐算法须要进一步解决的问题和可能的发展方向。Abstract: Recommendation system is one of the most important technologies in E-commerce. Collaborative filtering is the most widely used and the most successful recommendation technology. This paper first introduces the basic concept and principle of collaborative filtering. And then, this paper summarizes the key problems and related solutions of the collaborative filtering recommendation algorithm. Finally, this paper introduces the collaborative filtering recommendation algorithm need to be further solved problems and possible development direction.关键词: 协同过滤;举荐算法;稀疏性;扩展性Key words: collaborative filtering;recommendation algorithm;sparsity;scalability中图分类号:TP39 文献标识码:A 文章编号:1016-4311(2022)21-0226-030 引言随着电子商务和互联网的快速发展,人们能够获得的资讯越来越多,但是想快捷地获得自己感爱好的资讯越来越难。近年来兴起的特性化举荐系统成为解决这些问题的一个重要途径。特性化举荐系统许多,协同过滤举荐是当前最胜利的举荐技术1。协同过滤的概念是由Goldberg、Nicols、Oki以及Terry在11012年首次提出的2,应用于Tapestry系统,其基本思想是:通过对用户的显式输入或隐式输入的历史数据收集并统计计算,预料与此用户爱好相像的用户,并将其相像用户感爱好的项目举荐给此用户。目前,主要的协同过滤举荐算法有两类:基于用户的协同过滤举荐算法和基于项目的协同过滤举荐算法。本文对协同过滤举荐算法中的关键技术进行了具体的介绍,并对协同过滤举荐算法中存在的问题进行了分析,同时也介绍了一些解决问题的改进方法和算法评估方法,最终对协同过滤举荐算法的发展进行了展望。1 传统的协同过滤举荐算法传统的协同过滤举荐算法可以分为三个步骤:1.1 构建用户-项目评价矩阵 用户评分数据可以用一个m×n的用户-项目评价矩阵Rm×n来表示(如图1所示)。其中,m行表示用户的数量,n列表示项目的数量,第i行第j列元素Rm×n表示用户i对项目j的评分。1.2 最近邻居集的形成 这一步骤是基于用户的协同过滤举荐算法的核心步骤。对目标用户u,算法找到与其相像度最高的K个用户,这K个用户就是该目标用户的最近邻居集合N(u)=u1,u2,uk,u?埸N(u)且N(u)中的用户uk按其与用户u之间的相像度sim(uk,u)(1kK)由大到小排序。传统的计算用户相像度的方法有三种3:余弦相像性(Cosine Similari):把用户对项目的评价看做n维项目空间的向量,两个用户间的相像性通过二者向量夹角的余弦度量。设用户i和用户j在n维项目空间的评分分别用向量和向量表示,则两者间的相像性为:sim(i,j)=cos(i,j)=。相关相像性(Correlation Similar):相关相像性也称皮尔森(Pearson)系数相关,通过皮尔森(Pearson)相关系数来度量用户间的相像性。设用户i和用户j共同评分的项目集合用Iij表示,则两者间的相像性为:sim(i,j)=其中,Ri,c和Rj,c分别表示用户i和用户j对项目c的评分,与分别表示用户i和用户j对项目的平均评分。修正的余弦相像性(Adjusted Cosine Similari):由于余弦相像性度量方法中没有考虑到用户不同的评价尺度问题,在修正的余弦相像性度量方法中通过减去用户对项目的平均评分来改善上述缺陷。设用户i和用户j共同评分的项目集合用Iij表示,Ii和Ij分别表示用户i和用户j评分的项目集合,则两者间的相像性为:sim(i,j)=其中,Ri,c和Rj,c分别表示用户i和用户j对项目c的评分,与分别表示用户i和用户j对项目的平均评分。1.3 产生举荐 目标用户的“最近邻居”集产生后,可以计算两类结果:用户对随意项的爱好度的预料值和Top-N 形式的举荐集。目标用户对随意项的爱好度的预料值。目前大部分协同过滤举荐系统都采纳平均加权策略来产生举荐,目标用户i对项目c的预料评分为:P=+其中,sim(i,j)为用户i和用户j的相像度,Rj,c为最近邻居中的用户j对项目c的评分,与分别表示用户i和用户j对项目的平均评分。Top-N 形式的举荐集。分别统计“最近邻居”集中的用户i对不同项的爱好度的加权平均值,取其中N个排在最前面且不属于Ii(Ii表示用户i评分的项目集合)的项作为Top - N举荐集。 第5页 共5页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页第 5 页 共 5 页