毕业论文外文翻译-一种基于混合体裁的个性化推荐算法.doc
《毕业论文外文翻译-一种基于混合体裁的个性化推荐算法.doc》由会员分享,可在线阅读,更多相关《毕业论文外文翻译-一种基于混合体裁的个性化推荐算法.doc(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、译文:一种基于混合体裁的个性化推荐算法2摘要 由于互联网上严重的信息过载问题,作为最重要的解决方案之一,推荐系统已被广泛使用于帮助用户找到更有价值的信息。然而,传统的协同过滤方法通过评级的稀疏性和冷启动达到精准推荐。在本文中,提出一种基于传统用户的混合的协同过滤方法(CGCF),也称为为一种新的基于类型的协同过滤方法(GCF)。GCF是结合用户评分项类型前对个人风格偏好采用了一种用于信息检索与数据挖掘的常用加权技术(TF-IDF)。而结合GCF和用户基础协同的动态加权滤波,我们提出了CGCF。根据在MovieLens数据集的实验,当与基于项目的协同过滤比较时,CGCF已经减少了2.2%的MAE
2、和提高了16.9%覆盖率。当与基于用户的协同过滤进行比较时,CGCF已经减少了2.5%的MAE和提高了6.2%覆盖率。结果表明,与传统的比较所提出的方法显然提高了推荐的精度和覆盖范围。关键字:协同过滤,TF-IDF,数据备份,用户类型分布,动态权重。1. 简介 近年来,电子商务系统的快速发展给人们带来了极大的方便。我们可以在室内浏览、购买和享受各种服务。然而,无数的商品使我们头晕。快速而有效的找到货物的方法成为我们的迫切愿望。随着处理信息的能力严重的过载和为个人用户提供更个性化的服务,个性化推荐系统被视为最有用的解决方案。协同过滤技术是个性化推荐系统的最受欢迎的方法。协同过滤推荐系统1,2从历
3、史行为收集用户的偏好,然后根据他们的利益,向他们推荐特定的项目。在当前推荐系统中,基于用户和项目的技术是最流行的技术。前者的技术模拟过程中,你的志同道合的朋友会介绍一个新产品给你。它会发现用户的潜在利益。另一个会推荐目标用户之前消耗的有类似的反馈信息的项目。它就像一个用户高度评价了一部名为星际的电影,一个类似评级的电影会推荐复仇者联盟。显然,这两种技术完全地依赖于排名矩阵,然而,商品的数量是巨大的,不过,一些用户可能不评论有消耗的产品。这使得协同过滤的矩阵是不够的,这带来了两个明显的问题 3,4 被称为“数据稀疏性”和“冷启动”。降低数据稀疏性和有效解决冷启动问题的方法是当前的主要发展方向研究
4、。最常见的方法考虑了人口统计信息来填补缺失的分数。戴5等人假设用户有类似的人口统计信息可能也会有类似的偏好。然而,以确保用户有类似的偏好,光有人口信息是不够详细。此外,基于资源特性的预测填充算法 6 为了填补缺失的Yajie Hu,Yi Yang,Caihong Li,Yachen Wang,Lian Li;Ahybridgenre-basedpersonalizedrecommendationalgorithmA;2016 IEEE 11th Conference on Industrial Electronics and Applications (ICIEA)C;IEEE;P.1369-
5、1373评级采用了加权值的邻居资源评级。而我们需要的特性是很难获得的,并且代表性的特点是难以判断的。许多聚类方法已被应用在协同过滤,如k-均值 7 和合作聚类方法 8,9 。他们可以减少由矩阵的稀疏性引起的影响,并提高预测精确。然而,这些方法将消耗不可避免的时间,是不可能提供在线服务。杰西等人表示被用户标记的标签能够强烈地反映用户的真实偏好。然而,如果标签技术被应用到为用户推荐的项目,获取标签的过程将使用户感到有负担。为了解决没有太多的用户参与的数据备份和冷启动问题。在本文中,我们提出了一种混合的协同过滤方法命名为CGCF。它由两部分组成:一种基于体裁的协同过滤(GCF)处理新项目冷启动并为用
6、户提供一些评级;和传统的基于用户的协同过滤算法。结合这两个部分的动态重量,提出的混合方法。本文的其余部分组织如下:第2部分回顾了推荐系统的基本流程和相关的相似度计算方法。在第3部分中,提出了CGCF混合协同过滤方法及其形式的过滤过程。第4部分中,对MovieLens数据集的新方法与经典方法的性能进行比较。第5部分中,总结了我们的方法,并提出了我们未来的研究方向。2. 相关技术基于评价矩阵,传统的协同过滤的目的是解决信息过载的问题,并帮助用户找到自己的利益。第2.1部分介绍了一个经典的推荐过程。第2.2部分回顾几个最有用的相似性计算技术。在表:1中给出了评价矩阵的一个简单样本。表1 用户类型评分
7、矩阵的一个例子2.1经典推荐程序 大家都知道,经典的推荐过程中的协同过滤可以分为以下四个步骤:第一步骤,在用户项目评分矩阵中寻找类似的用户或项目邻居第二步骤,使用邻居评级的加权总和来预测新项目第三步骤,按递减顺序排序预测新项目第四步骤,推荐根据项目的用户目标2.2相关相似计算技术 众所周知,整个方法的最重要的部分是获得适当的用户或项目邻居。我们如何才能得到合适的邻居?传统的相似性度量方法如表2所示:表2 传统的相似性度量方法余弦是基于项目的协同过滤的经典方法。它将目标用户A和B作为两个评价向量,并计算向量的相似性的角度。由于余弦相似性不采取个人评价尺度成帐户,有些人喜欢标记高评级,但有些人不喜
8、欢。因此,为了纠正预测结果,调整后的余弦使用用户的平均评价。基于线性关系的两个用户相似性度量的相关系数,结果范围从- 1到1。Jaccard系数作为基于评级的集中与分散的概率评价两用户的相似性。基于常见的项目,所有这些技术取决于用户的评分。面对评级数据库的高度稀疏性就像表格1,以上计算的结果不足以推荐。例如,如果我们评估的用户1和用户2的相似性,在表1中我用以下的技巧分别。各种与人相关系数、余弦、修正的余弦和Jaccard的结果分别为不同的100%、61.9%、40.9%、20%等。对于上述措施,例如表明丢失的容量计算与备用评级数据的相似性。为了提高推荐算法的性能,必须解决数据稀疏的问题。3.
9、 CGCF方法该方法使用项目类型信息来修改评价矩阵。用户类型剖面作为选择新项目和评价项目的标准消耗。预测评级的过滤过程如第3.1部分所示。在以下四个部分中指出了新方法的一些其他重要组成部分。3.1框架概述 新的过滤模型预测的评级由用户项目配置文件和用户类型的配置文件组成。一些部分的细节描述的流程如下图图1所示。图1 推荐的过滤过程3.2 个性化项目类型提取与量化在此之前,一些假设被定义在这里:(1)项目的用户评分可以反映用户对项目类型的偏好(2)项目类型的用户配置文件有一个过滤功能来选择新的项目(3)多个流派共同决定项目的用户配置文件显然,一个项目可以有一个或多个类型属性例如,一部电影可以被标
10、记为冒险、喜剧、行动和西方。因此每一个项目都可以如下所示。I =Gi | i1.m (1),Gi可以是0或1,m是由算法选择的特征数。3.3 个性化风格权重分配因为不同类型的用户有不同的偏好,这体现了TF-IDF原理应用于个人量化项目类型的重要性。以t用户为例,详细介绍如下:该算法使用的用户t的平均评级为边界将R分为Lt和Ht两个部分。更多的项目在Lt自己拥有的Ga中,而较少的项目在可以推荐用户t喜欢的项目Ga但不包含Ga的Ht中。这样Ga更有可能预测用户t的配置文件。相反地,越少的项目在Lt自己拥有的Ga中,而较多的项目在可以推荐用户t不喜欢的项目Ga但不包含Ga的Ht中。这样Ga较难预测出
11、积极的用户配置文件。基于这一原则,每一个个性化的体裁权重。对于用户可以计算如下:ntal是在Ga和Lt之间的项目计数,na是Ga和R之间的项目计数,Na是R的项目计数。3.4 评级矩阵变换 根据项目评价和特征权重,每一个用户的类型的定量评价,可以得到公式(3)。用户类型评级矩阵可以得到表3。Wta的评级是从用户t中得到的,n是被用户t喜欢的项目的数量,r代表用户t对项目i的评价。表3 用户类型评级矩阵3.5 评级预测我们的混合方法使用类似的邻居预测的缺失评级于公式(4)。如果目标项目没有被任何人评价,它将被预测于公式(5)。所有这些等级降序排序,n个高于阈值的项目将被推荐给目标用户。阈值被认为
12、是目标用户的平均评级。是用户t和用户v的平均评级率,分别地,sim(u,v)是用户t和用户v的相似性,Rv,i是从用户t的项目i的评级,是这个项目类似的设置在S1和S2的人数比例的用户评价。Stk是用户t的类型评级,n是项目i所包含的类型的数量。4. 实验结果与分析4.1 数据集MovieLens数据集进行评估的有效性的混合方法。这是收集GroupLens研究项目。该数据集包括100000个评级从943个用户在1682个电影。所有的电影都有19种不同的类型。每部电影都至少有一个流派和最多五种类型。每个用户都额定至少20个电影。所有评级之间的最低值为1和最大值5。数据集的稀疏性近似为93.7%。
13、随机选择80%个数据集作为训练集,其他20%个作为测试集。4.2 预测质量测量 有多个指标来衡量预测和推荐质量。,平均绝对误差(MAE)和覆盖率这两个流行的指标在本文中是应用的混合协同过滤算法的性能来衡量的。E是可以从该算法中预测的项目集。这意味着测量预测精度的平均绝对误差(MAE),它认为预测的项目和实际评级率之间的平均误差。值越小,预测精度越高。ri是实际评级,pi是是预测评级的算法,n是在E中的项目的数量。推荐给用户的k个邻居的范围的措施。它主要考虑可以预测的项目的总数的数量的比率,可以预测到的总测试集。它是实用性最重要的指标之一。价值越高,推荐质量越好。n是可以预测的项目数,N是总测试
14、集的数量。4.3 性能评估 为了评估我们的CGCF的实用性,我们通过这两个统计变量(MAE和覆盖率)比较基于用户、基于项目,进而比较了CGCF和GCF。所有这些方法的使用adjustedcosine作为测量用户相似性的基本方法。结果如图2,图3和表4所示。从实验的结果可以看出,在MAE中CGCF有最低值和最高值的范围,这意味着CGCF有最好的推荐性能。通过观察不同邻居列表的每一个值,当邻居的号码是10,CGCF几乎具有相同的基于项目的协同过滤的MAE值,但覆盖率高35.8%;当邻居数小于20时基于项目的协同过滤具有比基于用户的协同过滤和GCF更好的MAE,随着越来越多的邻居,当邻居数为30时,
15、基于项目的协同过滤在MAE上失去了优势,所有这些算法将接近最优的MAE值。从图3我们可以看到CGCF覆盖价值比其他三种算法有绝对的优势。此外,CGCF可以预测约29种通过基于用户和基于itembased协同过滤不能预测的冷启动项目。这是一个伟大的突破。所有的实验结果都显示在表4中。对比实验结果表明,CGCF具有更好的MAE和覆盖率。它优于其他三种方法。图2 四种算法的MAE值图3 四种算法的覆盖率表4 统计四种算法的两种措施4.4 结论在本文中,我们使用的项目类型变换的原始评级矩阵。新的矩阵,减少了数据的稀疏性。之后,得到个性化的流派简介的基于新的矩阵。结合类型分布和基于用户的过滤,我们提出了
16、一种协同过滤方法命名为CGCF。在MovieLens数据集上的实验结果表明,它克服数据稀疏的限制和获得推荐的精度和覆盖性能更好。在未来,为了评估用户的配置文件,除了项目类型,这种方法将考虑一些其他的有用的功能。此外,类型过滤和传统的协同过滤的权重可以有一个更合理的的方式。感谢作者要感谢中国自然科学基金(61300230)、广西混杂计算与集成电路设计分析和基础研究基金,中央高校支持本研究重点实验室开放基金。原文二:A hybrid genre-based personalized recommendation algorithm AbstractBecause of the serious in
17、formation overload problem on the internet, the recommender system as one of the most important solutions has been widely used to help users find more valuable information. However, the traditional collaborative filtering method is seriously affected by the rating sparseness and cold start to obtain
18、 the precise recommendation. In this paper, a hybrid collaborative filtering method (CGCF) based on the traditional user-based collaborative filtering, as well as, a new approach named genre-based collaborative filtering (GCF) is proposed. GCF uses term frequencyinverse document frequency(TF-IDF) to
19、 combine users former ratings with item genres to quantize individual genre preference. Combining GCF and User-bsed collaborative filtering with dynamic weight, we proposed the CGCF. According to the experiment on Movielens dataset, when comparing with Item-based collaborative filtering, CGCF has re
20、duced MAE by 2.2% and improved Coverage by 16.9%. When comparing with User-based collaborative filtering, CGCF has reduced MAE by 2.5% and improve Coverage by 6.2%. The results demonstrate that the proposed method improves the precision and coverage of recommendation obviously comparing with the tra
21、ditional ones.Keywordscomponent; collaborative filtering; TF-IDF; data spareness; user genre profile; dynamic weightINTRODUCTION In recent years, the rapid development of e-commerce systems have brought a great convenience to people. We can browse, purchase, and enjoy all kinds of servives indoors.
22、However, countless goods make us dizzy. A rapid and efficient way of finding the goods becomes our urgent desire. With the capacity of dealing with the serious information overload and provide more personalized services for individual users, personalized recommender systems are regarded as the most
23、useful solutions. Collaborative filtering is the most polular approach of personalized recommender systems. Collaborative filtering recommender systems 1,2 collect users preferences from the historic behaviors, and then recommend specific items to them depending on their interests. User-based and It
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业论文 外文 翻译 一种 基于 混合 体裁 个性化 推荐 算法
限制150内