大数据应用-基于大数据的推荐算法研究13886.pptx
《大数据应用-基于大数据的推荐算法研究13886.pptx》由会员分享,可在线阅读,更多相关《大数据应用-基于大数据的推荐算法研究13886.pptx(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于大数据的推荐算法研究基于大数据的推荐算法研究 论文框架论文框架 2 2TopKS算法3 3基于项目层次结构相似性的推荐算法4 4矩阵分解并行化5 5总结与展望1 1课题背景与研究意义图书推荐图书推荐新闻推荐亚马逊亚马逊当当当当网网淘淘宝宝网网央广网央广网课题背景l启发式的协同过滤 代表的方法:KNNl基于模型的协同协同过滤 代表的方法:矩阵分解课题背景l余弦距离l皮尔逊相关系数luser1(3,2,?,4)user2(2,3,?,?)user3(?,?,4,3)user4(4,?,?,1)user5(?,5,5,?)课题背景.X21*y21+x22*y22+x23*y23 3u2v2.=l
2、交替下降l梯度下降研究意义l用户量猛增l项目(商品、新闻等)数量猛增l推荐算法的可扩展性不强TopkS算法l采用余弦距离和皮尔逊相关公式累加性特点l引入倒排索引数据结构l结合TopK思想TopKS是Top K Similarity的简写,即最大的前K个相似度。主要包含以下三部分:TopkS算法余弦距离余弦距离皮尔逊相关系数皮尔逊相关系数TopkS算法倒排索引倒排索引TopkS算法计算u1和其他用户的相似度 TopkS算法 假设查找用户ui的最近邻用户,当前计算到用户ui和uj第k1个共同项目(i!=j),而ui和uj有k个共同评分项目,则分为两种情况:1.如果uj已经在最近邻列表LS中,则直接
3、更新列表中的相似度;2.如果uj不在最近邻列表LS中,则计算用户ui和uj可能的最大值,下面是余弦距离和皮尔逊相关系数可能的最大值:余弦距离TopkS算法皮尔逊相关系数计算出 之后,是从LS中剔除最小值,插入uj把uj加入黑名单否TopkS算法不同稀疏度对近邻计算的影响 TopkS算法不同规模用户数量上的比较实验 TopkS算法不同K值对执行时间的影响 基于项目层次结构相似性的推荐算法基于项目层次结构相似性的推荐算法相似度度量节点之间的距离度量:然后利用最短路径算法Dijkstra结合TopK思想找到最相近的项目;基于项目层次结构相似性的推荐算法三种算法效果对比矩阵分解并行化目标函数采用梯度下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 应用 基于 推荐 算法 研究 13886
限制150内