数十篇推荐系统论文被批无法复现:源码、数据集均缺失性能难达预期.docx
《数十篇推荐系统论文被批无法复现:源码、数据集均缺失性能难达预期.docx》由会员分享,可在线阅读,更多相关《数十篇推荐系统论文被批无法复现:源码、数据集均缺失性能难达预期.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数十篇推荐系统论文被批无法复现:源码、数据集均缺失,性能难达预期|MaurizioFerrariDacrema译者|凯隐责编|Jane出品|AI科技大本营ID:rgznai100【导读】来自意大利米兰理工大学的Maurizio团队近日发表了一篇极具批判性的文章剑指推荐系统领域的其他数十篇论文指出这些论文中基于深度学习的推荐算法大局部都存在不同程度的数据集缺失以及源码缺失导致它们无法复现而那些可复现的算法其性能也难以到达预期甚至难以超越基于传统的、简单的机器学习推荐算法。推荐系统领域研究的潜在问题近年度来基于深度学习的算法是非常热门的研究方向其在许多领域如计算机视觉自然语言处理等领域都获得了宏大
2、的成功因此许多研究人员也期待能借助深度学习方法在推荐系统领域获得突出的进展例如基于长期依赖配置以及基于场景的top-n推荐算法。近年度来也有许多基于深度学习的推荐算法发表在知名会议以及期刊上然而过去有工作指出这些深度学习推荐算法并不是完全可信的主要存在以下三个问题许多声称有提升的方法事实上并不能超越经过合理调参的基准比照工作甚至不能超越很简单的传统方法。详细来讲这些方法在实验上存在一定的缺陷。基准比照工作的选择问题许多方法选择的比照工作本身就有问题不是广义上的基准工作。并且该领域的基准工作很混乱不太统一。不同工作采用的数据集验证方法性能指标数据预处理步骤都不同这使得性能比照很困难无法确定哪个工
3、作在一样的应用环境中表现最好。而且很多工作不开源数据以及代码这不符合如今的代码开源趋势甚至即使开源了也不把完好代码放出来。系统的算法评估标准为了深化探究基于深度学习的推荐算法是否存在以上问题制定了两个算法评估标准可复现性能否通过代码以及数据集重现文中的实验结果性能评估这些工作以及基准工作相比能进步多少在此标准的根底上评估了近几年度发表在顶尖会议上运用深度学习方法来实现top-n推荐的18篇工作最后发现只有七篇工作是可复现的而这7篇工作中有6篇都没能超越传统的、经过合理调参的启发式方法。即使是简单地将最流行的items推荐给每个用户TopPopular也能在特定的性能指标衡量下超越深度学习方法到
4、达最优。文章可复现性判断一调研文章范围采集了2021年度到2018年度KDD、SIGIR、WWW以及RecSys会议上的研究工作这些论文都是采用基于深度学习的方法来解决top-n分类问题的。在此根底上只考虑与精度评估有关的工作因此最终挑选出了18篇文章。二可复现性的数据以及代码标准首先尽量通过文章原提供的源码以及数据来复现结果。由于有过多的实现细节和验证程序需要考虑想要单纯的依靠提供的资源来重现文中的结果是很难的。为解析决这个问题扩大了代码以及数据的搜索范围只要是以及原文章有关的代码即便不是官方代码也考虑在内假如实在找不到现成的实当代码以及数据就联络原文并等待30天。在进展了以上步骤后将同时知
5、足以下两个条件的文章定性为可复现文章详细的1、有源代码并且源代码只需要微小的细节改动例如调整途径调整工作环境就能正确运行。假如只是有一个代码框架而缺少许多细节是不知足这个要求的。2、至少有一个文中用到的数据集是可以获得并使用的某些文章用的数据集是自建数据集或不是公开数据集对于而言很难获取。而且训练集以及验证集的划分方法也是在文中或源码中进展明确阐述的。最终18篇文章中只有7篇知足以上条件具备可复现性。还表示“这是一个惊人的结果假如深化追究可能会涉及到学术造假问题就不贴那些结果不能复现的文章编号了。可复现工作的性能评估在挑选出7篇可复现的工作后进一步的评估了它们的性能。为了保证不同方法之间的可比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数十篇 推荐 系统 论文 无法 复现 源码 数据 缺失 性能 预期
限制150内