基于社群挖掘的用户个性化信息推荐方法研究-余以胜.pdf
《基于社群挖掘的用户个性化信息推荐方法研究-余以胜.pdf》由会员分享,可在线阅读,更多相关《基于社群挖掘的用户个性化信息推荐方法研究-余以胜.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报 2017年10月 第36卷 第10期 Journal of the China Society for Scientific and Technical Information, Oct. 2017, 36(10): 1093-1098 收稿日期: 2017-03-25; 修回日期: 2017-07-01 基金项目: 广东省公益研究与能力建设专项“基于社会网络分析的区域协同创新体系研究” ( 2014B0714021388) 。 作者简介: 余以胜,男, 1975 生,博士,副教授,主要研究方向为电子商务与信息经济;徐剑彬,男, 1991 年生,硕士,主要研究方向为商务智能、社会化网
2、络、个性化推荐;刘鑫艳,女, 1992 年生,硕士,主要研究方向为个性化推荐、文献计量学, E-mail: 。 基于社群挖掘的用户个性化信息推荐方法研究 余以胜1,徐剑彬2,刘鑫艳1( 1. 华南师范大学经济与管理学院,广州 510006; 2. 顺丰控股(集团)股份有限公司,深圳 518000) 摘 要 当前情报学科的发展目前呈现出多维度、跨学科等特点,而结合个性化信息推荐算法,可为其注入新活力。本文的研究是为了提高个性化信息推荐的效果,解决个性化信息推荐的稀疏性问题,以期可以促进情报学科的新发展,为此,我们引入了社群挖掘概念,得到 TO 算法,在协同过滤或关联规则推荐之前先对数据进行社团划
3、分,通过对 Book-crossing 公开数据集的验证分析,并与对照算法相比,我们发现 TO 算法的准确率和调和度都最佳。 关键词 社群挖掘;个性化推荐;情报学科建设 Research on Personalized Information Recommendation Based on Community Structure Mining Yu Yisheng1, Xu Jianbin2and Liu Xinyan1(1. Department of Economics and Management, South China Normal University, Guangzhou 510
4、006; 2. S.F. Express, Shenzhen 518000) Abstract: The development of information science is characterized by its multi-dimensional, interdisciplinary nature, and a personalized recommendation algorithm will inject new vitality into it. The research presented in this paper aims to improve the effect o
5、f personalized recommendation and to solve the sparseness problem of individual rec-ommendations, to promote new developments in information science. To this end, we import community structure mining into personalized recommendation, which is called the TO algorithm. We mine the community structure
6、of users and items before performing association rule exploration and collaborative filtering. The empirical test based on the Book-Crossing open dataset proves that the precision and F of the proposed algorithm is the best among com-parison algorithms. Key words: community structure mining; persona
7、lized recommendation; information science construction 1 引 言 随着互联网技术的迅速发展,情报学在方法移植、学科交叉的学术背景下呈现出跨领域、多维度的发展态势,情报信息也展示出爆炸式的发展趋势,那么该领域的学者如何能全面、精准、便捷的获取所需信息,减少信息冗余,这成为研究者要深入研究的一个重要课题。因此,作为解决信息过载最有效的手段之一的用户个性化信息推荐方法应运而生,学术圈对其认可程度也正在快速提升。我们将基于社群挖掘的用户个性化信息推荐方法进一步应用在网络信息资源管理、企业竞争情报、信息传播等领域,希望个性化信息推荐方法为情报学带来
8、新的研究思路和方法,促进情报学的发展1。 万方数据1094 情 报 学 报 第 36 卷 目前为用户提供个性化信息推荐服务已经成为众多网络平台的发展方向,然而我们也清楚地认识到,虽然个性化信息推荐在情报学研究上有一定的优势,但是将不同的个性化推荐算法运用到信息服务中去,或多或少都会存在数据稀疏性问题、冷启动问题以及系统扩展性问题等关键性问题。因此本文结合之前学者对个性化信息推荐算法的相关研究,引入社群挖掘的思想,以解决个性化信息推荐算法存在的问题,以期可以提升个性化信息推荐算法的效果。 2 研究综述 2.1 社群挖掘算法研究综述 互联网上的信息纷繁复杂,学者在进行学术研究时需要花费大量时间进行
9、筛选,那么如何对其信息内容进行分析,挖掘出人们所需的内容就成为一个学术界研究热点。社群挖掘是解决这一问题的有效途径之一,它不仅可以节省学者和用户的时间,而且可以提高他们分析的效率。当然,社群挖掘的使用,也可以帮助学者发现和自己有相同研究方向的“学术社群” ,积极开展学术交流和资源共享,共同促进情报学科的发展。 网络中的社群挖掘是指在复杂网络中找到那些社群内部有紧密联系,社群之间联系尽可能少的部分结构,其中,社群挖掘算法多年来一直是研究热点。社群挖掘从原理上讲,就是将网络结构中联系较为紧密的节点聚集成为一类,从而得到社群结构,这本质上也是数据挖掘中的聚类算法的思想,因而社群挖掘也可以采用聚类算法
10、。 按照刘大有等2的观点, 可以按照采用的基本原理归纳为五种:基于划分、基于模块性优化、基于标签传播、基于动力学和基于仿生计算的方法。根据本文需要,主要对划分法和基于模块度优化的方法进行总结。 划分法的基本原理是通过删除网络中的社群之间的链接,得到剩余的结构即为社群,其代表算法是著名的 GN 算法3, 发表者是著名的社群结构挖掘大师 Newman。其次是由 Duch 等4提出的 EO 算法。Newman5还提出了重要的概念模块度 Q,基于模块性优化的算法就是把 Q 作为目标函数进行优化得到社群的算法,代表算法是 Newman 提出的 FN 算法6和在 FN 算法基础上改进得到的 CNM 算法7
11、。 2.2 个性化推荐算法研究综述 近几年,学者对推荐系统的研究热情不减,但是已有的推荐系统并没有考虑到在情报领域应用的特殊性,比如,信息热度、实时性问题,最终导致了对情报信息推荐的效果不佳8。 个性化推荐是近几年信息检索、信息系统和人工智能领域关注的热点,个性化推荐的出现,将信息推送的精准度大大提升。情报学科近几年的发展特点越来越趋向于跨学科,多领域,如果将二者结合,为学者进行个性化情报信息推荐服务,相信可以大大提大科研效率,促进科研水平的提升。 推荐算法是个性化推荐系统设计中的核心,也是个性化推荐中的研究热点。不同的推荐算法拥有不同的优缺点,没有任何一种算法能适用所有情况,因此根据不同的条
12、件选择适应的算法或者其变形就成为了个性化推荐算法的重点。目前,推荐算法主要有基于内容的个性化推荐算法,基于协同过滤算法、基于关联规则的算法,基于组合模型的个性化推荐算法、基于社交网络的推荐算法、基于网络结构的推荐算法等类别。根据本文的研究需要,主要对基于关联规则、基于内容的推荐算法和协同过滤算法进行简单的总结。 基于关联规则的推荐就是利用关联规则进行推荐,而关联规则最经典的例子就是沃尔玛的“啤酒与尿布”的故事,类似沃尔玛这样,当有顾客购买啤酒时,就向其推荐尿布就是基于关联规则的个性化推荐。 关联规则挖掘的代表算法有由 Agrawal 等9提出的 Apriori 算法, 以及 Han 等10提出
13、的 FP-Growth算法。 Apriori 算法是一种迭代算法,其核心思想是通过生成候选集和向下封闭检测两个阶段来挖掘频繁项集。缺点是每次迭代都需要扫描一次数据,较为繁琐,当数据量极大时运算量容易超负荷,但Apriori 算法拓展性比较好,也容易实现分布式计算从而极大提高运算能力。 FP-Growth 算法则相反,其基于大型树形结构的计算过程有效减少了运算的负荷,但是相应的拓展性能明显弱于 Apriori。 基于内容的推荐算法最大的优势在于没有冷启动问题,即不需要用户及物品的原始数据积累,特别适合进入推荐的新用户及新物品。基于内容的推荐系统中,有三部分主要算法:物品的特征提取算法、建立用户模
14、型算法、对象特征和用户模型相似度算法。基于内容的推荐主要是根据用户的喜好和对物品的评分进行推荐,其中的重点是物品的特征提取,一般采用 TF-IDF 算法,其中 Salton 等11和林万方数据第 10 期 余以胜等:基于社群挖掘的用户个性化信息推荐方法研究 1095 霜梅等12都提出了经典的采用向量空间模型进行描述;建立用户模型会采用的算法主要有决策树分类算法,贝叶斯分类算法,基于概率模型的方法和线性分类器,神经网络;而对象特征和用户模型相似度算法一般则会采用向量夹角余弦法计算。郝水龙等13提出了经典的用层次向量空间模型对用户兴趣特征进行表示。 协同过滤技术是由 D. Goldberg 等在
15、1992 年首次提出的 , 是一种根据用户的评价信息来选择信息的一种信息过滤技术14。基于协同过滤算法的主要思想是计算物品或者用户的相似度进行推荐,因此需要考虑用户的购物数据积累。协同过滤算法的核心算法在于相似矩阵,根据相似矩阵建立的对象分为用户协同过滤和物品协同过滤。其中基于用户协同过滤算法是由 Breese 等15提出,随后 Chen 等16则提出了通过不同产品在用户的列表次序来计算用户与用户的相似度, Yang 等17则提出建立用户的兴趣点,从而得出用户间的相似程度。而最早提出可 靠的基于项目的协同过滤算法的有 Yang 等18、Sarwar19、邓爱林等20,其中提出经典的利用夹角余弦
16、来计算产品的相似程度的是 Sarwar 等19。 近年来,针对基于 Web2.0 环境下的个性化信息推荐方法研究很多,社会化标注系统就是典型的应用,这种系统允许用户对其所关注的资源进行关键字标识,同时为用户共享资源提供了一个开放的社会化环境21。将用户社群划分的思想运用于此,将会更好的优化社会化标注系统的效率。 3 推荐方法设计及评测指标 3.1 推荐方法设计 上文提到,个性化信息推荐方法目前存在的问题主要是数据稀疏性问题,冷启动问题、扩展性问题以及推荐准确性等问题。以解决其中几个问题作为目标,本文在个性化信息推荐流程中引入社群挖掘的思想,将目标用户网络细分成不同的子社群,在兴趣相近的子社群中
17、进行推荐,此外,运用基于内容的个性化信息推荐方法,可以很好地解决物品冷启动和用户冷启动的关键问题,具体推荐系统流程设计如图 1 所示。 图 1 推荐系统流程设图 上文提到基于用户的协同过滤算法,而协同过滤算法主要通过用户的行为的相似度计算兴趣的相似度。给定用户 U1和用户 U2,令 N(U1)为用户 U1有过购买行为的产品集合,令 N(U2)表示用户 U2有过购买行为的产品集合。通过 Jaccard 公式,可以计算 U1和 U2的兴趣相似度,表示如下: ( ) ( )() ()121212UUNU NUwNU NU=( 1) 余弦相似度计算法方法,表示如下: ( ) ( )()()121212
18、UUNU NUwNU NU=( 2) 自 Newman 提出社团结构的概念以来,社会网络的划分算法很多,具有代表性的有 Newman 快速算法、 CNM 算法、 EO 算法等, Newman 快速算法是一种凝聚算法, 给定初始网络有 n 个社群,即一个节点就是一个社群,给定初万方数据1096 情 报 学 报 第 36 卷 始值 eij和 ai,表示如下: ()()1/20ijijme=如果节点 与 之间有边则否连接( 3) /2iiak m= ( 4) 其中, ki是节点 i 的度, m 为社群的总边数。 EO 算法的提出是在 Newman 算法的基础进行优化,它基于 Newman 定义的全局
19、模块 Q 值来定义局部模块 q 值, q 值是全局 Q 值在局部模块的反映,局部模块的 q 值可以用i 来表示,一般定义如下: ,igigea =- ( 5) 其中,g ie 是顶点 i 与社群 g 内部连接的边占全部边的比例, ag是指社群 g 所有的边占整个网络边的比例, 局部模块 q 值是用来表示节点 i 对社群 g 的隶属程度。 EO 算法在实现不知道社群数目的情况下,它能自动根据 q 值的优化确定社群的数量。 考虑式( 2)和式( 5)两组公式进行社群划分,给定一个值 , 用来衡量节点之间的关系度,表示如下: 2w += ( 6) 给定一个阈值区间,只有符合预先设置阈值的节点才能归入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 社群 挖掘 用户 个性化 信息 推荐 方法 研究
限制150内