社会化标注系统中基于社区标签云的个性化推荐研究.pdf





《社会化标注系统中基于社区标签云的个性化推荐研究.pdf》由会员分享,可在线阅读,更多相关《社会化标注系统中基于社区标签云的个性化推荐研究.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、收稿日期:20110504修回日期:20110627基金项目:教育部人文社会科学青年项目“新一代电子商务搜索引擎的信息聚合和可视化建模研究”(编号:08JC870011);中国博士后科学基金项目“面向用户的电子商务搜索引擎信息聚合和可视化建模研究”(编号:20090460988);武汉大学自主科研项目(人文社会科学)(编号:09ZZKY096)的研究成果之一。作者简介:曾子明(1977),男,博士,副教授,研究方向:搜索引擎、推荐系统和信息服务等;张振(1987),男,硕士研究生,研究方向:推荐系统、社会化标注系统。社会化标注系统中基于社区标签云的个性化推荐研究*曾子明张振(武汉大学信息管理学
2、院武汉430072)摘要社会化标注系统中,标签是用户对资源进行标注的结果体现,标签的出现使得原有的用户,资源二元组变成了用户,标签,资源三元组,我们在研究了已有的个性化推荐模型的基础上,提出一种基于社区标签云的个性化推荐模型。该模型对社会化标注系统中的用户、资源分别聚类形成社区,得到代表每个社区的标签云,然后进行标签云之间的相似性计算,从而产生个性化推荐。最后通过实验证实该方法不但提高推荐的查全率,而且使推荐的内容更具有多样性。关键词社会化标注社区标签云个性化推荐聚类中图分类号TP311文献标识码A文章编号10021965(2011)10012806A Personalized Recomme
3、ndation Approach Based on CommunityTag Cloud in Social Tagging SystemZENG ZimingZHANG Zhen(School of Information Management,Wuhan University,Wuhan430072)AbstractIn social tagging systems,tags are results of users annotations The appearance of the tags changes the two way useritem ma-trices into thre
4、e dimensional usertagitem,which brings the recommender systems development chances into a new direction Recom-mender systems have been utilizing tags for identifying similar resources and generate personalized recommendations In this paper we pro-pose a personalized recommendation approach based on
5、community tag clouds The proposed approach is realized in two aspects Firstly,we cluster items into communities based on analyzing the tags annotated by users,at the same time,we can also cluster users into commu-nities based on analyzing the tags they have utilized,and then we give every community
6、a tag cloud Secondly,we calculate the similaritybetween the items community tag cloud and users community tag cloud to make personalized recommendation The results of empirical e-valuation indicate the superiority of the approach in improving the precision and diversity of the recommendationsKey wor
7、dssocial tagging systemcommunity tag cloudpersonalized recommendationclustering0引言随着互联网的迅猛发展,尤其是 Web2 0 的出现,用户不再是被动的网页浏览者,而是成为了主动的参与者,以致越来越多的信息呈现在用户面前,造成信息爆炸,出现了信息超载现象。如何让用户从浩如烟海的信息中找出自己感兴趣的信息,同时让有价值的信息被需要的用户享用,一直是相关学术界和企业界关注的热点问题1。个性化推荐正是解决这个问题的一种有效方式,从根本上说,推荐就是代替用户评估他从未接触过的资源2,这些资源可以是书、电影、音乐、网页、饭店
8、、甚至可以是社会标注系统中的人以及标签等。近年来,学术界提出了许多基于 Web2 0 环境下的个性化推荐方法,作为 Web2 0 环境下用户生成内容的典型应用 社会化标注系统,它不仅允许用户对其所关注的资源进行关键字标识,以方便个人信息第 30 卷第 10 期2011 年 10 月情报杂志JOURNAL OF INTELLIGENCEVol 30No 10Oct2011管理,而且为用户共享资源或观点提供了一个开放的社会化环境3,Joshua Schachter 是第一个提供社会化标注服务的,也就是现在的 del icio us 网站,自此以后社会化标注得以迅速发展和广泛应用,出现了 Flick
9、r、Youtobe、Last fm、CiteUlike、Twitter 等众多新的应用与体验。标注是人们对大量信息进行组织分类的重要手段,在很久之前就得到了应用特别是对于图书馆员、编目者和专业分类人员而言,只是其所用的标签是受控的,没有体现出社会性4。在社会化标注系统中,有三个主要要素:WEB 用户、WEB 资源和社会化标签。WEB 用户对 WEB 资源进行标注,其标注的结果表示为标签。社会化标注系统的流行,源于它允许任意用户对任意资源标注任意标签,而且可以与其他用户共享这些标签。由于标注系统提供的简便易用的社会性协作机制,吸引了大量用户的参与,于是产生 Folksonomy 的社会性标签。标
10、签作为一种特殊的元数据,来源于大众标注者对资源的主观感受的概括,同时被用户用于描述资源和对资源分类,和资源的关键字相比较而言,标签具有一定的灵活性,与用户个体相关,是个性化的,而且标签为无法显式表示为文本的项目提供了一种文本维度,在标签中往往蕴含了原文中没有直接表达的内容,将标签作为推荐技术的数据来源,能够研究出同时具备内容过滤与协同过滤优越性的个性化推荐的模型方法。文献 5中 R Jaeschk 借鉴了 pagerank的方法提出了名为 folkrank 的方法,将用户、资源、标签作为节点,将标注关系作为边构造了一个网络计算用户、资源、标签的权重,对于每个资源获得相关标签的 folkrank
11、 值,将权值最高的标签推荐给用户。文献 6 根据资源被标注的标签,来对资源进行分类,从而提高推荐的准确度。但这些研究主要考虑了标签与资源内容的关系,而忽略了标签与用户兴趣的关系。本论文中根据标签分别对用户、资源加以聚类形成社区,然后产生各个社区的标签云以及目标用户标签云,不但考虑到标签反映资源内容的特性,而且考虑到用户所用标签反映了用户兴趣的特性。从而提出基于社区标签云对用户进行个性化推荐的方法。1基于标签的个性化推荐系统推荐系统主要有三个组成要素:推荐候选对象,用户和推荐方法。其目的是经过推荐算法从推荐候选对象中过滤出有价值的资源对象推荐给需要的用户。从而可知,推荐算法的好坏是推荐系统的成功
12、与否的关键。推荐的目的是不但推荐与当前用户兴趣相关的评分较高的资源,而且还应该推荐与当前用户兴趣相近的用户评分较高的其他资源,如推荐列表中含有 n 个推荐资源,与当前用户兴趣一致的资源数 r1,与当前用户兴趣相近的其他用户评分较高的资源数r2,有r1+r2=n,在该推荐列表中对于资源r(rr2)如果当前用户关注并且给予标注,则说明当前用户同样喜爱该类资源,应该更新其用户文件。这样能保证推荐的多样性,更大程度提高用户满意度。在社会化标注系统中,用户对资源添加的标签不但是对资源的描述,而且是对其自身兴趣爱好的描述。传统的评分方法是把用户对某一资源的喜好表示在对资源的评分上,如果资源不存在了,这种评
13、分也相应的消失,在信息大爆炸,更新速度飞快的今天,旧的信息很快就被新信息取代,推荐不但要为用户找到其所需的资源,而且要在用户同等喜好下能够提供最新的资源,因此标注优于评分,而且逐渐成为信息标识的主要方式。另外,这些社会化标签的不同不但显示了资源之间的差异性,而且表示了用户兴趣偏好的差异,为利用标签形成资源/用户社区提供了条件,有助于进行社会化分类。资源,用户,标签这个三元组的关系可用图 1 表示。图 1社会化标注元素关系3 在该图中我们可以看出,不同的用户可以对同一资源添加不同的标签,同一用户也可以对不同的资源添加相同的标签。可以用一个三元组 u,r,t 表示用户、资源、标签三者联系起来,如果
14、用 U=u1,u2,uk表示 WEB 用户集合,R=r1,r2,rm表示WEB 资源集合,T=t1,t2,tn表示社会化标签集合,那么社会化标签系统模型 D 可以表示为:D=(U,R,T,A),其中 A是 U,R,T之间的一个三元关系,AU R T,对于 u U,r R,t T,a=(u,r,t)A 称作一个标注,代表用户 u 用标签 t 标记了资源 r7。通过资源、用户、标签三者之间紧密联系,可以看出在推荐的时候可以推荐资源也可以推荐标签,甚至可以推荐对该资源进行标注过的用户,无论是推荐三者之中的哪一个,当前用户都能够根据其中的一个找到另外两个,因此在本文的推荐模型中,我们在推荐资源列表中使
15、用标签代表资源。2社会化标注中基于社区标签云的个性化推荐2 1社会化标注系统中基于标签的聚类在社会化标注系统中,用户和资源之间的关系靠标签来联系,921第 10 期曾子明,等:社会化标注系统中基于社区标签云的个性化推荐研究用户 u 对资源 r 进行标注的同时也是对自己兴趣偏好的标注,标签同时被用户和资源拥有,也就是说当用户u 用标签 t 标注资源 r 的同时,标签 t 也标注了用户 u的兴趣偏好,所以就产生了用户个人标签集和资源标签集,用户个人标签集合中的每个标签对应一类资源集合,由用户使用该标签标注过的资源组成。当向用户进行推荐时,就可以根据用户标签集 tu和资源标签集 tr的相似程度以及资
16、源的受欢迎程度,作为推荐列表中资源质量高低排序的标准。在社会化标注系统中,社会化标签的数量级别相当大,每个 Web 用户和每个 Web 资源所涉及的只是其中很小的一部分,由此会引发严重的“数据稀疏性”问题8。如果把拥有相同或相似标签的用户和资源分别加以聚类,也就是根据相似度把兴趣偏好相近的用户划分为同一个社区中,并且给这类用户一个“社区标签集”,即社区标签云,这样就提高了整个社区的兴趣范围,而且解决了对某些标签稀疏的用户不易推荐的问题,例如在一个有n 个用户的社区 U 中,ui U(i=1,2,n),用 tui表示用户 ui的标签集,那么社区标签云 TU=tu1tu2 tun,通过设定标签云中
17、每个标签的字号大小以及颜色的不同来表示其“受欢迎”的程度,能够实现快速而自动的信息聚类,生成系列加权列表和标签云(TagCloud),直观性和易用性强,在进行资源推荐时有助于用户发现其潜在兴趣,避免资源推荐范围过窄。同样,对于大量的资源通过计算其相似度,把资源内容相近的资源集中在同一个社区中,根据资源内容对这类资源的众多标签进行内涵外延界定,忽略错误的、具有歧义的、无意义的标签,保留高质量的标签,然后产生这类资源的“社区标签集”,即资源社区标签云。标签聚类有助于实现标签的有序化组织、规范化表示,在进行用户资源标签相似度度量时,可以度量标签云之间的相似度,从而对用户推荐与其兴趣相近的标签。这样不
18、但解决了数据稀疏性问题,而且查全率更高,同时提高了推荐资源的多样性,也解决了现有推荐系统中用户规模、资源规模难以扩展的问题。2 1 1基于用户标签相似性对用户聚类。基于用户相似性方法910 的前提假设是相似的用户趋向于有相似的偏好。核心思想是将预测用户对资源的喜好问题转化为集成相似用户对待推荐资源的已有评价偏好的问题。由于用户的兴趣爱好及其使用的标签并非固定不变,所以对用户的社区的划分是一种无指导学习问题,可以采用自底向上的层次聚类和 K 均值聚类,其关键是找到一个度量类间距离的函数,可以参考协同过滤推荐算法中的,利用用户的历史信息计算用户之间的相似性的方法。我们使用夹角余弦相似性(cosin
19、e similarity),在基于标签的用户聚类过程中,用户所用标签相似度的度量是用户聚类的关键11。Diederich12 提出使用一个标签向量代表用户档案,向量中每个标签对应的元素值为用户使用该标签标注资源的次数。所以用户聚类分为两个步骤:a 计算用户标签的相似度产生最近邻居集sim(Tui,Tuj)=V(Tui)V(Tuj)V(Tui)V(Tuj)=w(tui1),w(tui2),w(tuin)w(tuj1),w(tuj2),w(tujn)w(tui1)2+w(tui2)2+w(tuin)槡2w(tuj1)2+w(tuj2)2+w(tujn)槡2(1)其中,Tui代表用户 ui使用过的所
20、有标签,w(tuin)代表用户 ui使用过的标签 n 在用户所有使用过的标签集中的偏好度,基于“用户使用某个标签标注的资源越多,表明用户对该标签的兴趣度越高”这个前提。所以有:w(tuin)=countTagging(ui,n)kTuicountTagging(ui,k)(2)对于设定好的阈值 e,如果 sim(Tui,Tuj)e,则把 ui和 uj归入同一个用户社区,如果 sim(Tui,Tuj)e,则 ui和 uj不能在同一用户社区。由于用户兴趣的多样性,决定了用户浏览资源的不确定性,用户对资源标注时所使用的标签具有动态变化的特征,也就是说用户的兴趣和爱好是随时间变化而变化的,所以一个普遍
21、采用的策略就是提前计算所有用户标签的相似性sim(Tui,Tuj),每隔一个时间周期 T 进行一次更新,例如 Grouplens 系统13采用相似性数据库存储每个用户对的相似性,并且每隔 24 个小时更新一次用户对的相似性。我们考虑监测用户所用标签的变化程度,当变化程度超过预先设定的阈值 时,则重新计算该用户与其他用户的相似性。b 用户社区 U 标签云的产生:用 TU代表用户社区的标签云,Tui代表用户 ui所有使用过的标签集合,则有 TU=Tu1 Tu2 Tun。2 1 2基于资源标签的相似性对资源聚类。在社会化标注系统中,用户的标注行为比较自由,所以针对同一资源不同的用户可能会添加不同的标
22、签,但在不考虑恶意标注的情况下,这些标签语义上是相近的,而且对于同类的相关资源,它们被标注的标签也是语义上相近,因此基于标签的资源聚类的关键就是要计算这些标签的相似性,一种常用的方法就是根据标签的共现次数判定标签的相似性。基于标签的资源聚类也分为两个步骤:步骤 1根据标签共现计算标签的相似性1415 资源集 R=r1,r2,rm,所有被标注在 R 上的标签的集合 T=t1,t2,tn。n(r,t)表示标签 t 被031情报杂志第 30 卷用来标注资源 r 的次数,用 n(t)=rRn(r,t)表示标签t 在资源集 R 上出现的次数,N(r)=tTn(r,t)表示资源 r 被标注的次数。则有标签
23、 t1与 t2相似性的算法可表示为:pt2(t1)=rq(t1r)Q(rt2)(3)在公式(3)中,q(t1r)=n(r,t1)N(r)表示标签 t1标注资源 r 的次数占资源 r 所有被标注次数的比例。Q(rt2)=n(r,t2)n(t2)表示标签 t2标注资源 r 的次数占标签 t2所有标注次数的比例。对于给定阈值 e,如果pz(t)e,则标签 t2与 t1可看为语义相似,被它们标注的资源也可以看作是同类资源,并归入同一个社区。步骤 2资源的标签云产生:对于同一个社区的资源 R=r1,r2,rm,则该社区的标签云 TR=Tr1Tr2Trn,其中Tri(1 in)表示资源 ri拥有的所有标签
24、。2 1 3目标用户社区的标签云。目标用户是指对某特定资源感兴趣的用户,即特定资源的目标用户。在资源聚类完成的基础上,可以得到对特定资源组感兴趣的目标用户,在当前用户访问该资源组时,可以为其推荐目标用户社区的标签云 TUtar,当前用户可以根据目标用户社区的标签云来决定是否浏览该社区中用户所用相关标签标注的资源。目标用户社区标签云的提出旨在实现推荐内容的多样性。2 2基于标签云的个性化推荐协同过滤推荐和基于内容的推荐,是目前应用较为成熟的推荐技术,基于标签的推荐可以结合协同过滤和基于内容的算法来对当前用户 ucur进行个性化推荐,用 Tucur表示用户ucur使用过的所有标签集合,Ucur表示
25、对当前用户 ucur根据 21 1 中公式(1)的相似性算法聚类后所形成的用户社区,TUcur表示该用户社区的标签云。对用户ucur的个性化推荐有以下两种方式。2 2 1用户所在社区标签云的推荐。由于用户ucur所在社区的其他用户兴趣偏好与他自身比较接近,所以其他用户所使用的标签标注的资源可能也是用户 ucur比较感兴趣的资源。因此可以对 ucur推荐其所在社区的标签云:T=TUcur Tucur,其中,TUcur代表当前用户 ucur所在社区标签云,Tucur代表当前用户ucur的标签集,推荐列表中标签的排序方式按其使用次数降序排列。2 2 2基于标签云的相似性推荐。由于标签云是由多个标签构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会化 标注 系统 基于 社区 标签 个性化 推荐 研究

限制150内