pagerank算法讲解.ppt





《pagerank算法讲解.ppt》由会员分享,可在线阅读,更多相关《pagerank算法讲解.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、背景介绍背景介绍Web上超链接结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。Sergey Brin(谢尔盖布林 )和Lawrence Page(拉里佩奇)在1998年提出了PageRank算法,同年J. Kleinberg(J克莱因伯格)提出了HITS算法Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, The PageRank Citation Ranking: Bringing Order to the Web, 1998, http:/www-db.stanford.edu/back
2、rub/pageranksub.ps 为了更高效地计算 PageRank,以下是改良以后的一篇论文。Taher H. Haveliwala, Efficient Computation of PageRank, Stanford Technical Report, 1999, http:/dbpubs.stanford.edu:8090/pub/1999-31 PageRank(TM) 是美国 Google 公司的登记注册商标。Google查询过程Google 查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,然后才能将搜索结果交付给搜索信息的用户。 PageRank?Pag
3、erank创始人:拉里佩奇(Larry Page(Larry Page ) ) GoogleGoogle创始人之一创始人之一应 用:是Google用来衡量一个网站 的好坏的唯一标准。 PageRank的提出Google的创始人之一Larry Page于1998年提出了PageRank,并应用在Google搜索引擎的检索结果排序上,该技术也是Google早期的核心技术之一Larry Page是Google的创始首席执行官,2001年4月转任现职产品总裁。他目前仍与Eric Schmidt和Sergey Brin一起共同负责 Google的日常运作。他在斯坦福大学攻读计算机科学博士学位期间,遇到了
4、Sergey Brin,他们于1998年合伙创立Google。目录 背景介绍Google的网页排序PageRank简化模型PageRank随机浏览模型PageRank的计算Google的网页排序在Google中搜索“体育新闻”Google的网页排序在Google中搜索“体育新闻”搜索引擎工作的简要过程如下针对查询词“体育新闻”进行分词“体育”、“新闻”根据建立的倒排索引,将同时包含“体育”和“新闻”的文档返回,并根据相关性进行排序这里的相关性主要是基于内容的相关性但是会有一些垃圾网页,虽然也包含大量的查询词,但却并非满足用户需要的文档,如下图,一个网页中虽然出现了四次“体育新闻”但却不是用户所
5、需要的因此,页面本身的重要性在网页排序中也起着很重要的作用查询词和文档的相关性Google的网页排序在Google中搜索“体育新闻”Google的网页排序如何度量网页本身的重要性呢? 互联网上的每一篇html文档除了包含文本、图片、视频等信息外,还包含了大量的链接关系,利用这些链接关系,能够发现某些重要的网页直观地看,某网页A链向网页B,则可以认为网页A觉得网页B有链接价值,是比较重要的网页。 某网页被指向的次数越多,则它的重要性越高;越是重要的网页,所链接的网页的重要性也越高。AB网页是节点,网页间的链接关系是边Google的网页排序如何度量网页本身的重要性呢?比如,新华网体育在其首页中对新
6、浪体育做了链接,人民网体育同样在其首页中对新浪体育做了链接可见,新浪体育被链接的次数较多;同时,人民网体育和新华网体育也都是比较“重要”的网页,因此新浪体育也应该是比较“重要”的网页。新华网体育人民网体育Google的网页排序一个更加形象的图链向网页E的链接远远多于链向网页C的链接,但是网页C的重要性却大于网页E。这是因为因为网页C被网页B所链接,而网页B有很高的重要性。Http网页链接示意图目录 背景介绍Google的网页排序PageRank简化模型PageRank随机浏览模型PageRank的计算什么是PageRank PageRank是一种在搜索引擎中根据网页之间相互的链接关系计算网页排
7、名的技术。 PageRank是Google用来标识网页的等级或重要性的一种方法。其级别从1到10级,PR值越高说明该网页越受欢迎(越重要)。 PageRank近似于一个用户,是指在Internet上随机地单击链接将会到达特定网页的可能性。通常,能够从更多地方到达的网页更为重要,因此具有更高的PageRank。 如果要查看此站点PageRank值,请安装GOOGLE工具条并启用PageRank特性,或者在firefox安装SearchStatus插件。Pagerank算法原理:PageRank 的核心思想 PageRank 是基于从许多优质的网页链接过来的网页,必定还是优质网页从许多优质的网页链
8、接过来的网页,必定还是优质网页的回归关系,来判定所有网页的重要性。链入链接数链入链接数 (单纯的意义上的受欢迎度指标) 链入链接链入链接是否来自推荐度高的页面 (有根据的受欢迎指标) 链入链接源链入链接源页面的链接数 (被选中的几率指标) 因此,如果从类似于 Yahoo! 那样的 PageRank 非常高的站点被链接的话,仅此网页的 PageRank 也会一下子上升;相反地,无论有少链入链接链入链接数,如果全都是从那些没有多大意义的页面链接过来的话,PageRank 也不会轻易上升。PageRank简单计算: 假设一个由只有假设一个由只有4个页面组成的集合:个页面组成的集合:A,B,C和和D。
9、如果所有页面。如果所有页面都链向都链向A,那么,那么A的的PR(PageRank)值将是)值将是B,C及及D的和。的和。 继续假设继续假设B也有链接到也有链接到C,并且,并且D也有链接到包括也有链接到包括A的的3个页面。一个个页面。一个页面不能投票页面不能投票2次。所以次。所以B给给每个页面每个页面半票。半票。以同样的逻辑,以同样的逻辑,D投出的投出的票只有票只有三分之一三分之一算到了算到了A的的PageRank上。上。 换句话说,换句话说,根据链出总数平分一个页面的根据链出总数平分一个页面的PR值值。 PageRank的简单计算过程 PageRank的简化模型可以把互联网上的各网页之间的链接
10、关系看成一个有向图。假设冲浪者浏览的下一个网页链接来自于当前网页。建立简化模型:对于任意网页Pi,它的PageRank值可表示为如下:其中Bi为所有链接到网页i的网页集合,Lj为网页j的对外链接数(出度)。 iBjjjiLPRPR 简化模型面临的缺陷 实际的网络超链接环境没有这么理想化,PageRank会面临两个问题: Rank leak Rank sinkRank LeakPR(A)PR(B)PR(C)PR(D)初始0.250.250.250.25一次迭代0.1250.1250.250.25二次迭代0.1250.1250.1250.25三次迭代0.1250.1250.1250.125n次迭代
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- pagerank 算法 讲解

限制150内