Pagerank算法介绍.ppt





《Pagerank算法介绍.ppt》由会员分享,可在线阅读,更多相关《Pagerank算法介绍.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、PageRank算法介绍李鹏飞Google服务器Google工作电脑Google爬虫网页Google存储系统搜索引擎示意目录nGoogle的网页排序nPageRank算法求解nPageRank算法的应用n小结Google的网页排序n在Google中搜索“体育新闻”Google的网页排序n在Google中搜索“体育新闻”搜索引擎工作的简要过程如下n针对查询词“体育新闻”进行分词“体育”、“新闻”n根据建立的倒排索引,将同时包含“体育”和“新闻”的文档返回,并根据相关性进行排序这里的相关性主要是基于内容的相关性但是会有一些垃圾网页,虽然也包含大量的查询词,但却并非满足用户需要的文档,如下图,一个网
2、页中虽然出现了四次“体育新闻”但却不是用户所需要的因此,页面本身的重要性在网页排序中也起着很重要的作用查询词和文档的相关性Google的网页排序n在Google中搜索“体育新闻”Google的网页排序n如何度量网页本身的重要性呢?互联网上的每一篇html文档除了包含文本、图片、视频等信息外,还包含了大量的链接关系,利用这些链接关系,能够发现某些重要的网页n直观地看,某网页A链向网页B,则可以认为网页A觉得网页B有链接价值,是比较重要的网页。n某网页被指向的次数越多,则它的重要性越高;越是重要的网页,所链接的网页的重要性也越高。AB网页是节点,网页间的链接关系是边Google的网页排序n如何度量
3、网页本身的重要性呢?比如,新华网体育在其首页中对新浪体育做了链接,人民网体育同样在其首页中对新浪体育做了链接可见,新浪体育被链接的次数较多;同时,人民网体育和新华网体育也都是比较“重要”的网页,因此新浪体育也应该是比较“重要”的网页。新华网体育人民网体育Google的网页排序n一个更加形象的图链向网页E的链接远远大于链向网页C的链接,但是网页C的重要性却大于网页E。这是因为因为网页C被网页B所链接,而网页B有很高的重要性。Pagerank算法简介创始人:拉里佩奇创始人:拉里佩奇(LarryPage)Google创始人之一创始人之一应用:应用:是是Google用来衡量用来衡量一个网站的好坏的一个
4、网站的好坏的唯唯一标准一标准。Google的网页排序nPageRank的提出Google的创始人之一Larry Page于1998年提出了PageRank,并应用在Google搜索引擎的检索结果排序上,该技术也是Google早期的核心技术之一Larry Page是Google的创始首席执行官,2001年4月转任现职产品总裁。他目前仍与Eric Schmidt和Sergey Brin一起共同负责 Google的日常运作。他在斯坦福大学攻读计算机科学博士学位期间,遇到了Sergey Brin,他们于1998年合伙创立Google。Pagerank算法原理:Google的网页排序n网页的PageRa
5、nk值PR值:取值0-10 Google工具栏 9 8 nhttp:/Pagerank算法相关概念PR值:用来值:用来评价网页的重要性评价网页的重要性,PR值越大越重要值越大越重要,其级别从,其级别从0到到10级。级。一般一般PR值值达到达到4,就,就算是一个不错的网站了算是一个不错的网站了。Google把自己的网站把自己的网站的的PR值定到值定到10,这说明,这说明Google这个网站是非常受欢迎的,也可以说这个网站是非常受欢迎的,也可以说这个网站非常重要。这个网站非常重要。阻尼因数:阻尼因数:(dampingfactor)其值为0.85n 阻尼系数d定义为用户不断随机点击链接的概率,所以,
6、它取决于点击的次数,被设定为0-1之间。d的值越高,继续点击链接的概率就越大。因此,用户停止点击并随机冲浪至另一页面的概率在式子中用常数(1-d)表示。无论入站链接如何,随机冲浪至一个页面的概率总是(1-d)。(1-d)本身也就是页面本身所具有的PageRank值。Pagerank核心思想PageRank通过通过网络浩瀚的超链接关系网络浩瀚的超链接关系来确定一个来确定一个页面页面的的等级等级。Google把从把从A页面到页面到B页面的链接页面的链接解释为解释为A页面给页面给B页面投票页面投票,Google根据根据投票来源投票来源(甚至来源的来源,即(甚至来源的来源,即链接到链接到A页面的页面)
7、和页面的页面)和投票目标的等级投票目标的等级来决定新的等级。来决定新的等级。这样,这样,PageRank会根据网页会根据网页B所收到的所收到的投票数量来投票数量来评估评估该网页的重要性。此外,该网页的重要性。此外,PageRank还会评估每个投票网还会评估每个投票网页的重要性,因为页的重要性,因为某些重要网页的投票被认为具有较高的某些重要网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值价值,这样,它所链接的网页就能获得较高的价值。这就。这就是是PageRank的核心思想,当然的核心思想,当然PageRank算法的实际实算法的实际实现上要复杂很多。现上要复杂很多。PageR
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Pagerank 算法 介绍

限制150内