2022年Google PageRank排名新算法二Google排名教程.docx
-
资源ID:81146320
资源大小:15.96KB
全文页数:10页
- 资源格式: DOCX
下载积分:9.9金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
2022年Google PageRank排名新算法二Google排名教程.docx
2022年Google PageRank排名新算法二Google排名教程其次部分: 探究Google PageRank新算法2-1. Google的主题性趋向2-1-1. 关于页面级别(PageRank)及Google的旧算法出现问题的缘由页面级别(PageRank)计算系统所遵循的思路是:通过一个经由互联网的“随机运动”来告知你哪些站点是最重要的。该系统模拟的是一个随机冲浪者跟进点击某页面上的随机链接,至最深层页面时按“返回”按钮这一过程。页面的等级越高,则随机网络冲浪者发觉它的机率亦越高。这种思路其实相当富有创意。一个网页的外部链接越多,则对随意网络冲浪者来说,发觉它的机会也就越大。同时,在页面级别算法系统中,页面越流行,则其导入链接就越能从链接中受益这是由于随意网络冲浪者发觉这些链接的机会就越大。在特定领域的探讨论文查询方面,页面级别系统几乎无可挑剔。例如,假如用户查询关于素粒子物理学探讨方面的论文(或网页)文献集,则对于一个给定条件的查询,页面级别的算法可以很快告知你,哪些论文才是与该特定查询条件最相关及最重要的论文,其缘由就在于这些论文较其它论文的引用次数要多。若互联网上的资源具有同一主题性,那么这种工作可说是尽善尽美了。但正如我们所知道的,互联网上的资源涵盖了上百万甚至更多的主题,而且在人们的实际生活中,查询用户所找寻的往往是一些具有特定主题的信息。所以虽然页面级别系统考虑了全部链接,但却忽视了链接页面的主题性。Google已试图将链接的文本内容计入排名算法来克服这一局限性。但精明的搜寻引擎营销商却通过在网络上到处建立充盈关键词的链接来欺瞒Google的排名算法。一种新的作坊式行业也随着PageRank应运而生即有偿交换和交易一些来自较高“页面级别”页的链接。假如网站能够从毫不相关的站点购买或交易导入链接而使网站排名得到提升的话,那么页面级别技术已然无法为绝大多数查询条件供应高质量的搜寻结果了。我们有理由信任,当Google这个世界最顶级的搜寻引擎一旦发觉其搜寻结果的质量起先恶化时,它是不会坐视不管的。2-1-2. 新技术闪亮登场:主题性页面级别技术(Topic-Sensitive PageRank)2022年,斯坦福高校的一名博士生塔赫尔。哈维利瓦拉(Taher H. Haveliwala)发表了一篇特别有意思的论文,名为“Topic-Sensitive PageRank(主题性页面级别计算系统)”。而更加好玩的是,一年之后哈维利瓦拉成了Google的一份子。“主题性页面级别计算系统”通过对随机查询用户的随机运动增加一个“偏差”来处理基本的页面级别计算系统所存在的问题。这个新的随机查询用户具有明确的查询目的,并更感爱好于跟进那些具有某个特定主题的相关网页上的相关链接。这是一个相对而言较为新奇的思路,它解决了搜寻结果的质量性方面的一系列关键性问题。毫无疑问,哈维利瓦拉将成为搜寻引擎业界中一个举足轻重的角色。他已经在搜寻技术的其它领域方面进行了一些实质性的探讨工作,包括如何更有效计算页面级别方面的一些比较好玩的探讨。在最初的探讨论文中,哈维利瓦拉描述了他是如何利用斯坦福高校的网络数据库,对应于ODP(开放书目)的16个顶级书目的16个主题来计算“主题性”页面级别得分。虽然该探讨的主题和数据数量(8千万个网页)非常有限,但能够看出这种新系统可改善搜寻结果,且具备对查询用户感爱好于何种主题的理解实力。就在去年,当我回过头来再阅读这篇论文时,我留意到哈维利瓦拉所描述的这种系统对搜寻引擎来说还存在着两个问题。不过下面我们将会看到,这两个问题现在都能得到妥当解决了。第一个问题是充分拓展主题的数量。要想改善搜寻结果,16个主题自然是远远不够的。但由于Google的页面级别计算系统的代价特别之高,因而除非新系统能够供应一些改进的措施,否则Google不大可能实施这个新系统。但随着这一领域在过去的一年中的深远发展,因而我信任现在在主题数量上已不是大问题了。其次个问题就是如何确定一个查询条件可能对应的主题- 当用户输入诸如“自行车”一类的查询条件时,这个用户是想买自行车呢,还是想骑自行车旅游呢?下面我将为大家简洁阐述一下Google可能会怎样匹配一给定查询条件以最恰当的主题,以及为什么一些查询条件更简单受到影响的缘由。2-1-3. 关于Applied Semantics公司及其专利技术CIRCAApplied Semantics网络广告软件公司是互联网广告方面的专家,于2022年4月份被Google收购。Google此举旨在加强搜寻和广告功能。如今该公司的技术已对Google产生了深远的影响。例如在Google的Adwords关键词广告系统中,为PPC广告客户供应基于内容的广告就是采纳了Applied Semantics的AdSense技术。事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术其实就是Applied Semantics公司所拥有的专利技术CIRCA。CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由困难的搜寻技术所支持的本体论是对词语的多样性含义的概念性理解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜寻用户更好的供应探究学问的机会。CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户供应相关广告服务,亦可应用于Google的关键词词根还原系统。尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,假如用户查询“Colorado bicycle trips”,CIRCA能够将其与“Colorado”地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点非常重要。2-1-4. 二者的有机结合:主题性搜寻引擎的实现现在我们对主题性页面级别和CIRCA都有了肯定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜寻引擎呢?首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。在Google过去所运用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,或许速度快而且效果良好的近似计算结果才是他们所须要的。从上述论文中我们不难看出这一点已然颇具可行性。现在,假如用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所运用的查询条件及数据库中所包含的主题之间的“距离”来供应“主题性页面级别”得分,从而向用户供应更好的搜寻结果。查询与主题的关系越亲密,则主题性页面级别得分效果越佳。由于一个给定的搜寻查询条件有可能与数据库中的多个主题匹配,所以页面级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以供应高质量的搜寻结果了。当数据库中无任何主题与用户的查询条件匹配时,则Google可运用原来的页面级别系统。若与查询条件匹配的主题太多,则仍运用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相像。假如匹配主题与查询条件之间的相关度很低,则效果亦会大打折扣。2-1-5. 安稳接受和理解算法的变更可能某些查询条件返回的搜寻结果有较大的变动-但原来在搜寻结果中排名在前100位的网页全都被刷下去的情形却少之又少。有效数据所面临的一个大问题在于:对于发生搜寻结果变更较大的报告呈上升趋势。从这些“自述”数据之中我们可以看到Google的许多搜寻结果发生了彻底的变更。而造成我们看到这种局面的缘由恰好在于,这些“自述”数据中的绝大部分都是由那些排名被刷下来的网站供应的。我们并未从这些“自述”改变着手,而是采纳了另外一种途径,即从若干可用的网上资源中记录下最近时间内发生的搜寻,然后视察搜寻结果中的改变。我们随机(没有任何成见地)探讨了上百个人们日常运用的真实存在的查询条件,并标识出其中每个查询条件的变更总数,然后我们发觉变更的程度在总体上仍保持着一贯的干净局面。在实际生活中,这种根本性的变更只是发生的例外,把它当成规则就大错特错了。2-1-6. 主题并非关键词. 亦并非十全十美千万不要把“主题”和“关键词”相混淆。主题代表的是一个综合性题目,例如“计算处理”、“网络营销”等等。而特定的查询条件(关键词),如“笔记本电脑租赁”,“电子邮件营销”等,将与更多的综合性主题联系起来。但从Google目前所供应的一些搜寻结果来看,不难发觉其中的部分搜寻结果所匹配的主题是错误的。例如对”laptop rental”,用户搜寻“笔记本租赁”往往是想租赁一台笔记本电脑,但在Google返回的搜寻结果中,排在前面的却是高校里面的笔记本租赁信息- 这是怎么回事呢?只要看看链接到这些网页上的链接,就可以发觉这些链接大都具有相像的主题性,如Computing,Housing(学生在校内里出租住处),等等。大家可以用其它词