2022年Google搜索引擎原理 .pdf
《2022年Google搜索引擎原理 .pdf》由会员分享,可在线阅读,更多相关《2022年Google搜索引擎原理 .pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Google搜索引擎原理这篇文章中,我们介绍了google ,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24000000个网页。我们可以从http:/google.stanford.edu/ 下载。设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。 而且每天要回答成千上万个查询。 在网络中, 尽管 大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术
2、的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。 除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题, 还有许多新的技术挑战, 包括应用超文本中的附加信息改进搜索结果。本文将解决这个问题, 描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论Web 给信息检索带来了新的挑战。 Web 上的
3、信息量快速增长, 同时不断有毫无经验的新用户来体验Web 这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象 Yahoo 这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题, 但是它具有主观性, 建立和维护的代价高, 升级慢,不 能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是, 一些广告为了赢得人们的关注想方设法误导自动搜索引擎。我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -
4、- - - - - - 第 1 页,共 23 页 - - - - - - - - - 本结构,大大提高了查询质量。我们的系统命名为google ,取名自 googol的通俗拼 法,即 10 的 100 次方,这和我们的目标建立一个大型搜索引擎不谋而合。1.1 网络搜索引擎升级换代(scaling up) :1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的 web 数量。1994 年,第一个 Web 搜索引擎, World Wide Web Worm(WWWW)可以检索到 110,000 个网页和 Web 的文件。到 1994 年 11 月,顶
5、级的搜索引擎声称可以检索到2 000000(WebCrawler)至100 000000 个网络文件 (来自 Search Engine Watch) 。可以预见到 2000 年,可检索到的网页将超过1 000000 000 。同时,搜索引擎的访问量也会以惊人的速度增长。在 1997 年的三四月份, World Wide Web Worm 平均每天收到 1500 个查询。在 1997 年 11 月, Altavista 声称它每天要处理大约20000000个查询。随着网络用户的增长 . 到 2000 年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引
6、入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。1.2 Google :跟上 Web 的步伐 (Scaling with the Web)建立一个能够和当今web 规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快, 才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快, 达到每秒能处理成百上千个查询 (hundreds to thousands per second.)。随着 Web 的不断增长,这些任务变得越来越艰巨
7、。 然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。还有几个值得注意的因素,如磁盘的寻道时间 (disk seek time),操作系统的效率 (operating system robustness)。在设计 Google 的过程中,我们名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 23 页 - - - - - - - - - 既考虑了 Web 的增长速度,又考虑了技术的更新。Google 的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储
8、索引。优化的数据结构能够快速有效地存取 (参考 4.2 节)。进一步,我们希望,相对于所抓取的文本文件和 HTML 网 页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象 Google 这样的集中式系统, 采取这些措施得到了令人满意的系统可升级性 (scaling properties)。1. 3 设计目标1.3.1 提高搜索质量我们的主要目标是提高Web 搜索引擎的质量。1994 年,有人认为建立全搜索索引 (a complete search index)可以使查找任何数据都变得容易。根据Best of the Web 1994 - Navigators ,“最好的导航服务
9、可以使在Web 上搜索任何信息都很容易(当时所有的数据都可以被登录 ) ”。然而1997 年的 Web 就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在“垃圾结果 Junk result”中。实际上,到1997 年 11 月为止,四大商业搜索引擎中只有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一 问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。 用户仍然只希望看前面几十个搜索结果。因此,当集合增大时,我们 就需要工具使结果精确 (在返回的前几十个结果中, 有关文档的数量
10、)。由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用。尤其是链接结构和链接文本, 为相关性的判断和高质量的过滤提供了大量的信息。Google 既利用了链接结构又用到了anchor 文本(链接结构:有效,简洁,明了的导航和链接机制。链接文本:链接中的alt 属性。) (见 2.1 和 2.2 节)。1.3.2 搜索引擎的学术研究随着时间的流逝,除了发展迅速, Web 越来越商业化。1993 年,只有 1.5%的 Web 服务是来自 .co
11、m 域名。到 1997 年,超过了60%。同时,搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有,很少技公开术细节。 这就导致搜索引擎技术很大程度上仍然是暗箱操作,并名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 23 页 - - - - - - - - - 倾向做广告 (见附录 A)。Google的主要目标是推动学术领域在此方面的发展,和对它的了解。 另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us be
12、cause we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有几千万个研究。 然而,得到这些数据却非常困难, 主要因为它们没有商业价值。我们最后的设计目标是建立一个体系结构能够支持新的关于海量 Web 数据的研究。为了支持新研究, Google 以压缩的形式保存了实际所抓到的文档。设计google的目标之一就是要建立一个环境使其他研究者能够很快进入
13、这个领域,处理海量 Web 数据,得到满意的结果,而通过其它方法却很难得到结果。系统在短时间内被建立起来,已经有几篇论文用到了Google 建的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web 数据设计或做一些实验。2. 系统特点Google 搜索引擎有两个重要特点,有助于得到高精度的搜索结果。第一点, 应用 Web 的链接结构计算每个网页的Rank 值, 称为 PageRank ,将在 98 页详细描述它。第二点, Google 利用超链接改进搜索结果。(PR 值对于现在的 Google 来说已经没有当初那样关键,取而代之
14、的是网页的页面质量和文本的原创性与更新速度。超链接:每个链接都尽量写相对应的描述,简洁,短小精悍的描述。)2.1 PageRank: 给网页排序Web 的引用 (链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。 我们建立了一个包含518 000000 个超链接的图,它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。 因此在 web 中,PageRank 能够优化关键词查询的结果。对于大多数的主题,在网页标题查询中用PageRank 优化简单文本匹配,我们得到了令人
15、惊叹的结果 (从 google.stanford.edu可以得到演示)。对于 Google 主系统中的全文搜索, PageRank 也帮了不少忙。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 23 页 - - - - - - - - - 2.1.1 计算 PageRank 文献检索中的引用理论用到Web 中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。PageRank 发展了这种思想,网页间的链接是不平等的。 PageRank 定义如下 :我们假设 T1 T
16、n 指向网页A(例如,被引用 )。参数 d 是制动因子, 使结果在 0,1 之间。通常 d 等于 0.85。在下一节将详细介绍 d。C(A)定义为网页 A 指向其它网页的链接数, 网页 A 的PageRank 值由下式给出:PR(A) = (1-d) + d (PR(T1)/C(T1) + . + PR(Tn)/C(Tn) 注意 PageRank 的形式,分布到各个网页中,因此所有网页的PageRank 和是 1。 PageRank 或 PR(A)可以用简单的迭代算法计算,相应规格化 Web 链接矩阵的主特征向量。中等规模的网站计算26 000000 网页的PageRank 值要花费几小时。还
17、有一些技术细节超出了本文论述的范围。2.1.2 直觉判断PageRank 被看作用户行为的模型。 我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。随机访问一个网页的可能性就是它的PageRank 值。制动因子 d 是随机访问一个网页烦了的可能性, 随机另选一个网页。 对单个网页或一组网页, 一个重要的变量加入到制动因子 d 中。这允许个人可以故意地误导系统,以得到较高的PageRank 值。我们还有其它的PageRank 算法,见 98 页。 另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank 值高的网页指向它,则这个网页很重要。直觉
18、地,在Web 中,一个网页被很多网页引用,那么这个网页值得一看。一个网页被象 Yahoo 这样重要的主页引用即使一次, 也值得一看。如果一个网页的质量不高,或者是死链接,象Yahoo 这样的 主页不会链向它。PageRank 处理了这两方面因素,并通过网络链接递归地传递。2.2 链接描述文字 (Anchor Text) 我们的搜索引擎对链接文本进行了特殊的处理。大多数搜索引擎把链接文字和它所链向的网页 (the page that the link is on)联系起来。另外,把它和链接所指向的网页联系起来。这有几点好处。第一,通常链接描述文字比网页本身更精确地描述该网页。第二, 链接描述文字
19、可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。有可能使返回的网页不能被抓到。注意哪些抓不到的网页将会带来一些问题。在返回给用户前检测不了它们的有效性。这种情况搜索引擎可名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 23 页 - - - - - - - - - 能返回一个根本不存在的网页,但是有超级链接指向它。 然而这种结果可以被挑出来的,所以此类的问题很少发生。链接描述文字是对被链向网页的宣传,这个思想被用在 World Wide Web Worm 中
20、,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。我们大量应用链接描述文字,因为它有助于提高搜索结果的质量。 有效地利用链接描述文字技术上存在一些困难,因为必须处理大量的数据。现在我们能抓到24 000000 个网页,已经检索到259 000000 多个链接描述文字。2.3 其它特点除了 PageRank 和应用链接描述文字外, Google 还有一些其它特点。第一,所有 hit 都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。第二,Google 跟踪一些可视化外表细节,例如字号。黑体大号字比其它文字更重要 。第三,知识库存储了原始的全文html 网页
21、。3 有关工作Web 检索研究的历史简短。World Wide Web Worm()是最早的搜索引擎之一。 后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。与Web 的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。根据Michael Mauldin(Lycos Inc 的首席科学家 ) , “各种各样的服务 (包括 Lycos)非常关注这些数据库的细节。 ”虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。最后有关信息检索系统的研究很多,尤其在有组织机构集合 (well con
22、trolled collections)方面。在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web 上。3.1 信息检索系统诞生在几年前,并发展迅速。然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合(最早的信息检索系统),例如科学论文集,或相 关主题的新闻故事。实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的集合作为它们的基准。大型文集基准只有20GB, 相比之下,我们抓到的 24000000个网页占147GB 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - -
23、 - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 23 页 - - - - - - - - - 在 TREC上工作良好的系统,在Web 上却不一定产生好的结果。例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web 环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。例如,查询“Bill Clinton ” ,返回的网页只包含“ Bill Clinton Sucks” ,这是我们从一个主要搜索引擎中看到的。网络上有些争议, 用户应该更准确地表达他们想查询什么,在他们
24、的查询请求中用更多的词。我们强烈反对这种观点。如果用户提出象“Bill Clinton ”这样的查询请求,应该得到理想的查询结果, 因为这个主题有许多高质量的信息。象所给的例子,我们认为信息检索标准需要发展,以便有效地处理 Web 数据。3.2 有组织结构的集合 (Well Controlled Collections)与 Web 的不同点Web 是完全无组织的异构的大量文档的集合。Web 中的文档无论内在信息还是隐含信息都存在大量的异构性。例如,文档内部就用了不同的语言(既有人类语言 又有程序 ),词汇(email 地址,链接,邮政编码, 电话号码,产品号 ),类型(文本,HTML ,PDF
25、,图像,声音 ),有些甚至是机器创建的文件(log 文件,或数据库的输出 )。可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。隐含信息包括来源的信誉,更新频率,质量,访问量和引用。不但隐含信息的可能来源各种各样, 而且被检测的信息也大不相同, 相差可达好几个数量级。例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。很明显,搜索引擎对这两类信息的处理是不同的。Web与有组织结构集合之间的另外一个明显区别是,事实上,向Web 上传信息没有任何限制。灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年Google搜索引擎原理 2022 Google 搜索引擎 原理
限制150内