讨论搜索引擎的外文翻译.doc
《讨论搜索引擎的外文翻译.doc》由会员分享,可在线阅读,更多相关《讨论搜索引擎的外文翻译.doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二届信息技术全国学术“挑战和机会”研讨会论文集探讨搜索引擎爬虫M.P.S.Bhatia*, Divya Gupta*内塔吉萨布哈什技术研究所,印度德里大学*德里工程纪念中学,印度德里大学随着网络难以想象的急剧扩张,从knowledge from the Web is becoming gradually importantWeb中提取知识逐渐正在成为一个受欢迎的重要途径。这是由于网络的便利性和丰富性信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网络爬虫之间的联系。关键词:爬行,集中爬行,网络爬虫1.导言在网络上WWW是一种服务
2、,驻留在连接到互联网的电脑上,并允许最终用户访问该是用标准的接口软件的计算机中存储的数据。万维网是获取访问网络信息的宇宙,是人类知识的体现。搜索引擎是一个计算机程序,它能够从网上搜索并扫描特定的关键字,尤其是商业服务,返回的它们发现的资料清单。抓取搜索引擎数据库的信息主要通过接收想要发表自己作品的作家的清单或者通过“网络爬虫”、“蜘蛛”或“机器人”漫游互联网捕捉他们访问过的页面的相关链接和信息。网络爬虫是一个能自动获取万维网的信息程序。网页检索32是一个重要的研究课题。爬虫是软件组件,它访问网络中的树结构,按照一定的策略,搜索并收集当地库中检索对象。本文的其余部分组织如下:第二节中,我们解释了
3、Web爬虫的背景细节。在第3节,我们讨论爬虫的类型,在第4节我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的网页的问题。2.调查网络爬虫网络爬虫几乎同网络本身一样古老。第一个爬虫,马修格雷流浪者,写于1993年,大约正好与首次发布的OCSA Mosaic网络同时发布。在最初的两次万维网会议上发表了许多关于网络爬虫的文章。然而,在当时,网络比起现在要小上三到四个数量级,所以这些系统没有处理好当今网络中一次爬网中固有的缩放问题。显然,所有常用的搜索引擎使用的爬网程序必须扩展到网络的实质性部分。但是,由于搜索引擎是一项竞争性质的业务,这些抓取的
4、设计并没有公开描述。有两个明显的例外: 谷歌履带式和网络档案履带式。不幸的是,说明这些文献中的爬虫程序是太简洁以至于能够进行重复。原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。 服务器进程读取一个文件的URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I / O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些网页由一个索引程序进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL
5、到磁盘文件然后就可以进行读取了。通常情况下,因为三至四个爬虫程序被使用,所以整个系统需要四到八个完整的系统。在谷歌将网络爬虫转变成为一个商业成果之后在斯坦福大学仍然在进行这方面的研究。斯坦福WebBase项目已实施一个高性能的分布式爬虫,具有每秒可以下载50至10021件文件的能力。赵等人又发展了文件更新频率的模型以报告爬行下载计划的增量。互联网档案馆还利用多台机器来检索网页。每个爬虫程序被分配到64个站点进行检索,并没有网站被分配到一个以上的爬虫。每个单线程爬虫程序读取其指定网站网址列表的种子从磁盘到每个站点的队列,然后用异步I / O来从这些队列同时抓取网页。一旦一个页面下载完毕,爬虫提取
6、包含在其中的链接。如果一个链接提到它被包含在网页中的网站,它被添加到适当的站点排队;否则被记录到磁盘中。每隔一段时间,合并成一个批处理程序的具体地点的种子设置这些记录“跨网站“的网址,过滤掉进程中的重复项。WebFountain爬虫程序分享了墨卡托结构的几个特点:它是分布式的,连续(作者使用术语“增量“),有礼貌,可配置的。不幸的是,写这篇文章,WebFountain是在其发展的早期阶段,并尚未公布其性能数据。 BASIC TYPES OF SEARCH ENGINE 3.搜索引擎基本类型A 基于爬虫的搜索引擎 基于爬虫的搜索引擎自动创建自己的清单。计算机程序“蜘蛛”建立他们没有通过人的选择3
7、1。他们不是通过学术分类进行组织,而是通过计算机算法把所有的网页排列出来。这种类型的搜索引擎往往是巨大的,常常能取得了大量的信息-它允许复杂的搜索范围内搜索以前的搜索的结果,使你能够改进搜索结果。这种类型的搜索引擎包含了网页中所有的链接。所以人们可以通过匹配的单词找到他们想要的网页。B 人力页面目录 这是通过人类选择建造的,即他们依赖人类创建列表。他们以主题类别和科目做网页的分类。人力驱动的目录,永远不会包含他们网页所有链接的。他们是小于大多数搜索引擎。C 混合搜索引擎一种混合搜索引擎以传统的文字为导向,如谷歌搜索引擎,如雅虎目录为基础的搜索引擎,其中每个方案比较操作的元数据集不同,当其元数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 讨论 搜索引擎 外文 翻译
限制150内