百度搜索引擎工作原理.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《百度搜索引擎工作原理.pdf》由会员分享,可在线阅读,更多相关《百度搜索引擎工作原理.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、.工作原理编辑1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫 spider。爬虫 Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索效劳。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词中文、判断网页类型、分析超链接、计算网页的重要度/丰富度等。3、提供检索效劳。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的
2、网页;为了用户便于判断,除了网页标题和URL 外,还会提供一段来自网页的摘要以及其他信息。搜索引擎根本工作原理搜索引擎编辑在搜索引擎分类局部我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间 比方 Google一般是 28 天,搜索引擎主动派出“蜘蛛程序,对一定 IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址参加自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内 2天到数月不等定向向你的网站派出“蜘蛛程序,扫描你的网站并将有关信息存入数据库,以备用户查
3、询。由于搜索引擎索引规那么发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的方法是多获得一些外部链接,让搜索引擎有更多时机找到你并自动将你的网站收录。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度上下,按顺序将这些网页链接返回给用户。目录索引编辑实用文档.与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引那么完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你
4、的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规那么,一般都能登录成功。而目录索引对网站的要求那么高得多,有时即使登录屡次也不一定成功。尤其象 Yahoo!这样的超级索引,登录更是困难。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时那么必须将网站放在一个最适宜的目录Directory。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引那么要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网
5、站的目录、网站信息不适宜,他可以随时对其进行调整,当然事先是不会和你商量的。目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名那么是由标题字母的先后顺序决定也有例外。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如 Google 就借用 Open Directory目录提供分类查询。而象 Yahoo!这些老牌目录索引那么通过与Google
6、等搜索引擎合作扩大搜索范围注,在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些那么默认的是网页搜索,如Yahoo。新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现,这句话确实包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫谈一文中提出一个观点:“网站内容不仅是大型 ICP 网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的。因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工
7、具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。百度谷歌编辑查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。实用文档.但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎
8、涉及到许多技术点,比方查询处理,排序算法,页面抓取算法,CACHE 机制,ANTI-SPAM 等等。这些技术细节,作为商业公司的搜索引擎效劳提供商比方百度,GOOGLE 等是不会公之于众的。我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,并根据黑盒返回的输出大致判断黑盒里面不为人知的技术细节。查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。我们分两个局部来讲述:查询处理/中文分词。一、查询处理用户向搜索引擎提交查询,搜索引擎一般在接受到用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 百度 搜索引擎 工作 原理
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内