搜索引擎.ppt
《搜索引擎.ppt》由会员分享,可在线阅读,更多相关《搜索引擎.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 一、搜索引擎 二、百度搜索引擎 三、Google搜索引擎搜索引擎一、搜索引擎 定义:是基于WWW的信息处理系统,是对网络资源进行标引和检索的工具。实质上是用来对网络信息资源管理和检索的一系列软件。组成部分组成部分负责工作负责工作搜索器搜索器负责定期地自动到各个网站上,把网页抓下来,并顺着上面的负责定期地自动到各个网站上,把网页抓下来,并顺着上面的链接,持续不断地抓取网页链接,持续不断地抓取网页索引器索引器把搜索器抓来的网页进行分析,按照关键词句进行索引,并存把搜索器抓来的网页进行分析,按照关键词句进行索引,并存入服务器的数据库中入服务器的数据库中检索器检索器面向用户,接收用户提交的查询字串,
2、在索引数据库中查询,面向用户,接收用户提交的查询字串,在索引数据库中查询,并将结果反馈给用户并将结果反馈给用户类型:按工作方式区分:主题、目录和多元。(1)主题引擎主题引擎工作原理收集处理查询根据结果由用户访问主题引擎:依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(Crawlers)”的软件,以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户输入的“检索词”在索引库中查询,并将查询结果返回给用户。服务方式:面向网页的全文检索服务 程序自动完成,处理信息的层次是网页。优点:信息量大、更新及时 缺点:返回信息中常有很多无关信息,甚至有一定比例的死链
3、接,用户必须从结果中进行筛选。国内代表:百度(http:/)等 国外代表:Google(http:/)等 它们的首页都只有一个检索文本框。主题引擎(2)目录引擎搜索引擎搜索引擎主主题题引擎引擎目目录录引擎引擎是否人工参与是否人工参与无无程序自动完成程序自动完成是是提供的提供的结结果果网页网页网站网站适合适合专指、具体专指、具体某一专题某一专题 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。国内代表:搜狐、新浪、网易、雅虎中国的分类目录。以及网上的一些导航站点、网址之家。国外代表:Yah
4、oo Directory(网站数量约200万个)等。目录引擎(3)多元引擎提供各个主题引擎的统一检索平台。一般没有自己网络机器人及数据库,而是将用户的查询请求通过调用、控制和优化其它多个独立搜索引擎的搜索结果(网页)并以统一的格式在同一界面集中显示。优点:返回结果的信息量更大、更全。缺点:不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。国内代表:万维搜索(http:/)等。国外代表:元搜索metacrawler(http:/)等多元引擎同时提交多个独立的搜索引擎,分别检索多个数据库,并将检索结果进行二次加工,最后将整理好的检索结果输出给用户。支持调用12个独立搜索引擎,提供涵盖近20
5、个主题的目录检索服务。目前,主题引擎与目录引擎有相互融合渗透的趋势。原来一些纯粹的主题搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而 Yahoo目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。二、百度搜索引擎百度:1999年底,李彦宏和徐勇在美国硅谷创建了百度。2000年百度公司回国发展,之后成为全球最大的中文搜寻引擎技术公司。起名:来自于“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”辛弃疾 青玉案。
6、象征着百度对中文信息检索技术执著的追求,寄托着百度对自身技术的信心。2005年8月5日,百度在美国上市,当天股票飙涨350%,其身价已经超过9亿美元。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网可检索新闻、网页、图片、百科、知道、MP3、视频等。默认查找网页。2.1 网页搜索(1)使用两个以上检索词的检索逻辑逻辑与。表示为:A B(AB之间为空格)含义:空格前后的两个检索词在同一个网页中出现。如:搜索“石家庄铁道大学2014年就业情况”的网页 检索策略:石家庄铁道大学 2014年 就业 逻辑或
7、。表示为:A|B 含义:A、B两个检索词中至少有一个在网页中出现。如:要查询“信息检索”或“文献检索”的相关网页 检索策略:信息检索|文献检索逻辑非。表示为:A-B。但减号之前必须留一空格 含义:网页中出现检索词A而不出现检索词B。如:要搜寻琅琊榜,但不含剧情介绍的相关网页 检索策略琅琊-剧情介绍(2)字段检索在标题搜索:intitle:检索词 如:intitle:(石家庄铁道大学 2015年 寒假 放假)表示搜索标题及其说明语中同时含有检索词“石家庄铁道大学”、“2015年”、“寒假”、“放假”的网页。网页标题网页说明语:系统自动产生在链接中搜索:inurl:关键词。搜索url中含有的关键词
8、的网页。如:photoshop inurl:soft这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“soft”则必须出现在网页url中。URL地址中含有soft在网站中搜索:site:网站或域名。搜索某网站或每类网站包含检索内容的网页。如:教学名师 site:,查找石家庄铁道大学网站含有教学名师的网页 教学名师 site:,查找中国教育网站含有教学名师的网页。查找文件:filetype:后跟以下文件格式:doc、xls、ppt、pdf、rtf、all。其中,all表示搜索所有这些文件类型。如:搜索网页标题中含有信息检索的ppt文件精确匹配双引号“”和书名号 如果输入的查询
9、词很长,百度搜索时可能是拆分的。给查询词加上双引号,就可以达到这种效果。例如:石家庄铁道大学图书馆和“石家庄铁道大学图书馆”精确匹配书名号 在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。有两层特殊功能:一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。在某些情况下特别有效果,例如,查名字很通俗和常用的电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上 后,手机结果就都是关于电影方面的了。2.2 百度百科 百度百科是一部内容开放、自由的网络百科全书,旨在创造一个涵盖所有领域知识、服务所有互联网用户的中文知识性百科全书
10、。由网友共同编写,任何一个符合法律的词条,都可以由网友自由添加,具有无限、即时和动态的特征。百度百科百度百科传统百科全书传统百科全书词条编写词条编写网友网友固定专家固定专家数量数量无限,自由添加无限,自由添加有限,出版后无法修改有限,出版后无法修改内容内容即时、动态即时、动态固定,有些词条无法反映固定,有些词条无法反映2.3 百度知道 基于搜索的互动式知识问答分享平台。并非直接查询那些已经存在于互联网上的内容,而是用户自己根据具体需求有针对性地提出问题,通过积分奖励机制发动其他用户来给出该问题的答案。主要是针对问题的答案。(1)网页搜索中直接提问(2)“百度知道”中检索答案百度百科与百度知道的
11、区别百度知道百度知道百度百科百度百科表现形式表现形式问答形式问答形式非问答形式非问答形式应用结果或信息利应用结果或信息利用用针对问题的答案针对问题的答案偏概念形式的词条解释偏概念形式的词条解释产品实质产品实质互动问答平台,并非严互动问答平台,并非严格意义的知识库体系格意义的知识库体系协同合作平台,知识的协同合作平台,知识的集合库集合库2.4 百度文库是百度发布的供网友在线分享文档的平台。文档由百度用户上传,需要经过百度的审核才能发布,百度自身不编辑或修改用户上传的文档内容。网友可以在线阅读和下载这些文档。文档包括教学资料、考试题库、专业资料、公文写作、法律文件等多个领域的资料。百度用户上传文档
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎
限制150内