Internet信息检索工具—搜索引擎课件.ppt
《Internet信息检索工具—搜索引擎课件.ppt》由会员分享,可在线阅读,更多相关《Internet信息检索工具—搜索引擎课件.ppt(93页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 Internet 信息检索工具搜索引擎简单地说,所谓搜索引擎,就是简单地说,所谓搜索引擎,就是采用信息自采用信息自动跟踪标引等技术、建立在因特网上专门提动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。供网络信息资源导航服务检索工具。它能够通过它能够通过Internet Internet 接受用户的查询指令接受用户的查询指令,并向用户提供符合其查询要求的信息资源,并向用户提供符合其查询要求的信息资源网址。网址。1 1、什么是搜索引擎、什么是搜索引擎? ?它是一些在它是一些在Web Web 中主动搜索信息中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的并将其自
2、动索引的Web Web 网站,其网站,其索引内容存储在可供检索的大型数据库中,建立索索引内容存储在可供检索的大型数据库中,建立索引和目录服务。引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词(当用户输入关键词(KeywordKeyword)查询时,该搜索引擎)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可又是提供查询、检索的网站。所以,搜索
3、引擎也可称为称为Internet Internet 上具有检索功能的网页上具有检索功能的网页。2 2、搜索引擎的工作原理、搜索引擎的工作原理搜索引擎由网上机器人搜索引擎由网上机器人(Spider (Spider 或或Robot)Robot)自动在自动在网页上按某种策略进行远程数据的搜索与获取,网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。并生成本地索引。Spider Spider 或或Robot Robot 是一种软件,它沿着是一种软件,它沿着WWWWWW文件的文件的链接在网上漫游,记录链接在网上漫游,记录URLURL、文件的简明摘要、文件的简明摘要、关键字或索引,形成一个很大的数
4、据库,这种数关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和据库包括标题、摘要、关键词和URLURL、文件的大、文件的大小、语种以及词出现的频率。小、语种以及词出现的频率。Internet网页自动分类子系统网页自动分类子系统网页搜集子系统网页搜集子系统信息检索子系统信息检索子系统资源索引数据库资源索引数据库管管理理子子系系统统搜索界面搜索界面通用搜索引擎系统结构通用搜索引擎系统结构3.3.搜索引擎的构成搜索引擎的构成 一个搜索引擎由搜索器、索引器、检一个搜索引擎由搜索器、索引器、检索器和用户接口索器和用户接口4 4个部分组成。个部分组成。(1 1)搜索器)搜索器 即通常所
5、说的蜘蛛即通常所说的蜘蛛(Spider)(Spider)、机、机器人(器人(RobotRobot)、爬行者()、爬行者(WebcrawlerWebcrawler)等,搜索器的功能是在等,搜索器的功能是在InternetInternet中漫游,中漫游,发现和搜集信息。还要定期更新已经搜发现和搜集信息。还要定期更新已经搜集过的旧信息,避免死链接和无效链接。集过的旧信息,避免死链接和无效链接。(2 2)索引器)索引器 即索引软件,主要是用于对网络搜索软即索引软件,主要是用于对网络搜索软件采集到的网页信息进行自动标引,建立可供件采集到的网页信息进行自动标引,建立可供检索的检索的WebWeb索引数据库。
6、索引数据库。(3 3)检索器)检索器 检索器作为用户提问与数据库的接检索器作为用户提问与数据库的接口,负责接收用户查询请求和对该请求口,负责接收用户查询请求和对该请求进行检索,对将要输出的结果进行排序,进行检索,对将要输出的结果进行排序,并将检索结果返回用户界面。并将检索结果返回用户界面。 搜索引擎的数据检索方式主要是关搜索引擎的数据检索方式主要是关键字的匹配方式键字的匹配方式 , 如泛匹配、模糊匹如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式配、正则匹配以及多关键字的处理方式等等 。并对查询结果根据某种算法和规则。并对查询结果根据某种算法和规则评分和排序。评分和排序。 (4 4)用户接口
7、)用户接口 供用户输入查询,显示匹配结果。供用户输入查询,显示匹配结果。用户接口的设计和实现使用人机交互的用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习理论和方法,以充分适应人类的思维习惯。惯。4 4、搜索引擎的主要任务、搜索引擎的主要任务(1) (1) 信息搜集信息搜集各个搜索引擎都派出绰号为蜘蛛各个搜索引擎都派出绰号为蜘蛛(Spider)(Spider)或机或机器人(器人(RobotsRobots)的)的“网页搜索软件网页搜索软件”,在各网,在各网页中爬行,访问网络中公开区域的每一个站点页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创并
8、记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。由于网络文档的不建出一个详尽的网络目录。由于网络文档的不断变化,机器人也不断地把以前已经分类组织断变化,机器人也不断地把以前已经分类组织的目录更新。的目录更新。(2) 信息处理信息处理将将“网页搜索软件网页搜索软件”带回的信息进行分类整理,建带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。立搜索引擎数据库,并定时更新数据库内容。在进行信息分类整理阶段,不同的搜索引擎会在搜在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索索结果的数量和质量上产生明显的差异。有的搜索引擎把引擎把“
9、网页搜索软件网页搜索软件”发往每一个站点,记录下发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。故有的搜索地址、篇名、特点的段落和重要的词。故有的搜索引擎数据库很大,而有的则较小。当然,最重要的引擎数据库很大,而有的则较小。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。息世界的同步发展。(3) 信息查询信息查询每个搜索引擎都必须向用户提供一
10、个良好的信息查询每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括界面,一般包括分类目录及关键词分类目录及关键词两种信息查询途径。两种信息查询途径。分类目录查询分类目录查询是以资源结构为线索,将网上的信息资是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息。类检索信息。关键词查询关键词查询是利用建立的网络资源索引数据库向网上是利用建立的网络资源索引数据库向网上用户提供查询用户提供查询“引擎引擎”。用户只要把想要查找的关键。用户只要把想要查找的关键词或短语输入查询框中,并按词或短语输入查询框中,并按“
11、Search”Search”按钮,搜索按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。用户只要通过搜索中结果(均为超文本链接形式)。用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。引擎提供的链接,就可以立刻访问到相关信息。5、搜索引擎的种类搜索引擎的种类检索型搜索引擎:检索型搜索引擎:它使用自动索引软件来发现、收集并标引网它使用自动索引软件来发现、收集并标引网页,建立数据库,并以页,建立数据库,并以WebWeb
12、形式让用户找到所需信息资源。比形式让用户找到所需信息资源。比较著名的有:较著名的有:AltaVistaAltaVista、GoogleGoogle、天网、百度、悠游等。、天网、百度、悠游等。目录型搜索引擎:目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球,典型的分类目录搜以卓越的分类目录型导航服务而称誉
13、全球,典型的分类目录搜索引擎如索引擎如Yahoo (Yahoo ( http:/ http:/ ) 混合型搜索引擎:混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。搜狐、网易、中华等门户网站。多元搜索引擎:多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索集成在一起,通过统一的检索界面进行网络信息多元搜索 的的检索工具。按照工作方式的不同可分为并行处理式和串行处理检索工具。按照工作方式的不同可分为并行处理式和串行处理式两大类。
14、著名的有:式两大类。著名的有: Meta crawlerMeta crawler、DogpileDogpile、MammaMamma和万和万维搜索(维搜索(Http:/Http:/)等。)等。6.搜索引擎的一般搜索规则 利用搜索引擎既可以检索出 Internet 上的文献信息,还可以查找到公司和个人的信息;既可以通过输入单词、词组或短语进行检索,还可以使用逻辑算符及位置算符等对多个词进行组合检索;既可以以词语查询有关主题的页面信息,也可以以特定的域名、主机名、 URL 等查找有关的网站信息。搜索引擎是基于一些基本的查询规则来实现这些查询条件的,但各个搜索引擎所采用的查询规则又不尽相同。下面介绍
15、的是常用的一般查询规则。 (1) 布尔逻辑算符布尔逻辑算符 逻辑逻辑“与与” 逻辑“与”一般用“ AND ”表示,有的搜索引擎还可以用“ &” 表示。使用逻辑“与”是为了要求检索结果的 Web 页面中同时出现所有输入的检索词,提高查准率。 逻辑逻辑“或或” 逻辑“或”一般用“ OR ”表示,有的搜索引擎还可以用“ | ”表示。使用逻辑“或”是为了允许检索结果的 Web 页面中出现输入检索词的任何一个,提高查全率。 逻辑逻辑“非非” 逻辑“非”一般用“ NOT ”表示,有的搜索引擎还可用“!”表示。使用逻辑“非”是为了要求检索结果的 Web 页面中出现 NOT 前的检索词,但排除含有 NOT 后
16、的检索词的页面信息,以缩小检索范围。 (2)空格、逗号、括号、引号的作用空格、逗号、括号、引号的作用 空格空格 空格的作用与逻辑“与”( AND )相同。例如:检索式“ aircraft engine ”,表示可查出含有“ aircraft ”及“ engine ”的页面。在汉字作为关键词输入时,切记不要在构成关键词的两个字之间插入空格,否则,就会发生两个字之间进行逻辑“与”的检索错误。例如:用户要查找“飞机”这个关键词,但却输入了“飞 机”,由于“飞”和“机”两字之间插入了空格,而被处理为“与”的关系,查出所有同时含有“飞”和“机”两个字的页面。这个检索结果的范围要比“飞机”作关键词的结果扩
17、大了很多,许多结果中已不含有与“飞机”相关的信息。 逗号逗号 逗号(,)的作用类似于逻辑“或”( OR ),也是查找那些至少含有一个指定关键词的页面,区别是,检索结果输出时,包含指定关键词越多的页面,其排列的位置越靠前。例如,检索式“计算机,网络,多媒体”,可查出包含三个关键词中的任何一个或几个的页面,而同时含有“计算机”、“网络”和“多媒体”的页面输出时排在前面。 括号括号 括号“ ( ) ”的作用是使括在其中的运算符优先执行,用于改变复杂检索式中固有逻辑运算符优先级的次序。例如,检索式“多媒体 and (计算机 or 网络)”,表示要求先执行括号中的“ OR ”运算,再执行括号外的“ AN
18、D ”运算。 引号引号 引号( “ ” )的作用是,括在其中的多个词被当作一个短语来检索。绝大部分主要搜索引擎都支持短语检索,找到含有与短语词序和意义完全相同的页面。例如,检索式“ electronic magazine ” ,表示把 electronic magazine 当作一个短语来搜索。如果不加引号,搜索引擎就会把两词之间的空格按“与”处理,查出包含 electronic 和 magazine 的页面,结果应与用户要求的主题内容相去甚远。 (3)截词符、连接符、邻近符截词符、连接符、邻近符 截词符截词符截词符一般用星号( * )表示。当“ * ”置于一个词的未尾时,表示将相同词干的词全
19、部检索出来。例如;检索式“ compu* ”,则表示可以检索到 computer 、 computing 、 compulsion 等词。有一些搜索引擎支持自动截词,用户不需要专门输入截词符,系统自动将相同词干的词全部找出来。注意:“ * ”不能用在检索词的开始和中间。 连接符连接符 连接符有加号( + )和减号( - )。 在检索词前使用“ + ”时,表示所有检索结果的页面中都必须包含该词。例如:检索式“ +A+B ”,表示查得的页面中应出现“ A ”和“ B ”方面的信息;而检索式“ A+B ”,则表示在检索结果页面中一定含有“ B ”,但不一定有“ A ”的信息。 检索词前使用“ - ”
20、时,表示任何检索结果的页面中都不能包含该词。例如:检索式“ microwave-ceramic ”,则表示查找关于 microwave 的页面,但排除那些和 ceramic 有关的页面。邻近符邻近符 邻近符( NEAR )用于检索在一定区域范围内同时出现的检索词的文献,它指定了检索词之间的距离。用 NEAR/n ( n 为 1 , 2 , 3 )精确控制检索词之间的距离,表示检索词的间距最大不超过 n 个单词。例如:检索式“ Computer near/10 Network ”,可查找出 computer 和 Network 两词之间插入不大于 10 个单词的文献,检索结果输出时,间隔越小的排
21、列位置越靠前。 (4 4)限定字段检索)限定字段检索 限定字段检索,即限定检索词在搜索引擎数据库中某个字段范围进行查找,如网页标题、站点、网址、链接等。 标题检索 网页标题通常是对网页内容提纲挈领式的归纳。把查询内网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。容范围限定在网页标题中,有时能获得良好的效果。 标题检索就是在网页的标题中查找输入的检索词,使用的命令一般是“ title ”,其格式为: intitle :检索式 例如: intitle:mars intitle:“ mars landings ” 站点检索 站点检索就是在网站地址域名中
22、检索输入的词,以查找用户指定站点上的所有页面。使用的命令一般是“ site ”,其格式为: site :域名中的词 例如,检索式“site: ”,表示可以检索出 WWW 服务器中主机名为“ ”的网页。 假如想要查找关于火星着陆方面的资料,并且只想在教育网站(后缀为 .edu )中查找,可以输入这样的检索式:“ mars landings ” + site:edu 注意:网站地址前不能带“http:/” site:http:/ 是错误写法。site:和站点名之间,不要带空格。 在网址中搜索 网页url中的某些信息,常常有某种有价值的含义。于是,如果对搜索结果的url做某种限定,就可以获得良好的效
23、果。有些搜索引擎提供在 URL 的文本中进行检索的功能,这和站点检索非常相似。使用的命令一般是“ inurl ”,其格式为: inurl : URL 中的词 例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。再如,检索式“ inurl:home.html ”可以检索出在网页地址中含有“ home.html ”的页面。 注意,inurl:语法和后面所跟的关键词,不要有空格。 链接检索 链接检索就是在与特定网页或网域有链接的所有网页中进
24、行检索。使用的命令一般是“ link ”,其格式为: link :特定网页或域中的词 例如,“link:”将找出所有指向 Google 主页的网页。不能将 link: 搜索与普通关键词搜索结合使用。 专业文档搜索 很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。 百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。 Google已经可以支持13种非HTML文件的搜索。除了PDF文档
25、,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。 例如,查找计算机网络方面的论文,可以输入检索式“计算机网络 filetype:doc”,点击结果标题,直接下载该文档,也可以点击标题后的“HTML版”快速查看该文档的网页格式内容。 7.高级检索功能 (1)自然语言检索:即直接采用自然语言中的字、词、句作为提问式进行检索,如可用How has the networked information retrieval developed?这样的表达式充当
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Internet 信息 检索 工具 搜索引擎 课件
限制150内