因特网上信息检索的方法.ppt
知识回顾知识回顾n因因特特网网非非常常受受欢欢迎迎的的一一个个应应用用是是万万维维网网。借借助助于于万万维维网网,软软件件沿沿着着下下划划线线链链接接,你你会会很很容易地从一个页面导航到其他页面。网页被保存在容易地从一个页面导航到其他页面。网页被保存在n中中,并并且且每每个个页页面面都都有有一一个个惟惟一一的的地地址址,被称为被称为。浏览器浏览器服务器硬盘服务器硬盘统一资源定位器统一资源定位器(URL)学习目标:学习目标:1、掌握搜索引擎的分类与特点。、掌握搜索引擎的分类与特点。2、了解搜索引擎的产生与发展。、了解搜索引擎的产生与发展。3、理解搜索引擎的工作原理。、理解搜索引擎的工作原理。重点:搜索引擎的类型与特点。重点:搜索引擎的类型与特点。难点:搜索引索的工作原理难点:搜索引索的工作原理3.2因特网上信息检索的方法因特网上信息检索的方法3.2因特网上信息检索的方法因特网上信息检索的方法n在因特网中信息检索的方法:在因特网中信息检索的方法:、基于超文本超媒体的信息浏览基于超文本超媒体的信息浏览通过一个网站中的链接去访问另外一个信息资源通过一个网站中的链接去访问另外一个信息资源、基于目录服务的信息查询(目录式搜索)、基于目录服务的信息查询(目录式搜索)、使用搜索引擎进行信息检索(全文搜索)、使用搜索引擎进行信息检索(全文搜索)搜索引擎搜索引擎1、世界上最早的搜索引擎是超级目录索引世界上最早的搜索引擎是超级目录索引,出现在出现在年?年?设计者是:设计者是:2、按信息搜集方法和服务提供方式,搜索按信息搜集方法和服务提供方式,搜索引擎有:引擎有:1994美籍华人美籍华人杨致远杨致远和美国人和美国人David Filo目录式搜索引目录式搜索引(雅虎、搜狐)(雅虎、搜狐)全文搜索引擎全文搜索引擎(goole、百度)、百度)元搜索引擎元搜索引擎(比比猫Bbmao)雅虎(雅虎(yahoo)搜索引擎的工作原理以人工方式或半自动方以人工方式或半自动方式搜集信息,由编辑人式搜集信息,由编辑人员查看信息之后,人工员查看信息之后,人工形成信息摘要,并将信形成信息摘要,并将信息置于事先确定的分类息置于事先确定的分类框架中。信息大多面向框架中。信息大多面向网站,提供目录浏览服网站,提供目录浏览服务和直接检索服务;目务和直接检索服务;目录的录的用户界面用户界面基本上都基本上都是分级结构,首页提供是分级结构,首页提供了最基本的几个大类的了最基本的几个大类的入口,用户可以一级一入口,用户可以一级一级地向下访问,直至找级地向下访问,直至找到自己感兴趣的类别。到自己感兴趣的类别。目录式搜索引擎目录式搜索引擎组织、分类、组织、分类、存储存储人工或半自动方式人工或半自动方式收集信息的收集信息的URL用户查询用户查询获获取取相相关关信信息息的的源源位置(位置(URLURL)通过浏览器软件访问通过浏览器软件访问搜索引擎网络公司搜索引擎网络公司搜索引擎的工作原理全文搜索引擎全文搜索引擎搜索引擎网站的计算机服务器就是厂房,而搜索引擎网站的计算机服务器就是厂房,而“蜘蛛蜘蛛”、“机器人机器人”、“爬虫爬虫”等自动网页搜索程序扮演了采购员角色,需要整日奔波在等自动网页搜索程序扮演了采购员角色,需要整日奔波在网络上以采购网页。采购回来的网页由加工工人网络上以采购网页。采购回来的网页由加工工人“网页搜索引擎程网页搜索引擎程序序”进行加工,加工好的产品则存放到产品仓库进行加工,加工好的产品则存放到产品仓库“索引数据库索引数据库”中,中,供用户查找。在用户使用搜索引擎进行资源检索时,与用户直接打供用户查找。在用户使用搜索引擎进行资源检索时,与用户直接打交道的是用户接口程序(例如浏览器),用户接口扮演了交道的是用户接口程序(例如浏览器),用户接口扮演了“订单接订单接收及送货员收及送货员”的双重角色,它接收搜索关键词并将其传送到搜索引的双重角色,它接收搜索关键词并将其传送到搜索引擎服务器上,同时还负责显示经过排序的检索结果,供用户有选择擎服务器上,同时还负责显示经过排序的检索结果,供用户有选择地打开找到的网页,然后将检索结果传送给用户接口程序。地打开找到的网页,然后将检索结果传送给用户接口程序。搜索引擎的工作原理一一股股是是自自动动网网页页搜搜索索程程序序在在因因特特网网上上搜搜索索网网页页,并并将将网网页页信信息息不不断断地地传传回回服服务务器器。索索引引编编辑辑程程序序对对传传送送回回来来的的网网页页信信息息进进行行加加工工,建建立立索索引引,存存储储到到索索引引数数据据库库中中。另另一一股股是是学学生生所所熟熟悉悉的的,即即用用户户输输入入搜搜索索关关键键词词,用用户户接接口口程程序序将将其其传传送送到到搜搜索索引引擎擎服服务务器器上上。服服务务器器上上的的检检索索程程序序根根据据关关键键词词在在索索引引数数据据库库中中进进行行查查找找,并并将将查查询询结结果果传传送送给给用用户户接接口口程程序序,用用户户接接口口程程序序再再以以网网页页的的形形式式向向用用户户显显示示查询结果查询结果全文搜索引擎全文搜索引擎搜索引擎网络公司通过浏览器软件访问建立索引数据库URL自动从网上“抓取”网页,返回URL在索引数据库中搜索排序用户查询获取相关信息的源位置(URL)搜索引擎搜索引擎 优点优点 缺点缺点 温馨小提示温馨小提示目录搜索引擎目录搜索引擎 收录网站质量收录网站质量高高全人工审全人工审核核需人工介入,需人工介入,维护量大,信维护量大,信息量大,更新息量大,更新不及时不及时浏览某方面的浏览某方面的信息或专题信息或专题全文搜索引擎全文搜索引擎 信息及时又多信息及时又多返回信息多,返回信息多,需用户筛选结需用户筛选结果果查找非常具体查找非常具体或特殊的问题或特殊的问题元搜索引擎元搜索引擎 方便简单快捷方便简单快捷可以同时使用可以同时使用多个搜索引擎多个搜索引擎没有自己的数没有自己的数据库据库全面了解网上全面了解网上信息资源信息资源搜索引擎的特点搜索引擎的特点在这几中检索工具中在这几中检索工具中,n目录式搜索引擎目录式搜索引擎虽有成本高虽有成本高,信息少的缺点信息少的缺点,但它的信息准确这一但它的信息准确这一优点是另二者所无法比拟的优点是另二者所无法比拟的,故在一定的领域故在一定的领域,一定的时间一定的时间,它仍会它仍会被使用;被使用;n全文搜索引擎全文搜索引擎是当前各种搜索引擎的主流是当前各种搜索引擎的主流;n搜索引擎分类不同,工作方式也不同,因而导致了信息覆盖范围搜索引擎分类不同,工作方式也不同,因而导致了信息覆盖范围方面的差异,仅限于使用单一的搜索引擎是不明智的,根据不同方面的差异,仅限于使用单一的搜索引擎是不明智的,根据不同的要求选用不同的搜索引擎或者两者结合使用才是明智之举。的要求选用不同的搜索引擎或者两者结合使用才是明智之举。小结:小结:小结n因特网信息检索方法:1、基于超文本、基于超文本/超媒体的信息浏览超媒体的信息浏览2、基于目录服务的信息查询、基于目录服务的信息查询3、基于搜索引擎的信息检索、基于搜索引擎的信息检索n搜索引擎的分类、原理:1、目录式搜索引擎、目录式搜索引擎:人工;量少质高人工;量少质高,更新慢更新慢2、全文搜索引擎:蜘蛛程序(机器人);量多,杂、全文搜索引擎:蜘蛛程序(机器人);量多,杂3、元搜索引擎:实现简单,没有自己的数据库、元搜索引擎:实现简单,没有自己的数据库其他:检索代理;特种搜索引擎其他:检索代理;特种搜索引擎因特网上的信息检索练习题因特网上的信息检索练习题.xls搜索引擎的分类搜索引擎的分类类型目录式搜索引擎网络信息资源按照主题分类,并以层次树状形式进行组织举例 定义选择选择“教教育育”类目类目 按目录类别查找搜索按目录类别查找搜索:比如比如:查高考资料查高考资料没找到没找到“高考高考”,就找比,就找比“教育教育”跟接近跟接近“高考高考”的的“中小学教中小学教育育”找到啦!找到啦!搜索引擎的分类搜索引擎的分类类型定义举例全文搜索引擎使用关键词到预先建好的或租用其它索引数据库查询信息的一类搜索引擎 搜索引擎的分类搜索引擎的分类举例 元搜索引擎定义类型没有自己的数据,将用户查询请求同时向多个搜索引擎递交把综合的结果返回给用户基于超文本基于超文本/超媒体的信息浏览超媒体的信息浏览