网络信息检索PPT.ppt
《网络信息检索PPT.ppt》由会员分享,可在线阅读,更多相关《网络信息检索PPT.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、21第第4 4章章 网络信息检索网络信息检索t4.14.1网络信息检索的含义网络信息检索的含义t4.24.2搜索引擎搜索引擎t4.34.3谷歌谷歌t4.4 AltaVista4.4 AltaV www.zg- www.skf- www.skf- www.nsk- www.fag- www.ntn- www.xunchi- 224.14.1网络信息检索的含义网络信息检索的含义网络信息检索一般是指因特网检索,是通过网络接口软件实现信息检索,如百度和谷歌等。用户可以在一个终端查询各地上传到网络的信息资源。这一类网络检索系统都是基于互联网的分布式特点开发和应用的,即:数据是分布式存储的,大量的数据可以
2、分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理。234.24.2搜索引擎搜索引擎 t4.2.14.2.1搜索引擎的工作原理搜索引擎的工作原理t4.2.24.2.2搜索引擎的组成搜索引擎的组成t4.2.34.2.3搜索引擎的分类搜索引擎的分类t4.2.44.2.4搜索引擎的信息检索模型搜索引擎的信息检索模型t4.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t4.2.64.2.6网上著名搜索引擎网上著名搜索引擎 www.zg- www.skf- www.skf- www.nsk- www.fag- www.
3、ntn- www.xunchi- 244.2.14.2.1搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理,即搜索工作的过程:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。1 1从互联网上抓取网页从互联网上抓取网页利用能够从互联网上自动收集网页的蜘蛛(Spider)系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。2 2建立索引数据库建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定
4、的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3 3在索引数据库中搜索排序在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度已计算完成,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。254.2.24.2.2搜索引擎的组成搜索引擎的组成 搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。1 1搜索器搜索器其功能是负责在互联网中漫游,抓取网页信息的工作,将抓取的网页内容进行切词处理并自动进行
5、标引,建立索引数据库。2 2索引器索引器其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。3 3检索器检索器其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。4 4用户接口用户接口其作用是根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算,如并集、交集运算,再提取网页简单摘要信息反馈给查询用户,同时提供个性化查询项。264.2.34.2.3搜索引擎的分类搜索引擎的分类 t1 1全文搜索引擎全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/Al
6、lTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。t2 2目录索引目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Pro
7、ject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。t3 3元搜索引擎元搜索引擎 (META Search Engine)(META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo等。274.2.44.2.4搜索引擎的信息检索模型
8、搜索引擎的信息检索模型 t1 1经典模型经典模型 经典模型是以文档中的关键词为搜索依据的。经典模型将文档用一组关键词(专业名叫索引词)来代替。索引词来自于文档,是文档中的词汇摘录。索引词集合能表达文档的主题。索引词常用于编制索引和概括文档的内容。经典模型又可以分为三个:布尔模型、向量空间模型和概率模型。t2 2代数模型代数模型代数模型也有两种:广义向量空间模型和神经网络模型。t3 3其他模型其他模型其他常见的模型还有贝叶斯模型、推理网络模型、信任度网络模型等。284.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧 t与操作与操作一般搜索引擎需要在多个关键字之间加上“”,而另外一些则不需要。G
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 检索 PPT
限制150内