元搜索引擎讲稿.ppt
《元搜索引擎讲稿.ppt》由会员分享,可在线阅读,更多相关《元搜索引擎讲稿.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、元搜索引擎第一页,讲稿共二十八页哦开发元搜索引擎,主要的理由是:开发元搜索引擎,主要的理由是:1)元搜索能够分散处理负载,增加检索的范围。元搜索能够分散处理负载,增加检索的范围。Web 数据量太大,而且增长迅猛,单个引擎的容量,处数据量太大,而且增长迅猛,单个引擎的容量,处理能力难以扩展到很大的规模,所以每个引擎只能包含一理能力难以扩展到很大的规模,所以每个引擎只能包含一部分部分 Web 文档。文档。2)元搜索具有较好的扩展性,可以加入多个成员引擎。元搜索具有较好的扩展性,可以加入多个成员引擎。它使得各个成员引擎规模变小,性能更好,这样成员引擎的检它使得各个成员引擎规模变小,性能更好,这样成员
2、引擎的检索响应时间短,还可以使得检索的内容保持最新。索响应时间短,还可以使得检索的内容保持最新。3)有些有些 web 站点的内容不能用数据采集器抓取站点的内容不能用数据采集器抓取,只有用该,只有用该站点提供的站点提供的 API 访问。访问。4)检索更有效,用户为了找到满意的检索结果可能访问多个检索更有效,用户为了找到满意的检索结果可能访问多个搜索引擎搜索引擎,直到找到结果位置,而元搜索引擎可以帮助用,直到找到结果位置,而元搜索引擎可以帮助用户自动完成这个任务。户自动完成这个任务。第二页,讲稿共二十八页哦2 元搜索引擎的结构元搜索引擎的结构 元搜索引擎是搜索引擎的集成,类似多数据库的集成和机元搜
3、索引擎是搜索引擎的集成,类似多数据库的集成和机群系统的体系结构。群系统的体系结构。第三页,讲稿共二十八页哦 问题:问题:在元搜索引擎的环境下,如何快速,有效在元搜索引擎的环境下,如何快速,有效的把分布在各个成员引擎的匹配用户检索条件文档的把分布在各个成员引擎的匹配用户检索条件文档返回给用户呢?返回给用户呢?假如用户发出一个检索请求,元搜索引擎首先要做假如用户发出一个检索请求,元搜索引擎首先要做的是选择用哪个或哪些成员搜索引擎,把检索请求发到最的是选择用哪个或哪些成员搜索引擎,把检索请求发到最有希望找到用户检索结果的搜索引擎,这样可以提高效率有希望找到用户检索结果的搜索引擎,这样可以提高效率和检
4、索精度,减少处理无用或相关程度低的文档的数量。和检索精度,减少处理无用或相关程度低的文档的数量。第二个选择是在成员搜索引擎检索返回结果文第二个选择是在成员搜索引擎检索返回结果文档集中选择相关度高的文档。档集中选择相关度高的文档。第四页,讲稿共二十八页哦第五页,讲稿共二十八页哦1)检索界面检索界面 成员引擎有各自不同检索界面,简单的只采用单个关键成员引擎有各自不同检索界面,简单的只采用单个关键词,复杂的可以指定任意的多个关键词之间的布尔条件或词词,复杂的可以指定任意的多个关键词之间的布尔条件或词间距。间距。检索项可以是关键词,短语,甚至句子,如检索项可以是关键词,短语,甚至句子,如 Google
5、Google对检索句对检索句子的效果很好,检索项的大小和引擎的索引结构相关。子的效果很好,检索项的大小和引擎的索引结构相关。最常见的是关键词外加分类的检索,如最常见的是关键词外加分类的检索,如 Yahoo,Sina,Yahoo,Sina,Infoseek Infoseek 等,分类一般按数据的形式分为:图片,软件,音频,视等,分类一般按数据的形式分为:图片,软件,音频,视频等,按内容分政治,经济,文化,娱乐,体育等。频等,按内容分政治,经济,文化,娱乐,体育等。为了适应各个成员引擎的界面,可以采用交或并的方法,在翻译为了适应各个成员引擎的界面,可以采用交或并的方法,在翻译查询时交的方法需要给成
6、员引擎填缺省值,并的方法针对特定的引擎查询时交的方法需要给成员引擎填缺省值,并的方法针对特定的引擎要做取舍要做取舍。第六页,讲稿共二十八页哦2 2)搜索引擎选择)搜索引擎选择 提供系统中可用的搜索引擎的列表让用户自己来选提供系统中可用的搜索引擎的列表让用户自己来选择。择。获取各个成员引擎内容的表示和查询匹配,选择最相关的获取各个成员引擎内容的表示和查询匹配,选择最相关的前前n n个引擎进行查询。这种方法很大程度取决于引擎内容个引擎进行查询。这种方法很大程度取决于引擎内容的表示。的表示。第七页,讲稿共二十八页哦3)查询分发:把来自检索界面的查询串翻)查询分发:把来自检索界面的查询串翻译成特定的引
7、擎的串。译成特定的引擎的串。4)结果合并:)结果合并:如果成员引擎的相关函数不同,没有可如果成员引擎的相关函数不同,没有可比性,则逐个取返回结果队列的头部,如果比性,则逐个取返回结果队列的头部,如果成员引擎的相关函数相同,返回结果的权值成员引擎的相关函数相同,返回结果的权值具有可比性,可以按查询与引擎的相关系数具有可比性,可以按查询与引擎的相关系数加权各个返回队列,用多路最优归并算法合加权各个返回队列,用多路最优归并算法合并结果形成全局有序队列。并结果形成全局有序队列。结果合并过程中还要除去重复的文档,方结果合并过程中还要除去重复的文档,方法是取每个文档的索引纪录中摘要部分的前法是取每个文档的
8、索引纪录中摘要部分的前 20 字节和时间,如果都相同则认为是重复字节和时间,如果都相同则认为是重复的,应去掉。的,应去掉。第八页,讲稿共二十八页哦6.2 元搜索引擎的特征元搜索引擎的特征拥有经过选择的搜索引擎。拥有经过选择的搜索引擎。统一的检索提问式(需要进一步的转换才统一的检索提问式(需要进一步的转换才可以提交给不同的搜索引擎)可以提交给不同的搜索引擎)搜索时间用户设定搜索时间用户设定检索方式存在差异(顺序、并行)检索方式存在差异(顺序、并行)提供更多的检索方式(词组、自然语言)提供更多的检索方式(词组、自然语言)结果显示(数据算法、界面表现)结果显示(数据算法、界面表现)第九页,讲稿共二十
9、八页哦6.3 元搜索引擎分类元搜索引擎分类 简单元搜索引擎简单元搜索引擎复杂元搜索引擎复杂元搜索引擎桌面型元搜索引擎桌面型元搜索引擎基于基于WebWeb的元搜索引擎的元搜索引擎第十页,讲稿共二十八页哦6.3.1简单元搜索引擎简单元搜索引擎提供一个搜索引擎的列表,用户可以选择所提供一个搜索引擎的列表,用户可以选择所用的搜索引擎。例如用的搜索引擎。例如好东西网址好东西网址第十一页,讲稿共二十八页哦6.3.2桌面型元搜索引擎桌面型元搜索引擎以程序的方式提供给用户,运行在用户的以程序的方式提供给用户,运行在用户的机器上。如飓风搜索通,整合了近百个各机器上。如飓风搜索通,整合了近百个各类搜索引擎,包含简
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 讲稿
限制150内