《搜索引擎(3).ppt》由会员分享,可在线阅读,更多相关《搜索引擎(3).ppt(102页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、搜索引擎搜索引擎n1、什么是搜索引擎n2、搜索引擎的工作原理n3、搜索引擎的发展过程n4、搜索引擎的类型及使用技巧 什么是搜索引擎(p54)n搜索引擎是指通过网络机器人在网际某一空间、某一领域中寻找和发现有用或相关的信息,并在此基础上建立检索数据库,通过简单友好的界面提供给用户查询的工具。n它们主要通过网络搜索软件或多种人工方式,将www上大量网站的页面建成索引数据库或目录指南,从而对用户的查询请求做出响应,并提供给用户所需的信息。搜索引擎的工作原理n派出“网页搜索程序”在网上搜寻所有信息,并将它们带回搜索引擎n将信息进行分类整理,建立搜索引擎数据库n通过Web服务器端软件,为用户提供浏览器界
2、面下的信息查询搜索引擎发展史n1990年由蒙特利尔大学学生AlanEmtage发明的Archie,以文件名查找文件的系统。n1993年Nevada System Computing Services大学开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ),可搜索网页。n1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了Lycos。n同年由斯坦福(Stanford)大学的两名博士生,DavidFilo和美籍华人杨致远(GerryYang)共同创办了超级目录索引Yahoo。n1998年9月goo
3、gle的诞生开创了搜索引擎的新时代。搜索引擎的类型n分 类 目 录 式 搜 索 引 擎(Search Index/Directory)n全文搜索引擎(Full Text Search Engine)n元搜索引擎(Meta Search Engine)类别搜索方式检索评价搜索引擎分类目录式搜索引擎搜集保存各网站站名和网址,再按类编排查准率高信息量少更新不及时Google网页目录,新浪,搜狐全文搜索引擎搜集保存每一个网站的网页地址和网页的全部内容查全率高查准率低GoogleBaidu天网元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。查全率高查准率低对检索结果的整
4、合有待改进DogpileMammaVivisimo分类目录式搜索引擎n按目录分类的网站链接列表,提供相关类目的网站信息。n代表:SOHU分类目录式分类目录式搜索引擎搜索引擎中国政府各职能部门的网中国政府各职能部门的网站站中国政府各职能部门的网站中国政府各职能部门的网站中国政府各职能部门的网站中国政府各职能部门的网站中国政府各职能部门的网站中国政府各职能部门的网站中国政府各职能部门的网站中国政府各职能部门的网站分类目录式搜索引擎的另一种形式分类目录式搜索引擎的另一种形式n中国网络之门中国网络之门http:/n网网址址名名录录http:/ 过过 Library Search(例例 如如 OCLC的
5、的 Open WorldCAT)检索附近图书馆的收藏。检索附近图书馆的收藏。3、了了解解某某文文献献被被引引情情况况。可可直直接接点点击击Cited by.(引引用数)搜索引用文献。用数)搜索引用文献。4、对文献和期刊进行应用和引用排名。、对文献和期刊进行应用和引用排名。Google学术搜索Google学术搜索可提供文献出处、引用信息,有的还可直接提供全文可提供文献出处、引用信息,有的还可直接提供全文Google学术搜索用于查找“计算机病毒分析”的文献Google网页目录google其他服务n新闻n新闻订阅 桌面型元搜索引擎桌面型元搜索引擎 基于基于WebWeb的元搜索引擎的元搜索引擎简单简单
6、元搜索引擎元搜索引擎n提供一个搜索引擎的列表,用户可以选择所用的搜索引擎。好东西网址桌面型元搜索引擎桌面型元搜索引擎n以程序的方式提供给用户,运行在用户的机器上,用户的查询请求直接由用户端分发给它所调用的搜索引擎,然后对返回的搜索结果进行集成后以一定的方式显示。n这些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能。例如用户定义结果排序方式、删除重复记录等功能。飓风搜索通飓风搜索通优秀中文搜索及多窗口浏览工具,整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐MP3,股票,新闻,购物搜索,购书搜索等的全方位互联网信息检索工具,采用多线程并行运作,同时开
7、动多个搜索引擎,高效实用。完全兼容及嵌入IE,符合浏览及搜索习惯,搜索结果可以单个或全部分类保存。飓风搜索飓风搜索通通基于基于WebWeb的元搜索引擎的元搜索引擎n基于Web的元搜索引擎以Web的方式为用户提供元搜索服务。万纬搜索引擎 http:/ 万纬搜索引擎是最有名的中文元搜索引擎。万纬中文集成搜索引擎包括了5个英文搜索引擎Argos、Google、hotbot、northernLight、Yahoo和7个中文搜索引擎如网典、新浪、雅虎(中文)、搜狐、天网、悠游搜索。用户可根据需要自由选择其中最多6个引擎进行同步搜索,搜索结果可按相关度、时间、域名和引擎分类。万纬搜索引擎万纬搜索引擎 ht
8、tp:/常用元搜索引擎常用元搜索引擎n国外Mamma:http:/dogpile:http:/ n布尔逻辑运算符(布尔逻辑运算符(布尔逻辑运算符(布尔逻辑运算符(P241P241)n n截止符截止符截止符截止符n限制检索限制检索布尔逻辑运算符布尔逻辑运算符n n逻辑与:逻辑与:符号为“*”或“AND”A*B:表示数据库中既含有A概念又含有B概念的文献才被命中。表达式:A*B 或 A AND B 如:计算机在机械工业中的应用 计算机应用*机械工业布尔逻辑运算n n逻辑或:逻辑或:符号为“”或“OR”AB:表示在数据库中只要含有A概念或B概念的文献都可命中。表达式:AB 或 A OR B 如:机器
9、人的结构及构件研究 机器人结构+机器人构件布尔逻辑运算布尔逻辑运算n n逻辑非:逻辑非:符号为符号为“”或或“NOT”NOT”AB:表示在数据库中,在命中含有A概念的文献集合里,去除同时含有B概念的文献。表达式:A NOT B 或 AB 如:对外贸易-亚洲截截词符(词符(?)n1.限制词尾的字位数限制词尾的字位数如:如:comput?n2.检索同词干的词检索同词干的词如:如:comput?、?computern3.代替词中的某些字母代替词中的某些字母如:如:t?k(tooktalk等)等)例:1comput?computecomputecomputercomputercomputerscomp
10、uterscomputingcomputing computerisecomputerise computerizecomputerizeminicomputerminicomputer minicomputerisminicomputerise e minicomputerizminicomputerize e2comput?3?computer4?comput?5?comput?1-61 1、2 2、7 71 1、2 21-92 2、7 7n前方一致(前方匹配)前方一致(前方匹配)例:例:computcomput?computcomput?n后方一致后方一致例:例:?computercom
11、putern任意一致(模糊匹配)任意一致(模糊匹配)例:例:t?kt?kn中间一致中间一致例:例:?computcomput?computcomput?n完全一致(精确匹配)完全一致(精确匹配)例:例:computercomputer限制检索(p246)TI=lasers 标题标题=激光器激光器AU=John著者著者=李四李四 DE=lasers叙词叙词=激光器激光器 AB=lasers摘要摘要=激光器激光器 ID=lasers自由词自由词=激光器激光器 关键词关键词=激光器激光器 刊名刊名=福州大学学报福州大学学报 机构机构=福州大学福州大学 即限制检索,是限定检索词在数据库记录中出现的字段
12、范围的一种检索方法。如:前缀代码n张锦芯研究生英语大学四级英语n北京大学学报l作者作者=张锦芯张锦芯*标题标题=(?研究生英语?(?研究生英语?+?大学四级英语?)大学四级英语?)*刊名刊名=北京大学学报北京大学学报Web信息查询的基本方法信息查询的基本方法n根根据据你你所所要要的的信信息息,选选定定一一个个合合适适的的搜搜索索引引擎或专业网点。擎或专业网点。n根据信息的内容,选定若干个自由词备选。根据信息的内容,选定若干个自由词备选。n确确定定你你要要采采用用的的查查询询方方式式:选选定定查查询询方方式式、查询范围、查询时间等。查询范围、查询时间等。n当当查查询询结结果果没没有有达达到到你你
13、的的预预期期目目标标时时,要要及及时修改查询策略时修改查询策略。关键词检索的灵魂关键词检索的灵魂n1.足够多的关键词是快速定位目标信息的关键。例如:手机冯小刚贺岁片手机n构建检索提问如同解迷:5W1Hn1.what:自己要找的信息的中心主题是什么,可以从什么角度来讲。n2.who:是否涉及特定的群体或个人?n3.where:是否从特定的国家地区?n4.when:是否从特定的时间剖面来探讨,或特定时间点以后才有的时间或情况?n5.why:这个主题有什么意义或影响?为什么会有这种现象发生?n6.how:是否有特定的方法当结果太多时可以增加关键词再进行查询。举例:nJan是个白领,在市区工作,在春季
14、的一个午后,在窗边喝咖啡的Jan被外面掠过的一只鸟吸引住了,那是一只乌鸦大小的鸟,飞的极快,Jan看到它的时候它正在以一个俯冲的动作追逐一只鸽子,随即这只鸽子很快飞出了他的视线。nJan被这只鸟儿迷住了,它的羽毛是灰白相间的,却有着黄黑相间的弯曲的嘴巴。nWHO/WHAT?灰白相间的鸟,大约是一只乌鸦的大小,黄黑相间的嘴巴nWHEN?春天,午后nWHERE?市区,高层建筑物之间nHOW?飞的很快,追捕的猎物似乎是一只灰色的鸽子nWHY?它为什么要追捕别的鸟?为什么以前从未见过它?它迷路了嘛?还是在迁徙的过程中路过这个城市?停用词和常用词nAnd,about,the,of,a,in,asn了,这
15、,那,很,的n“气温”地方天气预报到学术论文到气象科普学n“北京冬季气温零下”关键词的分类和对象关键词n分为对象、行为、修饰关键词(在检索提问中地位是有差别的)n最重要的是对象关键词,避免使用行为关键词,谨慎使用修饰关键词n“古典手机铃声”比单独用“手机铃声”好修饰关键词:红色、赤色、朱选定合适的关键词级别n上位词:概念上外延更广的关键词,一个关键词所表达的概念的任何一种属性、任何一种归类方式都可以是它的上位词“鸟”“鸽子”“动物”“鸟”n下位词:概念上内涵更窄的关键词“乱世佳人”“小说”n如果选定的检索范围大于检索主题实际所包含的范围,检索结果就会过多,反之则必然丢失一部分有价值的结果词组检索n检索工具会对中文检索提问进行自动分词,比如“动力火车”,划分为“动力”和“火车”n当使用词组检索时,小心空格和错别字使用英文专业术语检索n对6.5个亿的网页语言属性调查显示英文:71日文:6.82德文:5.08法文:1.75中文:1.52进阶检索技巧1.猜测URL2.右截断网址:http:/
限制150内