欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    网络信息检索PPT.ppt

    • 资源ID:97821390       资源大小:2.34MB        全文页数:28页
    • 资源格式: PPT        下载积分:6金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要6金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    网络信息检索PPT.ppt

    21第第4 4章章 网络信息检索网络信息检索t4.14.1网络信息检索的含义网络信息检索的含义t4.24.2搜索引擎搜索引擎t4.34.3谷歌谷歌t4.4 AltaVista4.4 AltaV www.zg- www.skf- www.skf- www.nsk- www.fag- www.ntn- www.xunchi- 224.14.1网络信息检索的含义网络信息检索的含义网络信息检索一般是指因特网检索,是通过网络接口软件实现信息检索,如百度和谷歌等。用户可以在一个终端查询各地上传到网络的信息资源。这一类网络检索系统都是基于互联网的分布式特点开发和应用的,即:数据是分布式存储的,大量的数据可以分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理。234.24.2搜索引擎搜索引擎 t4.2.14.2.1搜索引擎的工作原理搜索引擎的工作原理t4.2.24.2.2搜索引擎的组成搜索引擎的组成t4.2.34.2.3搜索引擎的分类搜索引擎的分类t4.2.44.2.4搜索引擎的信息检索模型搜索引擎的信息检索模型t4.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t4.2.64.2.6网上著名搜索引擎网上著名搜索引擎 www.zg- www.skf- www.skf- www.nsk- www.fag- www.ntn- www.xunchi- 244.2.14.2.1搜索引擎的工作原理搜索引擎的工作原理搜索引擎的工作原理,即搜索工作的过程:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。1 1从互联网上抓取网页从互联网上抓取网页利用能够从互联网上自动收集网页的蜘蛛(Spider)系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。2 2建立索引数据库建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3 3在索引数据库中搜索排序在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度已计算完成,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。254.2.24.2.2搜索引擎的组成搜索引擎的组成 搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。1 1搜索器搜索器其功能是负责在互联网中漫游,抓取网页信息的工作,将抓取的网页内容进行切词处理并自动进行标引,建立索引数据库。2 2索引器索引器其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。3 3检索器检索器其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。4 4用户接口用户接口其作用是根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算,如并集、交集运算,再提取网页简单摘要信息反馈给查询用户,同时提供个性化查询项。264.2.34.2.3搜索引擎的分类搜索引擎的分类 t1 1全文搜索引擎全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。t2 2目录索引目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。t3 3元搜索引擎元搜索引擎 (META Search Engine)(META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo等。274.2.44.2.4搜索引擎的信息检索模型搜索引擎的信息检索模型 t1 1经典模型经典模型 经典模型是以文档中的关键词为搜索依据的。经典模型将文档用一组关键词(专业名叫索引词)来代替。索引词来自于文档,是文档中的词汇摘录。索引词集合能表达文档的主题。索引词常用于编制索引和概括文档的内容。经典模型又可以分为三个:布尔模型、向量空间模型和概率模型。t2 2代数模型代数模型代数模型也有两种:广义向量空间模型和神经网络模型。t3 3其他模型其他模型其他常见的模型还有贝叶斯模型、推理网络模型、信任度网络模型等。284.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧 t与操作与操作一般搜索引擎需要在多个关键字之间加上“”,而另外一些则不需要。Google就是其中之一,它无需用明文的“”来表示逻辑“与”操作,只要在搜索关键字之间用空格隔开即可。如想知道汽车的发展历史,我们可以在Google中这么输入:“汽车 历史”,马上就能得到搜索结果。294.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t“非非”操作操作 如果想排除一些干扰项,可以使用“A-B”的格式来表达“非”操作。如搜索“中国 历史”,会看到很多和历史以及文化相关的结果,现在想一次性去掉文化类内容,就可以输入“中国 历史 文化”。注意,“-”前必须加上空格。2104.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t“或或”操作操作 逻辑“或”操作可以用格式“A OR B”来实现。例如想知道搜索引擎的发展历史,尤其是含有网络蜘蛛的部分,则可以使用以下的方式。2114.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t通配符通配符合理使用通配符也能大大缩小搜索范围。很多搜索引擎支持通配符,如用“*”代替一个字符串,而“?”则代替单个字符等。不过Google对通配符支持有限,目前只能用“*”来替代字符串,而且包含“*”必须用(注意这里的符号是英文的)引起来。例如搜索“以*为家”,表示搜索一个短语,且以“以”开头,以“为家”的结尾,中间的“*”可以为任何字符或字符串。2124.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t空格的处理空格的处理搜索时还需要注意,一般的英文是不区分大小写的。同时,以短语作为搜索关键字,如中间有空格则需用“”引起来,否则空格会被当成“与”运算符。例如想查找英文的二战资料,则需要输入“world war II”。2134.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t“site”site”“site”表示搜索结果局限于某个具体网站或者网站频道,例如需要在著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯,则可以输入:“search engine tips site: OR site:”。2144.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t“filetype:”filetype:”t使用“filetype:”不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。例如想查找一些有关搜索引擎技巧的PDF文档则可以用:“”search engine“tips OR tutorial filetype:pdf”。2154.2.54.2.5搜索引擎检索技巧搜索引擎检索技巧t“link”link”“link”语法就能让用户搜索所有链接到某个URL地址的网页,这个功能多用于查看某个URL被引用的情况。例如搜索所有含指向狗狗首页这个地址的网页,就可以输入:“link:”。2164.2.64.2.6网上著名搜索引擎网上著名搜索引擎 t常用的国外搜索引擎常用的国外搜索引擎 Alta Vista:http:/ Lycos:http:/ Excite;http:/ Magellan:http:/ InfoSeek:http:/ Yahoo!:http:/ Whats New:http:/ Amazing Enironment Organization Web:http:/CUI W3 Catalog:http:/cuiwww.unige.ch EINet Galaxy:http:/ 100Hot Website:http:/ C/Nets Share :http:/ Webcrawker:http:/ 2174.2.64.2.6网上著名搜索引擎网上著名搜索引擎t国内常用搜索引擎国内常用搜索引擎百度:http:/ 雅虎中文:http:/ 北极星搜索引擎:http:/ 人民网络检索引擎:http:/若比邻中文搜索引擎:http:/ 司南YIPPEE:http:/ 天网中英文搜索引擎:http:/:8000/gbindex.htm 网现引擎:http:/ 中国频道导航中心:http:/www.china- 中国热点:http:/ 中文网络索引Hello:http:/.tw 搜狐:http:/ 网易:http:/2184.2.64.2.6网上著名搜索引擎网上著名搜索引擎t常用的中文导航站点、搜索引擎指南常用的中文导航站点、搜索引擎指南CBI商贸网络站点集:http:/ ChinaNet国内导航:http:/ Chilna国外站点导航:http:/ 2194.34.3谷歌谷歌 t图片搜索图片搜索(1)进入图片搜索:点击主页左上角的“图片”,进入Google图片搜索 www.zg- www.skf- www.skf- www.nsk- www.fag- www.ntn- www.xunchi- 2204.34.3谷歌谷歌(2)输入搜索关键字:在搜索框中输入“张国荣”就能得到大量的图片预览和链接。2214.34.3谷歌谷歌(3)高级搜索:我们想得到一些张国荣的大图作为桌面用(宽屏显示器),同时又希望是JPG格式的图片,于是就可以点搜索栏旁边的“高级”按钮,进入高级图片搜索 2224.34.3谷歌谷歌t谷歌地图谷歌地图Google地图则提供了地图搜索功能,包括道路、公交、建筑等的查询。2234.34.3谷歌谷歌(1)所在地查询:使用Google地图,可以进入全世界的任一城市地区,查找相关地理信息。例如查找武汉软件工程职业学院所在地,只需要在地图搜索栏中输入“武汉软件工程职业学院”即可。2244.34.3谷歌谷歌(2)缩放地图:如果觉得路不够详细,可以拉动左上角的滑块,或直接波动鼠标滚轮,就能放大或缩小地图,更详细的路况资料就会显现出来。2254.34.3谷歌谷歌(3)卫星地图:点选右上角的“卫星”按钮,还能查看该地区的卫星图片,虽然是民用级卫星图片,但是清晰度仍然很高。2264.34.3谷歌谷歌tGoogleGoogle资讯资讯 如果想查看最新资讯,则可以进入“Google资讯”,里面有当前最新的资讯。2274.34.3谷歌谷歌t其它服务其它服务Google还准备了大量的其他服务,点击顶部的“更多”按钮,进入到服务列表中。2284.4 AltaVista 4.4 AltaVista AltaVista(http:/)一直被认为是最好的搜索引擎,所有的搜索软件和网站都将其作为目标,但一直没有超越者。 www.zg- www.skf- www.skf- www.nsk- www.fag- www.ntn- www.xunchi-

    注意事项

    本文(网络信息检索PPT.ppt)为本站会员(知****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开