网络信息的检索.ppt
网络信息的检索 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望一、网络信息的特点1.信息源数量庞大、增长迅速2.信息内容丰富、多样,覆盖面广3.传输速度快、共享程度高4.交叉性强、分布广泛而不均匀5.变化频繁、动态性强6.信息使用成本低7.信息质量良莠不齐二、搜索引擎 网络搜索引擎的历史最早可以追溯到 1991年,尽管搜索引擎发展时间并不长,但其观念却是深入人心的。第 22次中国互联网发展状况统计报告显示,在中国 2.5 3亿网民中,搜索引擎的使用率为 6 9.2,达 1.7 5亿。目前为中国第五大网络应用技术。从数据中不难看出,网络搜索引擎所发挥的作用是非常大的。工作原理 搜索引擎是互联网上的分布式搜索系统,它在传统数据库检索技术基础上,增加了自动收集和更新数据库信息的功能,并采用人工智能方法对检索结果进行区分和排序。主要由信息采集器、查询表和检索接口三大模块组成。搜索引擎系统的分类1.机器人搜索引擎 由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器将用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。2.目录搜索引擎 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确,导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。严格意义上算不上真正的搜索引擎。Dmoz:open directory project:是世界上最大也是最好的网站分类目录主页3.元搜索引擎 也称集成搜索引擎。是对搜索引擎进行搜索的搜索引擎。它可以没有自己的资源库和机器人,仅充当一个中间代理的角色,接受用户的查询请求,讲请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈后,进行综合相关度排序,然后把整理后的查询结果发送给用户。Dogpile共收集了26个搜索引擎,包括WEB检索、新闻组检索、FTP检索、新闻检索、股市检索、黄页检索、白页检索、地图检索、天气检索等。http:/ 1999年底,百度成立于美国硅谷,2000年1月创立于北京中关村,是目前全球最大的中文搜索引擎。百度的起名,来自于“众里寻她千百度”的灵感,它寄托着百度公司对自身技术的信心,象征着百度对中文信息检索技术的执著追求。百度除数据库的规模及部分特殊搜索功百度除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界能外,其他方面可与当前的搜索引擎业界领军人物领军人物Google相媲美,在中文搜索支持相媲美,在中文搜索支持方面有些地方甚至超过了方面有些地方甚至超过了Google,是目前,是目前国内技术水平最高的搜索引擎之一。国内技术水平最高的搜索引擎之一。成为成为“最受欢迎的中文搜索引擎最受欢迎的中文搜索引擎”和和“全全球最大的球最大的 中文搜索引擎中文搜索引擎”(百度自称),(百度自称),其数据库中存有其数据库中存有3亿页网页。百度搜索引擎亿页网页。百度搜索引擎具有高准确性、高查全率、更新快以及服具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。的信息,因此深受网民的喜爱。百度主页百度国学和端午相关的诗词古代典籍对普洱的描述古诗静夜思2.Google www.G 成立于1997年9月,几年间迅速发展成为目前规模最大的搜索引擎,目前Google每天处理的搜索请求已达2亿次!而且这一数字还在不断增长。Google提供常规及高级搜索功能。在高级搜索中,用户可限制某一搜索必须包含或排除特定的关键词或短语。该引擎允许用户定制搜索结果页面所含信息条目数量,可从10到100条任选。提供网站内部查询和横向相关查询。Google允许以多种语言进行搜索,在操作界面中提供多达30余种语言选择,包括英语、主要欧洲国家语言(含13种东欧语言)、日语、中文简繁体、朝语等。同时还可以在多达40多个国别专属引擎中进行选择。Google主页1.糖醋排骨Google的基本检索算符是:空格、减号和“OR”,逻辑“与”(AND)用空格代替。“糖醋排骨 做法”,注意空格的使用空格在搜索中起到的作用是非常大的,如果想查询中国跨度最大的公路隧道中国跨度最大的公路隧道,可以这样搜索:“中国中国 跨度最大跨度最大 公路隧道公路隧道”使用减号 有时你可能在查询某个题材时又不希望在这个题材中包含另一个题材,这时你就可以使用减号了。比如你想查询有关冯小刚的文件,但又不希望看到有关葛优的消息,用google检索你可以这样查找:冯小刚 葛优(注意减号前有一个空格)减号的作用在于可以使搜索结果集中反映你的需求,减号的作用在于可以使搜索结果集中反映你的需求,而你无需为大量无关的搜索结果而头疼。而你无需为大量无关的搜索结果而头疼。减号前不加空格的检索结果松茸 保鲜 检索结果松茸-姬松茸 保鲜 的检索结果使用引号“”通过添加英文双引号来搜索短语。双引号中的词语在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。例:查一个管理学的概念:系数推导法(没有作为一个短语检索,结果难以找到有用的资料)用一个短语检索的结果查找雪莱的诗句“冬天已经来了,春天还会远吗”原文地图查找:昆明市二十一中地图提问问答:长江长度Google的学术搜索Google的学术搜索专门用来搜索世界范围内的学术文献,内容从医学、物理学到经济学、计算机科学等,横跨多个学术领域以及大量书籍和整个网络中的学术性文章。它可以过滤掉普通搜索结果中的大量垃圾信息,排列出文章的不同版本以及被其他文章引用的次数,还可以通过引用链接方便的找到与搜索结果相关的其他学术资料。猪的近交系研究情况:pig inbred lines学术高级搜索打开其中一篇文章学术搜索同样支持中文3.中国搜索http:/ Search Technology)技术,在中国推出的搜索门户。一搜具有简洁专业、海量、客观精准、国际化、稳定高速等特点,可以搜索全球50亿网页,网页搜索支持38种语言,可搜索15亿全球图片,1500万首中外文MP3,是中国最大的图片及音乐搜索引擎。先进的搜索分析与排序技术(而非人工干预)保证了结果的客观与精准。搜索技术相关性分析是利用文本、来源、相关链接及其他特定文件的特征进行分析,以决定文件与查询的相关性。YST不仅对网页内容分析,而且分析链接结构及查询意图(linkflux技术),这种新的搜索方式更加适合越来越复杂、变化多样的网络。这一技术在同行业中非常独特。四、网络信息的检索例1:软件的下载:网上电视播放软件QQlive的下载 随着网络带宽的提高,通过网络收看电影、电视成为可能,越来越多的网络电视软件蜂拥推出,但是这些软件都存在或是速度不够流畅,或是其它一些弊端。为了能够让更多的用户看到高质量的节目,腾讯公司推出了新一代的网络直播软件:QQlive,Qqlive与现在网络上流行的p2p方式一样,采用的是BT内核,所以在播放节目的时候,收看的用户越多,会使用其播放速度就会越快。需要在检索的网页中挑选可以得到软件的网页可能得到软件的网页Qqlive安装完成后,就会在桌面上添加一个图标 ,双击该图标,就可以看到Qqlive的主界面了(如图1所示)。软件主界面上方是菜单栏,接下来是工具栏,最常用的几个工具都在这里了,只要点击就可以方便的进行窗口大小、模式的切换。再向下就是视频播放窗口与频道选择列表了。最下面是状态栏,在这里可以实时的显示下载速度、下载百分比等数据。工具栏节目列表区例2:标准的检索啤酒大麦的标准检索到收录有关标准网页检索到原文例3:温室黄瓜的病虫害防治例4:教学软件的检索:中学生物的教学内容:细胞分裂下载得到的教学课件(编辑状态)例5:人物的检索:生平著作例6:什么叫“水工隧洞”例7:治疗脂肪瘤的医院例8:查找生产香蕉粉的厂家例9:法律法规的检索中华人民共和国道路交通安全法例10:网上小说的阅读与下载:鹿鼎记下载输入检索词后查找可以下载的网页通过中国小说网下载例11:歌曲的试听或下载:http:/ angusticepsMorchella angusticeps Peck)农业病虫害的图片第二个图片的出处上 网做什么?不 同的人有不 同的答案。有人看新 闻;有人泡论坛;有人玩游戏 无论 怎样,只要你上 过 网,是肯定 离不开 搜索引擎的。但是对于许 多情况 我们常用 的百度与谷歌这两 大搜索引擎却帮不上忙。这如何是好?要解决 问 题,只 用 点小花招,要 知道,搜索这玩 意,不止有百度与谷歌 。在国内用户首选的搜索引擎 中,百度占到了 6成 以上。因此,百度 搜索引擎非常具有代表性,对百度进行Google工具条的安装和使用1.进入Google主页点击Google 大全栏目选择条条大路通google选择下载安装google工具栏保持在桌面上比较方便使用桌面上的Google工具栏安装软件安装google工具栏选择配置并完成安装安装完成Google工具栏的实用功能1.Google Search:在任何网页上随时使用在任何网页上随时使用 Google 的查询的查询2.Highlight:用不同的颜色标释出查询字词用不同的颜色标释出查询字词也可以在检索到的网页内容中用不同的颜色标释出查询字词也可以在检索到的网页内容中用不同的颜色标释出查询字词3.Word Find:在网页内寻找查询字在网页内寻找查询字词的位置词的位置例如检索这样一个课题:甘蔗的花粉贮藏 检索策略如下:(Sugarcane OR Saccharum)and pollen and(stored OR Storage)利用google检索时检索策略如下:Sugarcane OR Saccharum pollen stored OR Storage检索得到的结果打开的网页不容易找到你要查找的内容,分别点击分别点击在整个检索策略中最关键的词是pollen 用鼠标点击就可以找到这个词在网页中的位置用鼠标点击就可以找到这个词在网页中的位置印楝:不同的生态型印楝素含量 主题词主题词 印楝Azadirachta indica 印楝素含量azadirachtin content检索策略检索策略“azadirachtin content”印楝(Neem)属楝科,常绿乔木,广泛种植于热带、亚热带地区。印楝由于具有极高的经济价值而倍受世界各国政府与科学家们的关注。印楝被美国农业部誉为可解决全球问题之树。联合国粮农组织、联合国亚太地区经济和社会理事会、国际林联等组织,推荐印楝为南亚、东南亚和非洲等干热地区优先发展的树种,并已引种栽培于50多个国家。印楝全身是宝,综合利用价值很高,但在现已开发的20余种用途中,最有价值的还是作为杀虫剂。印楝是目前世界上公认的最优秀的高效无毒无公害杀虫植物。科学家认为,印楝是一种较完善的植物源生物杀虫剂,它达到了作为杀虫剂所要求的全部标准:对害虫的广谱作用,对天敌的干扰少,对脊椎动物没有毒性,在环境中迅速降解,资源丰富等。印楝树高1025米,分枝早,主干短(少数种源主干较长),冠幅大,枝叶多而密集,根系发达,萌发力强。印楝生长迅速,在条件适合的地方一年生幼树,树高可达6米,23年开花结果,78年进入盛果期,每株年产鲜果3050公斤。果期100年以上。印楝喜温耐旱,无霜或微霜、年降雨350-1200毫米的地区均可种植,降雨量2400毫米的地方也生长良好。对土壤要求不严格。网页的自动翻译鼠标移动到文字上可以查看原文