(本科)信息检索与利用NO6教学课件.ppt
《(本科)信息检索与利用NO6教学课件.ppt》由会员分享,可在线阅读,更多相关《(本科)信息检索与利用NO6教学课件.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、YCF(本科)信息检索与利用NO6 教学课件第6章 计算机与互联网信息检索6.16.26.3计算机信息检索的发展过程和网络基础知识搜 索 引 擎计算机信息检索技术6.4电子信息资源6.5 百度和谷歌6.6计算机检索过程与基本功能6.7网络信息检索策略与技巧了解计算机信息检索的发展过程及网络基础知识。了解搜索引擎有关知识。了解计算机信息检索技术。掌握百度和谷歌的使用方法。了解计算机检索过程与基本功能。掌握网络信息检索策略和技巧。第6章 计算机与互联网信息检索6.1 计算机信息检索的发展过程和网络基础知识 计算机信息检索的发展过程 6.1.1(1)20世纪50年代末至60年代末,国外研制和建立了许
2、多信息检索系统,并取得了一定的进展。其工作方式是传统的批处理检索方式。这一阶段数据的存取与通信能力比较差。(2)20世纪70年代初至80年代末,产生并发展了联机情报检索系统。其中,美国国家医药图书馆中心建立的在线计算机图书馆中心OCLC、SDC公司建立的System Development Company及Lockheed Corporation的Dialog系统都是在线商用数据库查询系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据库通信能力较差。(3)20世纪90年代以来,系统大多采用分布式的网络化管理,其信息资源的主要特点是:数字形式表达、多媒体和多载体、内
3、容覆盖社会各领域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求较高等。这些特点导致了信息处理从传统模式向新型模式的转变,如体系结构从终端主机方式到客户服务器结构方式;网络环境从局域网到广域网等开放网;应用接口从封闭界面到WWW和Z39.50等;信息结构从结构化到非结构化;系统功能从单纯信息检索到综合信息管理和服务等。其中较著名的系统有Altavista、Yahoo、Web Crawler等。6.1 计算机信息检索的发展过程和网络基础知识Internet1)网络基础知识 6.1.2 Internet(因特网)是一个以TCP/IP网络协议连接各个国家、各个地区、各个机构的计算机网络
4、的数据通信网,它将数万个计算机网络、数千万个主机互联在一起,覆盖全球。从信息资源的角度讲,Internet是一个集各部门、各领域的信息资源为一体的,供网络用户共享的信息资源网。6.1 计算机信息检索的发展过程和网络基础知识WWW2)WWW(万维网)是近年来在Internet上广泛使用的网络信息查询系统,是一个相互连接在一起,通过Web浏览器来访问的超文本文档系统。浏览器中看到的网页,可能包含文本、图像及其他的多媒体,通过文档之间的超链接,可以从一个网页浏览到其他网页,它采用Client/Server(客户/服务器)结构。Server一般建在Windows NT或UNIX等操作系统上,提供浏览器
5、浏览所需的资源。其中在Windows系统上运行的WWW浏览器主要有IE、360浏览器、火狐浏览器、搜狗浏览器等。6.1 计算机信息检索的发展过程和网络基础知识HTML3)HTML(超文本标识语言)是为WWW建立超文本文件的语言。普通文本文件和印刷型文献的内容以线性排列,知识点之间固有的网状联系无法予以体现。在超文本文件中,文本中的某些内容通过链接项(由高亮度、下画线或编号等进行标示的一些词和其他文本或文件)连接起来,即超文本文件是指含有多个指向其他文本、图像、声音或动画文件的指针,使它们连接在一起的文件,由此实现在Internet上的漫游。6.1 计算机信息检索的发展过程和网络基础知识网站和网
6、页4)网页是用HTML等语言写成的文本文件,而网站则是有独立的域名,由若干相关的网页组成的一个站点。一般情况下,一个网站都有一个被称为主页的页面,起着引导访问者浏览网站的作用,或者说是用户通过超链接访问其他web页或服务器的起始点。6.1 计算机信息检索的发展过程和网络基础知识WWW浏览器5)浏览器是WWW用来浏览网站和页面信息的客户程序。要获取WWW服务,用户必须使用合适的浏览软件。通过浏览器,用户可以十分方便地在Internet上获取所需要的信息。目前最为普遍的浏览器有微软公司开发的Internet Explorer。6.1 计算机信息检索的发展过程和网络基础知识互联网协议地址、域名和UR
7、L6)互联网协议(简称IP)地址是互联网信息定位必需的地址,一般为4段数字,中间用圆点隔开,如211.85.177.71。每台上网计算机都有一个唯一的IP地址,它的作用类似于上网计算机在信息高速公路上的门牌号码。6.1 计算机信息检索的发展过程和网络基础知识6.2 搜 索 引 擎 搜 索 引 擎 6.2.1 搜索引擎也称为蜘蛛或者爬虫,这是因为它们会派出一个机器人到各个网站上去搜索特定的内容。它们将找回来的内容编成索引,方便用户在用关键字检索时,能够快速查到相应结果,并呈现在用户面前。搜索引擎是一种利用网络自动搜索技术采集、索引Internet上的各种信息资源,并为用户提供检索服务的工具,其功
8、能包括信息采集、信息加工、信息检索;或者说搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。简言之,搜索引擎就是一种在 Internet上查找信息的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。搜索引擎一般都有固定的显示格式,内容详简程度不一,常常带有URL、题名、标题、关键词、摘要、超链接文件大小、检索结果总数、相关度估计、评论等,如图6-1所示。图6-1 百度搜索引擎页面(示例)6.2 搜 索 引 擎 搜索引擎的检索方法 6.2.2搜索引擎的常用检索方法1)(1)简单搜索 简单搜索是指输入一个单词(关键词),提交搜索引擎检索并反馈结果。它也称为
9、单词搜索。这是最基本的检索方法。6.2 搜 索 引 擎(2)词组搜索 词组搜索是指输入两个单词以上的同组(短语),提交搜索引擎检索并反馈结果。它也称为短语搜索。现有搜索引擎一般都约定把词组或短语放在引号(“”)内。如果查找的是一个词组或多个汉字,最好的办法是将它们用双引号括起来,这样得到的结果最精确。这就称为使用双引号进行精确查找。一般来说,在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。6.2 搜 索 引 擎(3)高级搜索 高级搜索是指用布尔逻辑组配方式检索或在高级搜索界面将检索策略输入检索框中进行检索。常用的逻辑算符为AND(与)、OR(或)、NOT(非)。恰当应用这些
10、逻辑运算,可以使搜索结果非常精确,而且可以用括号将搜索词组合起来,如(火星)OR金星AND探测NOT(行星探测)。6.2 搜 索 引 擎搜索引擎的其他检索方法2)(1)语句搜索 语句搜索是指输入任意自然语言文句,提交搜索引擎检索并反馈结果,这种方式也称为任意检索,实际上就是自然语言检索。并非所有的搜索引擎都支持这样的检索,而且不同搜索引擎对语句中词与词之间的关系处理方式不同。6.2 搜 索 引 擎(2)目录搜索 目录搜索是指按搜索引擎提供的分类目录逐级检索。用户一般不需要输入检索词,而是按照检索系统所给的几种分类项目,选择类别进行搜索。它也称为分类搜索6.2 搜 索 引 擎 搜索引擎的检索方法
11、 6.2.3独立搜索引擎1)(1)国外搜索引擎Google雅虎Ask eeves Excite6.2 搜 索 引 擎(2)中文搜索引擎搜狗搜狗 百度百度360360搜索搜索天网天网中搜中搜6.2 搜 索 引 擎元搜索引擎2)元搜索引擎又称为多元搜索引擎、集成搜索引擎、集合型搜索引擎,是指在一个统一的检索界面下,可选择多个搜索引擎同时进行查询。元搜索引擎把用户输入的关键词以特定的格式发送至多个独立搜索引擎,将多个独立搜索引擎返回的结果按一定次序和格式再返回到用户。6.2 搜 索 引 擎目录式搜索引擎3)目录式搜索引擎一般又称为网络目录、分类式搜索引擎、主题指南等,它是将所搜集的网络信息按一定的分
12、类方法进行加工整理,建立以分类查询和分类导航为主,并集成关键词检索方法的搜索引擎,如Yahoo(http:/)。6.2 搜 索 引 擎其他搜索引擎4)FTP搜索引擎 Blog(博客)搜索引擎 答案搜索引擎和咨询服务系统BT搜索引擎(1 1)(2 2)(4 4)(3 3)6.2 搜 索 引 擎6.3 计算机信息检索技术 全文检索技术 6.3.1 全文检索(full-text retrieval)是指以文本信息作为检索对象建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。在信息检索领域,全文检索一直是一个比较复杂的问题。与普通
13、数据库检索所涉及的结构化数据查询不同,全文检索不仅要查询结构化数据,而且还要查询非结构化数据,这就必然会涉及自然语言的理解、分词、切词技术以及人工智能技术等。全文检索技术的出现促使了信息领域的一场革命。与标引检索相比,全文检索提供了全新的、强大的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源;全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的主流技术之一。6.3 计算机信息检索技术 多媒体信息检索技术 6.3.3 超文本信息检索系统是以超文本网络为基础的文献检索系统。正文信息是
14、以节点而不是以字符串作为信息的基本单元,节点间通过链进行连接。在检索文献时,节点间的多种链接关系可以动态地选择性激发,从而可根据思维联想或新信息的需要,通过链从一个节点跳到另一个节点,由此形成随着人们思维和需要的流动而构成的数据链,体现出一种完全不同于过去顺序检索方式的联想式检索。6.3 计算机信息检索技术 检索多媒体信息早期的方法是基于文本描述(对多媒体信息添加文本说明),现在主要研究基于内容的多媒体检索技术。基于内容的检索是指根据媒体和媒体对象的内容语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,首先进行特征抽取,再计算其相似性。
15、对多媒体内容的分析、自动摘要、索引和查询方法的研究已取得较大的进步。为解决多媒体数据的检索问题,除了可以分别利用基于关键字和基于内容等检索方法各自的优势外,还可以通过相关反馈技术、语义传播技术以及交互学习技术把这两种方法有机地结合起来,从而大幅提高检索系统的检索效率。6.3 计算机信息检索技术 多媒体信息检索技术 6.3.3 多媒体信息检索是对图像、文本、声音、动画等多媒体信息进行识别和获取所需信息的过程。多媒体信息检索与传统信息检索相比,具有信息类型复杂、交互、同步、实时、界面友好、操作简单等特性。多媒体信息检索系统并不是简单地对多种媒体进行检索,它必须既能对以文本信息为代表的离散媒体进行检
16、索,也能对以图像、声音等为代表的连续媒体的内容进行检索。6.3 计算机信息检索技术 基于内容的检索技术 6.3.4 基于内容的检索(简称CBR)是随着多媒体技术的发展而出现的多媒体数据库查询与检索技术。基于内容的检索是指根据媒体对象的语义、特征进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索是一项实用性强的高技术,能广泛用于遥感图像处理和空间探测、医疗图像、建筑工程图、天气预报、公安、艺术馆藏资料管理等许多领域。尤其随着Internet的发展,视频、音频、图形、图像将成为网上的主要资源,基于内容的检索技术则是不可缺少的检索手段。6
17、.3 计算机信息检索技术6.4 电子信息资源 搜索引擎的检索方法 6.4.1机编文献目录数据库信息阶段1)电子信息资源的真正起源是美国国立医学图书馆在20世纪60年代中期用电子计算机建立的MEDLARS系统,用于医学文献的检索。随后,美国其他一些机构也相继使用电子计算机编辑文摘期刊,从而客观上编制成了机器可读的书目文档,称为文献目录型数据库。这种文献目录型数据库由于使用计算机来编辑、检索文献信息,因此可以将机编文献目录型数据库的研制视为电子信息资源形成的开端。机编文献目录数据库信息阶段2)国际联机检索就是用户使用终端设备,远距离地从国际联机检索中心迅速而准确地获取电子文献信息,使知识信息得到广
18、泛而有效的传播和利用,其实质是数据库和通信的结合。6.4 电子信息资源光盘信息阶段3)由于光盘在存储电子信息资源方面具有记录密度高、容量大、成本低、体积小、寿命长、可实现随机存取和检索费用低廉等优点,因此,光盘被广泛用于存储、检索电子信息资源,并产生了一批生产系列光盘的公司,如美国UMI公司和银盘公司等。光盘记载的电子信息资源并不局限于文献信息,还包括各种软件,但可用于检索的仍以文献信息为主。6.4 电子信息资源网络信息阶段4)Internet是网络的网络,是网络通过互联而形成的全球网,已延伸到地球上几乎每个国家。在Internet上的所有主机都采用TCP/IP连接和通信,网上各种计算机都以该
19、协议规定的方式进行数据交换,使Internet信息资源主要包括电子报刊、电子新闻、电子报告、电子论坛、会议资料、各种软件资料、图像文件、声音文件和电子游戏等实现共享。总之,Internet是目前世界上资料最多、门类最全、规模最大的信息库,是人们获取信息的重要来源。6.4 电子信息资源 电子信息资源的类型和特点 6.4.2电子信息资源的类型1)(1)按信息的载体分类联机网络信息资源单独发行的信息资源,以光盘出版物为主。6.4 电子信息资源(2)按信息的媒体形式分类文本信息资源超文本信息资源多媒体信息资源超媒体信息资源6.4 电子信息资源电子信息资源的特点2)(3)(3)(2 2)(4)(4)(1
20、)(1)信息存储形式为文本超文本多媒体超媒体。以现代信息技术为记录手段,是一种数字化的信息资源。内容丰富。存储介质发生转换。6.4 电子信息资源(7)(7)(6)(6)(8)(8)(5)(5)数据结构具有通用性、开放性和标准化的特点。便于各种媒介信息的一体化。交互式性能增强。具有高度的整合性。6.4 电子信息资源6.5 百度和谷歌 百度 6.5.1百度简介1)百度于2000年1月创立于北京中关村,是全球最大的中文搜索引擎之一。百度是中文搜索引擎中的后起之秀,其目标是成为全球最大的中文搜索引擎,目前的数据库中收录的中文页面已经过亿,而且还在以每天数十万的速度增加。百度提供相关搜索和网页快照等功能
21、,高级搜索中还可以按地区(中国的省、市、自治区)进行相关搜索,以限定网站(site:)、限定地址(url:)、限定在网页标题(intitle:)搜索。百度搜索帮助中心可以帮助用户解决许多问题。百度帮助中心包括新手指南、百度产品、搜索特色、搜索技巧等。百度搜索中比较常用的有网页搜索、新闻搜索、图片搜索、博客搜索、视频搜索、文档搜索等。在百度的“知道”里可以寻求某一问题的答案。工具书有万年历、成语词典、汉语字典、百科词典等。百度首页如图所示。6.5 百度和谷歌网页搜索特色功能2)(1)百度快照 如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮助解决问题。每个被收录的网页,在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 信息 检索 利用 NO6 教学 课件
限制150内