第二章 信息检索概述精选PPT.ppt
《第二章 信息检索概述精选PPT.ppt》由会员分享,可在线阅读,更多相关《第二章 信息检索概述精选PPT.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章信息检索概述信息检索概述第1页,本讲稿共52页一、介绍几个与信息相关的概念一、介绍几个与信息相关的概念 1 1 知识经济知识经济:“知识经济知识经济”是指建立在知识信息的生产、是指建立在知识信息的生产、分配、使用之上的经济。分配、使用之上的经济。“知识经济知识经济”是是和农业经济、工业经济相对应的一个概念,和农业经济、工业经济相对应的一个概念,它指的是当今世界一种新类型的,富有生它指的是当今世界一种新类型的,富有生命力的经济。命力的经济。第2页,本讲稿共52页2信息高速公路信息高速公路(InformationHighway)w是美国国家信息基础设施(National Informa
2、tion Infrastructure,简称NII)的代称。它实际上是一条很宽的信息通道,可供人们大量地,并行地,高速地传输信息。具体地说,它是一个巨型的交互式多媒体高速计算机通信网络系统,将原来分散的电话,计算机,电视,广播,传真,数据库等传输系统集成为一体,形成以现代计算机网络通信技术为基础,以光导纤维通信和卫星通信为骨干,以数据库为信息源,跨越全国乃至世界的双向大容量,高速度的电子数据(数字化数据-Digital Data)传输系统。由于这种交互式电脑网络如同交通基础设施的高速公路网,所以被人们形象的称为“信息高速公路”。第3页,本讲稿共52页目前有:目前有:(1)美国信息高速公路计划)
3、美国信息高速公路计划(NII)最早是最早是1979年由戈尔提出,年由戈尔提出,1992年克林顿竞选美国总统时正式提出这年克林顿竞选美国总统时正式提出这个构想。后来成为克林顿上台后大力推崇的重振美国经济计划的重要组个构想。后来成为克林顿上台后大力推崇的重振美国经济计划的重要组成部分。它的提出不仅在美国社会产生了强烈的反响,而且也在全球范成部分。它的提出不仅在美国社会产生了强烈的反响,而且也在全球范围内引起巨大的震动。围内引起巨大的震动。(2)全球信息高速公路计划)全球信息高速公路计划(GII)是美国政府是美国政府NII计划的扩大与延伸。目的是把各国光纤和卫星通讯计划的扩大与延伸。目的是把各国光纤
4、和卫星通讯网连接在一起,发展扩大到全世界范围的网连接在一起,发展扩大到全世界范围的“全球信息高速公路全球信息高速公路”计划。计划。第4页,本讲稿共52页w(3)法国的)法国的“电子信息高速公路电子信息高速公路”:以多媒体取代家用电脑的庞大工:以多媒体取代家用电脑的庞大工程,将把电话同通信网络相连接,最终形成一个光纤电视网,从而实现程,将把电话同通信网络相连接,最终形成一个光纤电视网,从而实现法国境内文字、声音和图象的快速传递法国境内文字、声音和图象的快速传递w(4)韩国也准备用)韩国也准备用21年的时间,投资年的时间,投资550亿美元,建立本国的超亿美元,建立本国的超高速信息通信网。高速信息通
5、信网。(5)新加坡的智能岛)新加坡的智能岛东南亚信息中心东南亚信息中心w(6)日本的曼佗罗计划()日本的曼佗罗计划(1992/5)与)与NII相抗衡的全面战略计划相抗衡的全面战略计划w(7)中国信息高速公路计划)中国信息高速公路计划(信息准高速国道或信息中速国道):信息准高速国道或信息中速国道):“三金三金”工程,即工程,即“金桥金桥”,“金关金关”,“金卡金卡”工程。(十二工程。(十二金工程)金工程)第5页,本讲稿共52页w三金工程是中国三金工程是中国“信息高速公路)的起步工程信息高速公路)的起步工程w金桥工程是一项规模巨大的系统工程,是以电子邮件金桥工程是一项规模巨大的系统工程,是以电子邮
6、件(E-MAIL)和电子数据交换()和电子数据交换(EDI)作为信息交换)作为信息交换平台,主要目标是建立一个覆盖全国与国务院各部委平台,主要目标是建立一个覆盖全国与国务院各部委使用网相联,并与各省、直辖市、自治区中心城市、使用网相联,并与各省、直辖市、自治区中心城市、大中型企业连接的国家公用信息通讯网。大中型企业连接的国家公用信息通讯网。w金卡工程也称电子货币工程。我国始与金卡工程也称电子货币工程。我国始与1993年,上海年,上海等等12个城市为首批试点城市。武汉市列为第二批试点个城市为首批试点城市。武汉市列为第二批试点城市,城市,1997年启动后,得到中国人民银行总行批准年启动后,得到中国
7、人民银行总行批准。w金关工程是我国实现对外贸易无纸化的信息金关工程是我国实现对外贸易无纸化的信息网络工程。网络工程。第6页,本讲稿共52页3、InternetwInternet又称因特网或又称因特网或“互联网互联网”,他是从英文,他是从英文InterconnectedNetworks这两个词中,各取前半部合成的。其中文意思是指跨国的网这两个词中,各取前半部合成的。其中文意思是指跨国的网络,是一群横跨世界的各种相互连接的计算机网络的统称,这些网络集络,是一群横跨世界的各种相互连接的计算机网络的统称,这些网络集合采用一种共同的标准通信协议来沟通,以进行信息资源的交换和共享。合采用一种共同的标准通信
8、协议来沟通,以进行信息资源的交换和共享。wInternet是由美国是由美国ARPANET发展起来的一个国际性的计算机互联发展起来的一个国际性的计算机互联网络,它的特点是(网络,它的特点是(1)异种计算机互联()异种计算机互联(2)互联网络部分遭到)互联网络部分遭到破坏时,其他部分仍可以继续应用。破坏时,其他部分仍可以继续应用。wInternet可以总结为:是遵从可以总结为:是遵从TCP/IP协议,遍布全世界的大大小协议,遍布全世界的大大小小的计算机网络连接起来构成的全球性计算机网络的总称,是目小的计算机网络连接起来构成的全球性计算机网络的总称,是目前全球最大的计算机网络,也是全球最大的信息资源
9、网。是前全球最大的计算机网络,也是全球最大的信息资源网。是“信信息高速公路息高速公路”的典范。的典范。wInternet网的主要功能就是进行科技信息的传递网的主要功能就是进行科技信息的传递。第7页,本讲稿共52页特点:特点:信息广泛、传播速度快、方便实用信息广泛、传播速度快、方便实用应用:应用:信息查询、收发信息查询、收发E-MAIL、传送文件、传送文件、WWW应用、应用、Gopher-信息检索信息检索Telnet-远程登录、远程登录、BBS公告牌服务公告牌服务 第8页,本讲稿共52页 Gopher是美国明尼苏达大学研制的菜单式信息查询软件。WALS(广域服务器)是供用户查询分布在Intern
10、et网上各类数据库的一个通用接口软件,实现远程查询。WWW是一个超文本式信息查询工具,它可以把Internet网上不同地点的相关数据信息有机的组织在一起。用户只要提供查询要求就可以了。第9页,本讲稿共52页四大骨干网四大骨干网w目前我国已建成Chinanet、CERnet、CSTnet与ChinaGBN 四大骨干网。各部门与单位纷纷建立了与四大骨干网互联的内部网或局域网。第10页,本讲稿共52页 Chinanet(中国公用计算机互联网)是中国第一个商业化(中国公用计算机互联网)是中国第一个商业化全国性计算机网络,该网由信息产业部(原邮电部)管全国性计算机网络,该网由信息产业部(原邮电部)管理理
11、CERnet(中国教育与科研计算机网络)由教育部主持,中国教育与科研计算机网络)由教育部主持,网控中心设在清华大学,网络分为全国主干网、地网控中心设在清华大学,网络分为全国主干网、地区网与校园网三层结构。主干网连着八大区、十个区网与校园网三层结构。主干网连着八大区、十个节点,所有主干网节点采用节点,所有主干网节点采用11条条DDN专线连接。是专线连接。是目前中国与目前中国与Internet连接最大的学术网。连接最大的学术网。第11页,本讲稿共52页CSTnet(中国科技网)由中国科学院主管,以中国科中国科技网)由中国科学院主管,以中国科学院的中国国家计算机和网络设施学院的中国国家计算机和网络设
12、施NCFC与全国性与全国性网络网络CASnet为基础,连接中国科学院以外的国内为基础,连接中国科学院以外的国内科技单位而构成的网络。科技单位而构成的网络。ChinaGBN(中国金桥网)即国家经济信息通讯网,是(中国金桥网)即国家经济信息通讯网,是一个商业化信息网络,由中国电子工业总公司(原电一个商业化信息网络,由中国电子工业总公司(原电子工业部)主管。子工业部)主管。第12页,本讲稿共52页4、信息社会的基本内容:、信息社会的基本内容:3I、3C、3A、3R3I:Information(信息)、Intelligence(智能)、Integration(集成、综合)3C:Computer(计算机
13、)、Communication(通讯)、Control(控制)3A:Factory Automation(工厂自动化)、Office Automation(办公自动化)Home Automation(家庭自动化)3R:Material Revolution(材料革命)、Energy Revolution(能源革命)、Information Revolution(信息革命)第13页,本讲稿共52页5、信息、知识、情报、文献的基本含义、信息、知识、情报、文献的基本含义信息:信息:在中国历史文献中最早见于唐诗,拉丁词源是在中国历史文献中最早见于唐诗,拉丁词源是Information。每个人每天都在不
14、断地通过感觉器官从外界接受信。每个人每天都在不断地通过感觉器官从外界接受信息。书刊报纸、电视、收音机、交谈中不断获得信息。息。书刊报纸、电视、收音机、交谈中不断获得信息。信息的准确概念,尚未定论,众说纷纭。信息的准确概念,尚未定论,众说纷纭。信息存在于人类社会以及人的思维活动,也存在于自然界。信息存在于人类社会以及人的思维活动,也存在于自然界。第14页,本讲稿共52页信息的特点信息的特点:(1)时效性:重要特点。如果信息传递很慢,那么有用的信息也会时效性:重要特点。如果信息传递很慢,那么有用的信息也会失去应有的价值。如新闻、预告。失去应有的价值。如新闻、预告。(2)可扩散性:在时间或空间上从一
15、点转移到另一点。可扩散性:在时间或空间上从一点转移到另一点。“一传十,一传十,十传百十传百”。(3)可扩充性:人们对世界认识是无无限的,因此信息资源的扩充可扩充性:人们对世界认识是无无限的,因此信息资源的扩充与累积也是无限的。与累积也是无限的。(4)共享性:信息可以多次传播,不失其内容,与实物交易不同。共享性:信息可以多次传播,不失其内容,与实物交易不同。第15页,本讲稿共52页 知识:知识:知识是人类认识的成果和结晶,是人类在认识和改造世界知识是人类认识的成果和结晶,是人类在认识和改造世界和社会实践中获得的对事物本质的认识。知识仅存在于人类社和社会实践中获得的对事物本质的认识。知识仅存在于人
16、类社会。会。个人知识个人知识:存在于大脑、笔记或书信中,只能为个人所用。:存在于大脑、笔记或书信中,只能为个人所用。社会知识社会知识:存在于文献中或人类的传说中。:存在于文献中或人类的传说中。知识的属性:意识性、实践性、规律性、继承性,渗透知识的属性:意识性、实践性、规律性、继承性,渗透性。性。第16页,本讲稿共52页情报情报:是一种人工信息,信息与知识都是它的来源。激活了的,活是一种人工信息,信息与知识都是它的来源。激活了的,活化了的知识。化了的知识。情报与信息在英文中同为情报与信息在英文中同为Information,但信息的外延比情,但信息的外延比情报广,信息是包含情报的。情报就是人们在一
17、定时间内为一定目报广,信息是包含情报的。情报就是人们在一定时间内为一定目的而传递的有使用价值的知识或信息,它有明确的接收对象。的而传递的有使用价值的知识或信息,它有明确的接收对象。情报的属性情报的属性:知识与信息性、动态性、效用性、社会性、:知识与信息性、动态性、效用性、社会性、语言性、可塑性、时间性。语言性、可塑性、时间性。第17页,本讲稿共52页文献:文献:记录有知识的一切载体。即用文字、图形、符号、声频、记录有知识的一切载体。即用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体。属性:知识性、记视频等技术手段记录人类知识的一种载体。属性:知识性、记录性、物质性。录性、物质性。
18、文献的范围很广。文献的范围很广。古代:甲骨文、碑刻、竹简、帛书是文献。古代:甲骨文、碑刻、竹简、帛书是文献。现代:图书、报纸、期刊现代:图书、报纸、期刊现今:机读资料、缩微制品、电子出版物。现今:机读资料、缩微制品、电子出版物。文献的功能文献的功能1)存贮知识的功能;存贮知识的功能;2)传递和交流信息的功能;传递和交流信息的功能;3)保存知识的功能。保存知识的功能。第18页,本讲稿共52页二、信息检索的基本内容二、信息检索的基本内容1、概念:1)信息检索(information retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。所以,它的全称又叫
19、信息存储与检索(information storage and retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。相当于我们所说的信息查询(information search)。第19页,本讲稿共52页w2)检索语言:检索语言是把信息的存储与检索联系)检索语言:检索语言是把信息的存储与检索联系起来,把标引人员与用户联系起来,以便取得共同起来,把标引人员与用户联系起来,以便取得共同的理解、实现交流的语言。有人工语言(主题语言的理解、实现交流的语言。有人工语言(主题语言和分类语言)、自然语言之分。和分类语言)、自然语言之分。(第三章
20、详细介绍)第三章详细介绍)3)检索方法:常用法、追溯法和循环法)检索方法:常用法、追溯法和循环法(第四章详细介绍)第四章详细介绍)第20页,本讲稿共52页4)检索词、检索式、检索策略检索词、检索式、检索策略(第四章详细介绍)第四章详细介绍)检索词是用户或检索人员给出的字、词、字符检索词是用户或检索人员给出的字、词、字符或短语,用于查找含有它(它们)的记录。或短语,用于查找含有它(它们)的记录。检索式也称检索提问式,是要求系统执行的检检索式也称检索提问式,是要求系统执行的检索语句。简单的检索式由一个检索词和一个字段名索语句。简单的检索式由一个检索词和一个字段名构成,复杂的检索式由多个检索词和字段
21、名通过关构成,复杂的检索式由多个检索词和字段名通过关系算符连接而成。如:要利用英文搜索引擎查找网系算符连接而成。如:要利用英文搜索引擎查找网络信息检索方面的资料,检索式为(络信息检索方面的资料,检索式为(WebORInternetORWWW)AND(Search*ORRetrieval*)。)。第21页,本讲稿共52页检索策略:检索策略:所谓检索策略,就是在分析课题内容具有哪些概念单所谓检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、学科领域、检索文档、检索元的基础上,确定检索系统、学科领域、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻途径和检索词,并科
22、学安排各检索词之间的位置关系和逻辑关系以及查找步骤等。也就是为满足信息需求所制定的辑关系以及查找步骤等。也就是为满足信息需求所制定的一系列检索方案。一系列检索方案。第22页,本讲稿共52页w5)检中结果、查全率、查准率检中结果、查全率、查准率(第四章详细介绍)第四章详细介绍)检中结果又称检索结果集,是数据库中满足检中结果又称检索结果集,是数据库中满足(检索式(即检索式(即符合检索条件)的那些记录的集合符合检索条件)的那些记录的集合查全率:是指检出文献中合乎需要的文献数量占数据库查全率:是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例中存在的合乎该需要的所有文献的比例查
23、准率:是指检出文献中合乎需要的文献数量占检出文查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例献全部数量的比例第23页,本讲稿共52页2、信息检索的类型、信息检索的类型:(1)根据检索手段的不同,分为手工检索、计算机根据检索手段的不同,分为手工检索、计算机检索(光盘检索、联机检索和网络检索)检索(光盘检索、联机检索和网络检索)(2)根据检索对象、根据检索对象、形式的不同,分为文献型信息检索、数据型信息检形式的不同,分为文献型信息检索、数据型信息检索、事实型信息检索。索、事实型信息检索。第24页,本讲稿共52页 文献型信息检索(文献型信息检索(DocumentRetrieval)
24、:以文献(包括题录、文摘)为检索以文献(包括题录、文摘)为检索对象对象的检索。的检索。凡是查找某一主题、时代、地区、著者、文种凡是查找某一主题、时代、地区、著者、文种的有关文献,以及回答这些文献的出处和收藏的有关文献,以及回答这些文献的出处和收藏处所等,都属于文献型信息检索的范畴。完成处所等,都属于文献型信息检索的范畴。完成文献型信息检索主要借助于各种书目型数据库。文献型信息检索主要借助于各种书目型数据库。第25页,本讲稿共52页w数据型信息检索(数据型信息检索(DataRetrieval):以数值或数据:以数值或数据为对象的一种检索,包括文献中的某一数据、公为对象的一种检索,包括文献中的某一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 信息检索概述精选PPT 第二 信息 检索 概述 精选 PPT
限制150内