第四章计算机信息检索.ppt
《第四章计算机信息检索.ppt》由会员分享,可在线阅读,更多相关《第四章计算机信息检索.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 计算机信息检索计算机信息检索 n计算机信息检索系统计算机信息检索系统n数据库的类型及结构数据库的类型及结构n计算机信息检索的原理计算机信息检索的原理第一节、计算机信息检索系统第一节、计算机信息检索系统计算机信息计算机信息检索系统的构成检索系统的构成计算机信息检索系统的类型计算机信息检索系统的类型(一)计算机信息(一)计算机信息检索系统检索系统的构成的构成1、概念、概念计算机信息检索计算机信息检索(简称机检),指检索人员在(简称机检),指检索人员在电子计算机或计算机网络的终端上,对用户的电子计算机或计算机网络的终端上,对用户的检索提问使用检索提问使用特定的检索指令和组配关系特定的检
2、索指令和组配关系,由,由计算机从数据库中检索出所需的文献、事实、计算机从数据库中检索出所需的文献、事实、数据或其他记录,用电子化的手段传输,显示数据或其他记录,用电子化的手段传输,显示或打印检索结果,提供给用户使用的过程或打印检索结果,提供给用户使用的过程.计算机信息检索系统计算机信息检索系统利用计算机的有利用计算机的有效存贮和快速查找能力来进行信息的分析、效存贮和快速查找能力来进行信息的分析、组织、存贮和查找的系统。组织、存贮和查找的系统。2 2、构成、构成按物理构成分:按物理构成分:硬件硬件、软件软件、数据库数据库(1)硬件系统)硬件系统:主机主机:计算机的核心部件。:计算机的核心部件。外
3、围设备外围设备:外部存贮器:磁带、磁盘、光盘等外部存贮器:磁带、磁盘、光盘等 输输入输出设备:数据录入设备、键盘、鼠标器、光学入输出设备:数据录入设备、键盘、鼠标器、光学字符识别装置、光笔、缩微扫描器、扫描仪、显示字符识别装置、光笔、缩微扫描器、扫描仪、显示终端等。终端等。其他其他:运算器、控制器。:运算器、控制器。(2)软件系统)软件系统软件是软件是用来管理、控制与规定计算机运行步骤用来管理、控制与规定计算机运行步骤的的各种程序的总称各种程序的总称。包括包括系统软件和应用软件系统软件和应用软件。系统软件:系统软件:主要用于简化设计及使用方法,管理主要用于简化设计及使用方法,管理计算机资源,提
4、高其使用效率,发挥和扩大其功计算机资源,提高其使用效率,发挥和扩大其功能及用途。包括各种系统服务程序、语言处理程能及用途。包括各种系统服务程序、语言处理程序、操作及数据库管理系统。序、操作及数据库管理系统。如如WINDOWS。应用软件应用软件(检索软件检索软件),),是用户利用计算机来解是用户利用计算机来解决某一问题而编制的程序,决某一问题而编制的程序,包括数据库管理系统、包括数据库管理系统、自动标引、输入输出控制软件及检索匹配程序等自动标引、输入输出控制软件及检索匹配程序等.如文件管理程序、检索程序、记帐统计程序等。如文件管理程序、检索程序、记帐统计程序等。(2)软件系统)软件系统软件是软件
5、是用来管理、控制与规定计算机运行步骤用来管理、控制与规定计算机运行步骤的的各种程序的总称各种程序的总称。包括包括系统软件和应用软件系统软件和应用软件。系统软件:系统软件:主要用于简化设计及使用方法,管理主要用于简化设计及使用方法,管理计算机资源,提高其使用效率,发挥和扩大其功计算机资源,提高其使用效率,发挥和扩大其功能及用途。包括各种系统服务程序、语言处理程能及用途。包括各种系统服务程序、语言处理程序、操作及数据库管理系统。序、操作及数据库管理系统。如如WINDOWS。应用软件应用软件(检索软件检索软件),),是用户利用计算机来解是用户利用计算机来解决某一问题而编制的程序,决某一问题而编制的程
6、序,包括数据库管理系统、包括数据库管理系统、自动标引、输入输出控制软件及检索匹配程序等自动标引、输入输出控制软件及检索匹配程序等.如文件管理程序、检索程序、记帐统计程序等。如文件管理程序、检索程序、记帐统计程序等。(3)数据库)数据库其含义有多种表达:其含义有多种表达:国际标准组织标准国际标准组织标准ISO/DIS5127规定,数据库是指至规定,数据库是指至少由一种文档少由一种文档(file)组成,能满足特定目的或特定功组成,能满足特定目的或特定功能数据处理系统需要的能数据处理系统需要的数据集合数据集合.数据库是数据库是“按照数据结构来组织、存储和管理按照数据结构来组织、存储和管理数据的数据的
7、仓库仓库”。数据库(数据库(DataBase,DB)是一个长期存储在计算机)是一个长期存储在计算机内的、有组织的、有共享的、统一管理的内的、有组织的、有共享的、统一管理的数据集合数据集合。它是一个按数据结构来存储和管理数据的它是一个按数据结构来存储和管理数据的计算机软件计算机软件系统系统。数据库是依照某种数据库是依照某种数据模型数据模型组织起来并存放二级组织起来并存放二级存储存储器器中的中的数据集合数据集合(二)计算机检索系统的功能(二)计算机检索系统的功能1.信息处理、存贮与检索的功能信息处理、存贮与检索的功能:包括对包括对信息的自动搜集、排序、生成关联数据库,信息的自动搜集、排序、生成关联
8、数据库,并按一定方式进行检索。并按一定方式进行检索。2.输出功能输出功能:将检出文献按一定的格式(目:将检出文献按一定的格式(目录、题录、文摘或全文等)输出。录、题录、文摘或全文等)输出。3.自我完善与更新的功能自我完善与更新的功能:即可维护功能:即可维护功能4.网上检索功能:网上检索功能:三、计算机信息检索系统的类型三、计算机信息检索系统的类型计计计计算算算算机机机机信信信信息息息息检检检检索系统的类型索系统的类型索系统的类型索系统的类型检索系统存储的内容检索系统存储的内容文献信息检索系统文献信息检索系统事实信息检索系统事实信息检索系统数值信息检索系统数值信息检索系统图像信息检索系统图像信息
9、检索系统多媒体信息检索系统多媒体信息检索系统检索访问模式检索访问模式脱机信息检索系统(脱机信息检索系统(20世纪世纪5060年代)年代)联机信息检索系统(联机信息检索系统(20世纪世纪70年代年代光盘信息检索系统(光盘信息检索系统(20世纪世纪80年代年代网络信息检索系统(网络信息检索系统(20世纪世纪90年代年代是采用单机进行存储和处理信息,回答检索提问时,是采用单机进行存储和处理信息,回答检索提问时,采用批处理方式。这种机检方式,采用批处理方式。这种机检方式,人机不能进行人机不能进行应答,必须由专职人员建立用户提问档,系统定应答,必须由专职人员建立用户提问档,系统定期进行检索期进行检索。时
10、间:时间:20世纪世纪50年代年代60年代年代 检索人员检索人员检索策略检索策略成批检索成批检索用户用户 不足:地理上的障碍;时间上的迟滞;封闭式的检不足:地理上的障碍;时间上的迟滞;封闭式的检索索是采用单机进行存储和处理信息,回答检索提问时,是采用单机进行存储和处理信息,回答检索提问时,采用批处理方式。这种机检方式,采用批处理方式。这种机检方式,人机不能进行人机不能进行应答,必须由专职人员建立用户提问档,系统定应答,必须由专职人员建立用户提问档,系统定期进行检索期进行检索。时间:时间:20世纪世纪50年代年代60年代年代 检索人员检索人员检索策略检索策略成批检索成批检索用户用户 不足:地理上
11、的障碍;时间上的迟滞;封闭式的检不足:地理上的障碍;时间上的迟滞;封闭式的检索索2.2.联机检索联机检索(Online search)Online search)联机检索是指利用检索终端,通过联机检索是指利用检索终端,通过通信网络通信网络和检和检索系统联机,从检索系统的数据库中进行检索索系统联机,从检索系统的数据库中进行检索 时间:时间:20世纪世纪70年代年代 用户用户 检索策略检索策略“人机对话人机对话”获取所需信息获取所需信息 著名的国际联机检索系统有美国的著名的国际联机检索系统有美国的DIALOG系统、系统、ORBIT系统、系统、BRS系统以及系统以及IBM公司的公司的“文献文献处理系
12、统处理系统”等等.3.光盘检索光盘检索(CD-ROM search)CD-ROM search)时间:时间:20世纪世纪80年代以后年代以后光盘检索阶段:光盘检索阶段:单机光盘检索单机光盘检索 联机光盘检索联机光盘检索(光盘库光盘库,2-6个个光驱,多达光驱,多达500张光盘张光盘光盘塔光盘塔,8-64个光个光驱)驱)4网络信息检索网络信息检索网络信息检索一般指网络信息检索一般指因特网检索因特网检索,通过网络接口,通过网络接口软软件件,用户可以在任一终端查询各地上网的信息资源,用户可以在任一终端查询各地上网的信息资源。时间:时间:20世纪世纪90年代以来年代以来 n n广域网广域网(WAN):
13、连接连接地理地理范围较大,常常是一个国家范围较大,常常是一个国家或是一个洲或是一个洲。通信系统是通信系统是广域网广域网的关键的关键。局域网局域网(LAN):一般是由一个部门或一个单位组建,:一般是由一个部门或一个单位组建,范围限于一幢楼或一个单位内。如:校园网。范围限于一幢楼或一个单位内。如:校园网。城域网城域网(MAN):介于两者之间。:介于两者之间。网间网网间网(Internetwork):是一系列是一系列局域网局域网和和广域网广域网的组合,的组合,Internet便是一个当前最大也最为典型的便是一个当前最大也最为典型的网间网。网间网。第二节、第二节、数据库的类型及结构数据库的类型及结构数
14、据库的类型数据库的类型 数据库的结构数据库的结构(一)数据库的类型(一)数据库的类型按存储文献类型分为按存储文献类型分为:1.全文数据库全文数据库:存贮一次文献全文或其中主存贮一次文献全文或其中主要部分等。要部分等。2.书目数据库书目数据库:存贮文摘、索引、目录、题存贮文摘、索引、目录、题录等二次文献,提供文献线索,一般都有相录等二次文献,提供文献线索,一般都有相应的印刷型检索工具。应的印刷型检索工具。(一)数据库的类型(一)数据库的类型按存储文献类型分为按存储文献类型分为:1.全文数据库全文数据库:存贮一次文献全文或其中主存贮一次文献全文或其中主要部分等。要部分等。2.书目数据库书目数据库:
15、存贮文摘、索引、目录、题存贮文摘、索引、目录、题录等二次文献,提供文献线索,一般都有相录等二次文献,提供文献线索,一般都有相应的印刷型检索工具。应的印刷型检索工具。书目型全文型3.事实数据库事实数据库 指包含大量数据、事实的数据库,指包含大量数据、事实的数据库,如指南数据库、术语数据库等,相当于印刷如指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、百科全书、组织机型文献中的字典、辞典、百科全书、组织机构指南、人名录、图册(集)等。构指南、人名录、图册(集)等。4.数值数据库数值数据库 提供数值信息,如统计数据库提供数值信息,如统计数据库5.图像数据库图像数据库 提供图像信息。提供图像
16、信息。6.多媒体数据库多媒体数据库 提供文字、图像和声音等多种提供文字、图像和声音等多种信息。信息。数值型数据库数据库database文档文档file,archive 顺排文档顺排文档 记录记录Record字段字段Field倒排文档(索引倒排文档(索引index)1、记录(record)record)记录记录:构成数据库的基本单元构成数据库的基本单元,也也是是文档文档的构成单位,的构成单位,是对某一实体的属性进行是对某一实体的属性进行描述的结果。在书目数据库中,被描描述的结果。在书目数据库中,被描述的实体是某一特定文献,其属性就述的实体是某一特定文献,其属性就是该文献的外表特征和内容特征。是该
17、文献的外表特征和内容特征。即即一条文献信息(款目)一条文献信息(款目)。1、记录(record)record)记录记录:构成数据库的基本单元构成数据库的基本单元,也也是是文档文档的构成单位,的构成单位,是对某一实体的属性进行是对某一实体的属性进行描述的结果。在书目数据库中,被描描述的结果。在书目数据库中,被描述的实体是某一特定文献,其属性就述的实体是某一特定文献,其属性就是该文献的外表特征和内容特征。是该文献的外表特征和内容特征。即即一条文献信息(款目)一条文献信息(款目)。如:一条文摘信息(记录)2 2、字段(、字段(field)field)是组成记录的下级单位是组成记录的下级单位(条目中的
18、一个条目中的一个信息项信息项),用来描述实体的某一具体属,用来描述实体的某一具体属性。如表述文献内容特征的有文摘、叙性。如表述文献内容特征的有文摘、叙词、自由词字段,表述文献外表特征的词、自由词字段,表述文献外表特征的有著者、篇名、出版年、专利号等等字有著者、篇名、出版年、专利号等等字段,段,子字段子字段(subfield)subfield),是字段的构成单位。是字段的构成单位。3 3、文档、文档(file)file)FFF文档文档文档文档:是由是由是由是由若干数量的记录若干数量的记录若干数量的记录若干数量的记录所构成所构成所构成所构成的一类数据的集合。的一类数据的集合。的一类数据的集合。的一
19、类数据的集合。FFF一般地说,一个数据库至少包括一个顺一般地说,一个数据库至少包括一个顺一般地说,一个数据库至少包括一个顺一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。排文档和一个倒排文档。排文档和一个倒排文档。排文档和一个倒排文档。顺排文档顺排文档是将记录中的信是将记录中的信息按某一字段息按某一字段(一般为存取(一般为存取号)的顺序存号)的顺序存放起来形成的放起来形成的文档文档,通常按记通常按记录存入的先后顺录存入的先后顺序线性排列,所序线性排列,所以也称为以也称为线性文线性文档档,或,或主文档主文档.122StudentTeachingintheContextofaSchool-
20、University123CooperativeLearninginResponsetoan124InSearchofResponsiveTeachingfor125TeachingTopography:Introducing Students to ContourMapConstruction.Fife,BarbaraS.Science Teacher,v62 n5 p38-43May1995ISSN:0036-8555AvailableFrom:UMI顺排文档顺排文档是将记录中的信是将记录中的信息按某一字段息按某一字段(一般为存取(一般为存取号)的顺序存号)的顺序存放起来形成的放起来形成的
21、文档文档,通常按记通常按记录存入的先后顺录存入的先后顺序线性排列,所序线性排列,所以也称为以也称为线性文线性文档档,或,或主文档主文档.122StudentTeachingintheContextofaSchool-University123CooperativeLearninginResponsetoan124InSearchofResponsiveTeachingfor125TeachingTopography:Introducing Students to ContourMapConstruction.Fife,BarbaraS.Science Teacher,v62 n5 p38-43
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 计算机信息 检索
限制150内