《第二章社科信息检索工具精选PPT.ppt》由会员分享,可在线阅读,更多相关《第二章社科信息检索工具精选PPT.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章社科信息检索工具第1页,本讲稿共39页第一第一节 信息信息检索的概念索的概念n1、检索的起源n信息检索起源于图书馆的参考咨询和文摘信息检索起源于图书馆的参考咨询和文摘索引工作索引工作.从从19世纪下半叶开始发展世纪下半叶开始发展,至至20世纪世纪40年代年代.索引和检索已成为图书馆独立索引和检索已成为图书馆独立的工具和用户服务项目。的工具和用户服务项目。20世纪中叶以前,世纪中叶以前,信息存储和传播主要以纸质介质为载体,信息存储和传播主要以纸质介质为载体,信息检索活动也围绕着文献的获取和控制信息检索活动也围绕着文献的获取和控制展开。展开。第2页,本讲稿共39页2、检索的基本原理信息检索信
2、息检索信息检索信息检索是指将信息按照一定的方式组织是指将信息按照一定的方式组织是指将信息按照一定的方式组织是指将信息按照一定的方式组织 和存储起来和存储起来和存储起来和存储起来,并根据用户的需要并根据用户的需要并根据用户的需要并根据用户的需要,找出所需信息的过程。找出所需信息的过程。找出所需信息的过程。找出所需信息的过程。广义广义广义广义的信息检索包括信息的存储和检索两个过程,的信息检索包括信息的存储和检索两个过程,的信息检索包括信息的存储和检索两个过程,的信息检索包括信息的存储和检索两个过程,而而而而狭义狭义狭义狭义的信息检索只包括后一个过程,即为处理解决的信息检索只包括后一个过程,即为处理
3、解决的信息检索只包括后一个过程,即为处理解决的信息检索只包括后一个过程,即为处理解决各种问题而查找各种问题而查找各种问题而查找各种问题而查找信息的存储过程就是按照主题词表或分类表及使用信息的存储过程就是按照主题词表或分类表及使用信息的存储过程就是按照主题词表或分类表及使用信息的存储过程就是按照主题词表或分类表及使用原则对原始信息资源进行处理,形成信息特征标识,原则对原始信息资源进行处理,形成信息特征标识,原则对原始信息资源进行处理,形成信息特征标识,原则对原始信息资源进行处理,形成信息特征标识,为检索提供经过整序的信息集合的过程。为检索提供经过整序的信息集合的过程。为检索提供经过整序的信息集合
4、的过程。为检索提供经过整序的信息集合的过程。第3页,本讲稿共39页信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:第4页,本讲稿共39页3、信息检索手段 从技术手段上分:手工检索(手检)和计算机检索(机检)手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval)工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。
5、第5页,本讲稿共39页计算机检索(computer-based retrieval)它通过数据库系统来实现的。检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。第6页,本讲稿共39页计算机检索的优势计算机检索明显优
6、于手工检索,主要表现:检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性。第7页,本讲稿共39页第二节社科信息检索工具n2.1.1 检索工具的定义检索工具的定义n检索工具是人们用来报道、存储和查找各检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,计算机的光盘检索系统、联机检索系统,以及基于以及基于Internet的网络信息检索系统、网的网络信息检索系统、网上工具书、搜索引擎、上工具书、搜索引擎、Archie、Wais等
7、各等各种信息检索工具和检索系统。种信息检索工具和检索系统。第8页,本讲稿共39页检索工具的类型检索工具的类型n按照检索手段的不同,检索工具可分为按照检索手段的不同,检索工具可分为手工检索工具、手工检索工具、机械检索工具机械检索工具和和计算机检索系统计算机检索系统。n按照著录形式的不同可分为:目录型检索工具、题录型检按照著录形式的不同可分为:目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。工具等。n按照载体形式的不同可分为:书本式检索工具、卡片式检按照载体形式的不同可分为:书本式检索工具、卡片式检索工具、缩微式检
8、索工具和机读式检索工具等。索工具、缩微式检索工具和机读式检索工具等。第9页,本讲稿共39页2.1.2 手工检索工具n手工检索工具是传统的检索工具,主要是各种类型的手工检索工具是传统的检索工具,主要是各种类型的工具书。工具书是人们根据一定的需要,广泛收集某工具书。工具书是人们根据一定的需要,广泛收集某一范围的有关资料,按特定体例或方式编排,提供基一范围的有关资料,按特定体例或方式编排,提供基本知识和文献线索的一种特殊类型的图书,是检索文本知识和文献线索的一种特殊类型的图书,是检索文献信息的重要工具。献信息的重要工具。n根据工具书的体例和功用,可分为根据工具书的体例和功用,可分为检索类工具书检索类
9、工具书、词词语类工具书语类工具书、资料类工具书资料类工具书、表谱类工具书表谱类工具书、图录类工图录类工具书具书和和边缘类工具书边缘类工具书六种类型。六种类型。下面对此分别介绍下面对此分别介绍 第10页,本讲稿共39页2.1.2.1 检索类工具书 n按著录内容划分,检索类工具书大致可分为以下四种:目录、题录、文摘、索引。n目录(Bibliography/Catalogue):通常是以文献的“本”、“种”、“件”等为单位,对一批相关文献外表特征的揭示和报道。例如:全国新书目、全国总书目、全国报刊简明目录等。n题录(Title):它报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具
10、。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国化学题录、中文科技期刊题录数据库等。第11页,本讲稿共39页n文摘(Abstract):是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具,是重要的二次文献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并著名其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:新华文摘、经济学文摘等。n索引(Index):是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并著名出处,按一定的规则
11、编排起来的一种检索工具。例如:经济科学论文索引、社会科学引文索引(Social Science Citation Index,SSCI)等。第12页,本讲稿共39页传统的手工目录卡片传统的手工目录卡片第13页,本讲稿共39页n现在传统目录卡片已被电子目录替代n电子目录各项著录有序,有标目,馆藏目录还常带有馆藏地点、馆藏状态、索书号等项列表,以下是INNOPAC的中英文电子目录。第14页,本讲稿共39页n 题录(bibliography,bibliographic citation)n 也是对文献外部特征的描述,由一组数据项的固定组合形成题录型条目,书写、印刷型条目如“文献类型的识别”一节中的样
12、例。题录一般以内容上独立的文献单元,如一篇文章或书中某一部分、某一章节或整个出版物作为其著录的基本单位。以下是一条电子条目。n题录通常包括:作者(或含其所在单位)、篇名和来源出处及文种等,由出处导向原文。第15页,本讲稿共39页文摘Abstract(原意“抽取”)n文摘分:文摘分:1 1)指示性文摘)指示性文摘指示性文摘侧重指示性文摘侧重揭示文献的主题、研究方法、结揭示文献的主题、研究方法、结论、用途和参考价值,不涉及具论、用途和参考价值,不涉及具体的内容。体的内容。2)报导性文摘)报导性文摘报导性文摘报导性文摘比较详细地报导文献的主要比较详细地报导文献的主要内容、观点、方法、设施,内容、观点
13、、方法、设施,以及必要的数据、图表和参以及必要的数据、图表和参考资料。考资料。3)评论性文摘评论性文摘(critical abstract),其中包括文摘评论其中包括文摘评论员的分析与评介。员的分析与评介。n文摘是对一份文献的内容做实文摘是对一份文献的内容做实质性的简略、准确的描述,无质性的简略、准确的描述,无须补充解释和评论。它用少量须补充解释和评论。它用少量的文字将文献浓缩加工,以揭的文字将文献浓缩加工,以揭示文献的主要观点、论据、数示文献的主要观点、论据、数据等,是当代报导学术动态的据等,是当代报导学术动态的简捷明快的方法。简捷明快的方法。n检索者可以从文摘中直接找到检索者可以从文摘中直
14、接找到所需信息,如果不满足,再去所需信息,如果不满足,再去查找原文。从这个意义上说,查找原文。从这个意义上说,文摘是集书目、索引和一次文文摘是集书目、索引和一次文献献三者于一体的特殊检索工具。三者于一体的特殊检索工具。第16页,本讲稿共39页n 文献的文摘型电子条目如下:第17页,本讲稿共39页2.1.2.2 词语类工具书n词语类工具书包括各类字典、词典,主要提供字词的形、音、义和使用方法,以及学科名词术语的含义、演变和发展。字典以字为单位,按一定次序排列,说明形体、读音、意义和用法;词典,也作辞典,以词语为单位,按一定次序排列,解释词汇的概念、含义和用法。例如:辞海、汉语成语大词典、社会科学
15、大词典等。第18页,本讲稿共39页2.1.2.3 资料类工具书n 资料类工具书能够为读者提供各种基本知识或某一课题的具体资料。主要包括百科全书、年鉴、手册、名录、类书、政书等。n百科全书是人类知识的总汇,是记录人类知识最全面、最系统的大型综合性工具书。它概述了人类切知识领域的基本资料,对每一学科提供定义、原理、方法、历史及现状、系统和参考书目等方面的资料,被誉为“工具书之王”、“没有围墙的大学”。年鉴是汇辑一年内时事动态、学科发展和各项统计资料等重要资料,按年度出版的工具书。手册也称指南、便览、大全等,是把某一学科或某一专题的概括性又具体实用的知识、资料和数据汇编在一起。名录是专门收录人名、地
16、名、机构名以及其他事物名,按照一定规则进行排序,并予以简要揭示和介绍的工具书。类书是收录古代文献资料,按类别或韵目编排,提供检索、征引使用的工具书。政书是汇集历代或某一朝代的政治、军事、经济、文化、外交等方面的法律、法令和法规制度史料的工具书。第19页,本讲稿共39页2.1.2.4表谱类工具书n表谱类工具书是以表格或其他较为整齐的形式,记录史实、时间、地理等资料,并附以简略的文字说明,以反映史实和时间。主要包括年表、历表和专门性历史表谱3种类型。年表是按年代顺序编制,专供查考历史年代、历史纪元及历史大事的检索工具。如中华人民共和国大事记等。历表是一种把不同历法的历日按一定的次序汇编在一起,以相
17、互对照的表格,提供查找和换算不同历法的年、月、日的工具书。专门性历史表谱主要用于查考人物、职官、地理和数据等专题资料,如中西回史日历等。第20页,本讲稿共39页2.1.2.5图录类工具书n图录类工具书是以图形、图像、符号等为主体,附以简略的文字说明,以反映各种事物、人物的空间特征和形象特征的工具书。它包括地图、历史图录、文物图录、人物图录、艺术图录、科技图像等。地图是地球表面自然和社会现象在平面图上的缩影,以反映各种事物和景象的地理分布及其在空间与时间上的相互制约、内在联系和发展动态。历史图录是以图形、图像等揭示历史人物和事物的工具书。第21页,本讲稿共39页2.1.2.6边缘类工具书n边缘类
18、工具书主要指那些介于工具书与非工具书之间,既具有一般图书的阅读功能,又具有工具书的查检功用的文献。它主要包括资料汇编、史书、方志等。资料汇编有针对性地摘编文献信息的片断或全文,按专题或学科分类编排,提供读者阅读或查检。包括法规资料汇编、条约资料汇编、统计资料汇编等。第22页,本讲稿共39页2.1.3 机械检索工具n机械检索工具是手工检索工具向计算机检索系统过渡的中间检索工具。它主要包括两种类型:机电检索工具(如打孔机)和光电检索工具(如缩微机)。机械检索工具利用机械装置改进信息资源的存储和检索方式,但是只能对某一固定存储形式的信息资源进行特定检索,过分依赖于设备,检索操作复杂,成本很高,并且检
19、索质量和效率也不理想。所以很快被计算机检索系统所取代。第23页,本讲稿共39页2.1.4 数据库n数据库的类型:n数据库的类型多种多样。数据库有网状数据库、层次数据库、面向对象数据库、Web数据库、多媒体数据库、移动数据库、智能数据库、实时数据库、并行数据库、分布式数据库、联邦式数据库、模糊数据库、演绎数据库和统计数据库等。第24页,本讲稿共39页数据库的类型1 n1.按信息处理层次划分,数据库可分为书目数据库、文摘数据库和全文数据库。n全文数据库:全文数据库(Full-text database)是将文献全文以机读版的形式存储起来,并可与相应的软件配合提供文中检索和全文输出的数据库。第25页
20、,本讲稿共39页数据库的类型2n2.按照收录的文献类型划分n分为期刊论文数据库、书目及图书全文数据库、专利数据库、学位论文数据库和产品数据库等。n3.根据收录文献信息的范围划分n分为综合性数据库和专业性数据库。n4.按媒体信息划分n分为文本数据库、数值数据库、声音数据库、图像数据库、视频数据库和多媒体数据库。第26页,本讲稿共39页2.1.4.3数据库的结构n数据库一般由文档、记录、字段这三个自上而下的层次构成。n通常一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是按文献记录的输入顺序(即文献序号)排列的文档,又称为主文档。它将全部记录按照存取号的大小顺序依次排列形成文献信息集合,是数
21、据库的主体内容。第27页,本讲稿共39页倒排文档n倒排文档是把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。如果将顺排文档看作是某种印刷型检索工具的正文部分,那么倒排文档就相当于它的辅助索引。第28页,本讲稿共39页字段(Field)n在文摘数据库中,一条记录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。例如在Dialog系统中,常用标识符及含义为:n标识符 字段名nau=作者字段njn=期刊名称字段npy=出版年字段ncs=机构名称字段ndt=文献类型字段nla=语种字段第29页,本讲稿共39页
22、2.1.5计算机检索系统n 计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。n联机检索(Online Retrieval)是20世纪60年代发展起来的一种提供人机对话的检索技术,是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机联结,从而检索世界各地存储在计算机数据库中的信息资料。第30页,本讲稿共39页联机检索系统n联机检索系统主要有以下四种服务方式:联机检索系统主要有以下四种服务方式:n(1)回溯检索回溯检索(RS,Retrospective Search)n是用户对检索系统中积累多年的文献
23、信息数据库进行检索,查找一定时间范围内是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。通过或特定时间以前的文献信息的一种联机检索方式。通过RS进行专题检索或情报进行专题检索或情报调研,可全面系统地了解有关文献信息的线索。调研,可全面系统地了解有关文献信息的线索。n(2)定题检索定题检索(SDI,Selective Dissemination of Information)n是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检
24、索方式。的新的文献信息的一种联机检索方式。n(3)联机订购联机订购n联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。可以为用户提供原始文献的联机订购服务。n(4)电子邮件电子邮件n联机检索系统为用户提供联机检索系统为用户提供E-mail和电子邮政的功能和电子邮政的功能。第31页,本讲稿共39页2.1.5.3 网络检索系统n网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。n早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(
25、Telnet)、文件传输服务(FTP)、电子邮件(E-mail)、电子公告栏(BBS)、新闻组(USENET)等。FTP获取信息资源的最大问题是查找需要的资料必须预先知道这些资料存放在哪个文件服务器中,随着FTP服务器的增多,这个问题变得越来越严重,于是人们就开发出Archie、WAIS、Gopher系统,以解决寻找FTP资源的困难。第32页,本讲稿共39页2.2 检索途径n信息检索途径一般包括文献信息的内容特征途径和外表特征途径。n内容特征途径:主题途径n 分类途径n 代码途径n外表特征途径:题名途径n 责任者途径n 机构名称n 编号途径n 其它途径第33页,本讲稿共39页内容特征途径n1.
26、主题途径n主题途径是按文献信息的内容主题进行检索的途径,对课题进行主题概念分析,提炼主题概念,选择能表达主题概念的语词,确定主题词、关键词、叙词或标题词。传统的手工检索依据的是各种主题索引或关键词索引,主题索引或关键词索引按检索词的字顺排列,用户根据确定的检索词按照字顺进行查找,从检索词下的索引款目,即可找到所需文献的线索。计算机检索视检索系统的检索规则而定,如检索系统提供了主题词索引,用户必须先查主题词索引,然后使用规范的检索词才能检索。n2.分类途径n分类途径是一种按照文献信息所属学科(专业)类别进行检索的途径。对课题内容进行分类分析,按分类法进行分类,获取分类号。传统的手工检索依据的是按
27、分类编排的分类目次表或分类索引,按类逐级进行检索。计算机检索时提交分类号进行检索即可。分类检索能较好地满足族性检索的要求,提高课题信息的查全率。第34页,本讲稿共39页2.3 检索标识n检索标识,即检索词,是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索途径相对应,是检索途径的具体化。如主题途径的检索标识就是主题词,分类途径的检索标识是分类号,著者途径的检索标识是著者姓名,其它的则依此类推。第35页,本讲稿共39页检索标识的确定 n检索标识的确定,一般应考虑以下基本原则:n(1)检索标识必须反映课
28、题内容和信息需求。n(2)检索标识和数据库的标引标识应相一致。n(3)所选检索工具或系统具有叙词表或主题词表的,优先选用叙词或主题词作为检索词。n(4)要从词表规定的专业范围出发,选用各学科内具有检索价值的基本名词或术语。n(5)如选择的检索词无词表可查,或在词表中未反映时,检索词为自由词,这时还应选取该词的同义词、近义词、广义词、狭义词、分子式、分类号、登记号、专利号、化学物质俗名、商品名等,使用多个词试检,或通过逻辑“或”组配进行检索。第36页,本讲稿共39页2.4 检索方法n2.4.1 工具法n 又称常用法或直接法,是指直接利用检索工具检索文献信息的方法,这是信息检索中最常用的一种方法。
29、它又分为顺查法、倒查法和抽查法。第37页,本讲稿共39页2.4.2 引文法n引文法又名追溯法,是查找某一篇文献被哪些文献所引用,或者利用文献末尾所附参考文献和注释为线索逐一地追溯查找原始文献的方法。文献之间的引证和被引证关系反映了文献之间存在的某种内在联系,某一篇文献后所附的参考文献、其参考文献的参考文献,以及该文献被引用的文献,组成了一条学术链,从一定程度上反映了某一课题研究的轨迹。循着这些轨迹去查找,不仅可以利用前人的学术成果,节省很多时间和精力,而且可能在原来的基础上有新的发现。引文索引是采用引文法快速查找文献信息的有效工具,但容易产生漏检。第38页,本讲稿共39页2.4.3 循环法n循环法又称为综合法、交替法,它是把工具法和引文法结合起来查找文献信息的方法。循环法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。循环法的好处是能够综合工具法和引文法的优点,因为任何检索工具,都有文献收录的范围、主题报道的重点和倾向等,以引文法进行补充,可以扩大文献线索,发现更多有价值的文献信息。按照引文规律,有价值的文献在发表后最初几年(例如五年)内被引用的次数较多,但以后趋于减少,因此,追溯检索的年限不宜过长。第39页,本讲稿共39页
限制150内