计算机文献检索_第二章(简).ppt
2 计算机文献检索计算机文献检索 主要内容2.1 2.1 计算机检索概述计算机检索概述2.2 2.2 标引、分类表、主题表标引、分类表、主题表2.3 2.3 数据库数据库2.2.4 4 检索技术检索技术2.5 2.5 检索途径和检索途径和检索程序检索程序2.6 2.6 书目及多馆联合目录书目及多馆联合目录2.1 2.1 计算机检索基本原理计算机检索基本原理2.1.1计算机信息检索的简短回顾 计算机信息检索,是指利用计算机进行信息存贮和检索的过程。脱机检索系统,指利用单台计算机的输入输出装置进行检索的系统。由计算机硬件、检索软件和数据库三部分构成。联机检索系统,是一台主机带多个终端的计算机信息检索系统。具有分时操作能力,能使许多相互独立的终端同时进行检索。联机检索系统包括检索系统主机、通讯网、检索软件、检索终端和数据库。计算机信息检索始于上世纪60年代初,它的发展可分为4个时期:第一阶段(1954-1964):脱机检索阶段 第二阶段(1965-1972):联机检索阶段 第三阶段(1972-1992):国际联机检索阶段 第四阶段(1993-):网络信息检索阶段 我国计算机文献检索的发展始于1975年,大体经历了3个发展阶段。第一阶段是萌芽阶段(1975-1980),其特点是引进与试验。第二阶段是生长阶段,以服务和自己研制为特点,时间大约从1980年到1990年。第三阶段是迅速发展阶段(1990-),其特点是普及与完善。2.1.2计算机文献检索的意义 第一,计算机检索极大地提高了文献信息的使用价值。第二,计算机检索促进了国际文化技术的交流和全球的文献资源共享。第三,促进了计算机科学和情报学的发展,提高了文献服务机构在信息社会中的地位。2.1.3计算机文献检索的特点 检索速度快检索速度快 检索途径多检索途径多 计算机检索系统对数据库记录的很多字段都做了索引,均可作为检索入口。使用方便使用方便 计算机采用灵活的逻辑运算和后组式组配方式,便于进行多员检索和多途径检索。检索范围广检索范围广 计算机能提供远程检索。联机联网系统中含有大量的数据库,其主题涉及各个学科领域。检索内容新检索内容新、时效性强、时效性强2.1.4计算机文献检索的基本模式 这个过程可简单地描述为:从文献选择需要录入数据库的文献;对这些文献进行概念分析,把它们的外部特征以及内容特征提取出来,按一定格式制成数据库;然后收集用户的提问,对这些提问进行概念分析,把它们的提问要素(篇名、作者、分类号、主题词等)提取出来,按一定要求列成提问式;检索时将数据库中的文献的特征与提问中的特征进行比较,符合提问式要求的文献即为命中文献,予以输出。2.2 标引、分类表、主题词表 2.2.1 标引 标引:将信息和提问的内容特征用情报检索语言的形式表达出来的过程,当使用分类号来表达信息内容时就叫做分类标引,当使用主题词来表达文献内容时就叫做主题标引。2.2.2 分类表、主题表分类表、主题表 分类表又称类目表,具有以下四种属性:网罗性。体系性。明确性。可查性。主题词表是对检索和标引用词进行规范并显示其中各种关系的词表。其作用:通过同义词的互见对检索和标引用词进行规范,将不同形式的同义词转换成事先选择好了的唯一形式,从而避免由于对同义词的不同选择而造成的漏检。通过上位词、下位词的显示来增加机器的扩检缩检功能。通过内容互有关联的主题词的“参见”提高检全率。2.2.3 文献标引的方法 分类标引,是在分类表中找一个或几个与文献内容相符的类目,将这个类目的类号作为这篇文献的分类号。主题标引:用主题词(subject term)标引,即选用主题词表中的词对文献进行标引。用自由词(free term)标引,既当文献的主题在主题词表中找不到合适的词来表达,直接用词表以外的词进行标引。进行主题标引时,遵循的两个基本原则:标引用词要准确反映文献的内容,即尽量用能准确反映文献主题的词来标引。尽量在主题词表中找到切题的词,当在表中找不到合适的主题词时,先用主题词表中的词把所要标引的概念组配出来,然后用自由词标引。对于主题词表中没有收录,又无法用其它主题词组配出来的主题概念,可用它的上位主题词或近义主题词标引,同时把该概念的自由词形式标上。标引时尽量选用用户最容易使用的词标引,尤其是自由词标引时,不用生僻词。2.3 数据库2.3.1 数据库的类型数据库:数据库:指包含书目及文献有关数据的机读记记录录的有组织的集合。是计算机信息检索系统的信息源和核心。记录包括两个方面:一是原文标题、内容及作者的信息,二是有关原文获取途径的信息。数据库类型:数据库类型:1.文献数据库 (1)书目数据库,也叫二次文献数据库,包括各种文摘、索引、目录。(2)全文数据库,是存贮文献全文或其中主要部分的数据库,简称全文库。2.源数据库 用来存储事实、数值、概念、图形等一系列非文献数据的数据库。(1)数值数据库,专门提供以数值方式表示信息的一种源数据库。(2)事实数据库,包含自原始文献或社会调查中获得并经过处理的各种事实。常见的有指南数据库、产品数据库等 (3)概念数据库,存贮各种名词术语或语言资料。如词典数据库、语料库等。(4)多媒体数据库,视频、音频、文字、图像、动画等的集合体。2.3.2数据库的构成数据库的构成:1文文档档(File):是由若干条逻辑记录构成的信息集合。文档是书目数据库和文献检索系统中数据组织的基本形式。(1)顺排文档:将文献的各种特征按文献记录的输入顺序(既文献序号)排列的文档。又称主文档。(2)倒排文档:是把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。2记录记录(Record):是数据库的的基本单元,是对某一实体属性进行描述的结果。一个数据库可以有多个文档,一个文档由若干条记录构成。AN=DIALOG No:03883137 EI Monthly No:EIP94031231114/TI Title:Laser/Light imaging for underwater useAU=Author:Caimin,Frank M.Cs=Corporate Source:Harbor Branch oceanographic Inst.Inc.FT.Pierce,FL,USASO=Source:Sea Technology,V.34 No.12 Dec.1993.P.22-27PY=Publication Year:1993CO,SN=CODEN:SEATAD ISSN:0993-3651LA=Language.EnglishDT,TC=Document Type:JA(Joumal Article);Treatment code:A(Applications);X(Experimental)/AB=Abstract:/DE=Description:*Imaging techniques:Laser application;Interferometry;Ocean engineering/ID=Identifiers:Laser light imaging;Underwater technology/CC=EI Classification Codes:741.3(Optical Devices&Systems);744.9(Laser Applications)3字段(字段(Filed):是文献记录的基本单元。基本字段主要是描述文献的内容特征的字段,如篇名、文摘、叙词、标引词等;辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等。2.4 检索技术 2.4.1 布尔逻辑检索布尔逻辑检索 用逻辑运算符号(与、或、非)将提问特征连接起来的式子叫逻辑提问式逻辑提问式。布尔逻辑检索:布尔逻辑检索:利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索标识组配成一个具有复杂概念的检索式,以满足课题检索的要求。1.逻辑“与”逻辑“与”用“AND”或“”表示,两个检索词以“AND”或“”相连,表示被检中的文献必须同时含有这两个词。例如:查找有关计算机在图书馆中应用的文献 computer library 或 computer AND library 2.逻辑“或”逻辑“或”用“OR”或“+”表示,两个检索词以“OR”或“+”相连,表示被检中的文献含有两个词之一或同时包含两词。computer+library 或 computer OR library 3.逻辑逻辑“非非”逻辑“非”用“NOT”或“”表示,两个检索词若用逻辑“NOT”或“”相连,表示被检索文献在含有检索词A而不含检索词B时才被命中。例如:要检索汽车方面的文献,而又不希望文献中出现拖拉机的主题,逻辑式为:car NOT tractor 或 car tractor 在一个复杂的逻辑提问中,不仅可以有多个逻辑运算符,也可以使用括号来指定运算的先后顺序。例如:(A B+C)(D+E)+F A、B、C、D、E、F各代表一个检索词。2.4.2 词表助检词表助检 有些文献数据库有自己的主题词表,不仅用于标引文献,也用于助检。2.4.3 截词检索:截词检索:截词检索:计算机检索时利用检索词的词干或不完整词形进行查找的过程。按截断字符数量分为有限截词、无限截词和中间截词。按截断部位分为前方一致、后方一致、中间一致。1.有限截词 将n个截词符“?”放在检索词的词干中或词尾可能变化的位置上,若在词尾,在n个“?”后空一格再加一个“?”,n个“?”表示截词的位数为03个字符,最后一个“?”表示停止符。例如:stud?-study、studies、studied等词的记录。2.无限截词 在检索词干后加1个“?”或“”,表示该词词尾允许变化的字符数不受任何限制。例如:comput?(或 comput),可检出computer、computerized、computation、computational、computability等词的记录。3.中间截词 截断符用在单词中间,嵌入字母数等于问号,通常用于英美不同拼法。例如:检索“analys?s”,实际上可检索出含有analysis和analyses的文献。4.前方一致:文献标引词只要前面一部分与提问词相同,即命中。5.后方一致:当提问词的后半部分完全相同时,可使用后方一致,文献中有一个标引词的后部与提问词相同,文献即命中。6.中间一致:当提问词的中间部分完全相同时,可使用“中间一致”。检索时文献标引词的中间部分与提问词相同,文献即命中。2.4.4 限定检索限定检索 联机检索系统中,为提高查全率或查准率而缩小或约束检索结果的方法,称之为限定检索。例如:检索“computer/TI,AB”表示在TI和AB字段中检索computer.4.4.5 原文检索原文检索 原文检索技术是用一些特定的位位置置算算符符来表达检索词与检索词之间的关系,并且可以不依赖叙词表而只直接使用自由词进行检索的检索方法。位置算符的功能是限限定定检检索索词词与与检检索索词词之之间间的的位位置置关系关系.1.相邻位置算符 (W)-with 表示此算符两侧的检索词相邻,顺序不能颠倒,且不允许在两词之间插入其他词或字母,但允许有一空格或连词符号()。例如查找空气污染方面的文献:Air(W)Pollution(nW)nwords 表示在此算符两侧的检索词之间最多可插入n个词,但该算符两侧检 索词的词序不能颠倒。例:Air(2W)Pollution可检出:air pollution、air and noise pollution、air and water pollution等文献。(N)Near 表示在此算符两侧的检索词相邻,且顺序可以颠倒,但两词之间不许插入任何词。例如:Computer(N)Communication可检索出含有Computer Communication、Communication Computer(nN)nNear:表示在此算符两侧的检索词的顺序可以颠倒,且最多可在其间插入n个词。例如:Computer(2N)Communication可检索出Computer Communication、Communication Computer、Computer and Communication、Communication through Computer、Computer mediated network Communication、2.字段位置算符(F)Field 表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段,如篇名字段、文摘字段、叙词字段、自由词字段等,但两个词的词序不限,夹在两个检索词之间的词的个数也不限。3.其他位置算符(L)Link 表示两侧的检索词之间有一定的从属关系。例如:Rubber(L)natural 表示Rubber为主标题,natural为副标题。(X)当用两相邻而又完全相同的词组检索时,两个词之间用(X)运算符连接。例如:Protein(X)Protein表示检中的文献记录中含有ProteinProtein。2.5 检索途径和检索程序检索途径检索途径 检索途径又叫检索点,是指检索系统为用户提供检索文献的路径,或者说检索者通过文献的哪些特征可以检索出文献。这些检索点一般有:按字顺排列:主题词、自由词、关键词、篇名或书名、报告名、会议名、化学物质名等等。按数字排列:顺序号、日期、化合物登记号、纯数字的分类号等等。字母数字混排:专利号、合同号、字母数字型的分类号、分子式等等检索程序检索程序1、分析检索课题(1)了解用户情报需求的目的和意图。(2)分析检索课题的主题要求。必须把该课题涉及到的主题概念、主题概念之间的逻辑关系揭示出来,以便下一步进行概念组配,编制检索提问。(3)时间要求(4)检索效果要求。包括检索结果的查全率、查准率、所需文献的大概数量、是否需要提供原文文献等。(5)检索费用及其他要求。2、选择检索系统和数据库、选择检索系统和数据库(1)检索系统的更新周期(2)检索系统的学科范围(3)不同的数据库可能会涵盖同一检索课题所涉及的学科,选择数据库时,不仅要看该数据库的记录是否能满足用户的检索要求,还要看该数据库是否是同类数据库中最具权威性的。在具体数据库的选择过程中必须做到:在具体数据库的选择过程中必须做到:明确数据库收录的数量、类型、存贮年限和更新周期 明确数据库所具有的独特性和交叉性;明确数据库所提供的检索途径、功能和服务方式。3、选择检索词,构造检索提问式,确定检索策略 (1)检索词的选择 所选数据库具有叙词表或主题词表,优先选用叙词或主题词作为检索词;从词表规定的专业范围出发,选用各学科具有检索价值的基本名词或术语;自由词作为检索词时,要注意从专业角度出发,使用国际上通用的术语,或利用相应的光盘数据库试检,从有关文献信息中找出其用词规律,同时尽可能不使用一词多义的词;选词要适应待检数据库的检索用词规则;要多选常用的基本词汇进行组配。(2)检索提问式的构造)检索提问式的构造 检索提问式是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符组成。全面准确选词,不仅要考虑提问中的词,还要考虑提问中没有但是与提问有密切关系的词。当用户提问的主题词在主题表中找不到准确的主题词时,可以先用自由词检索;若仍不理想,可放宽检索范围,用上位词和相关词检索。也可用自由词、上位词和相关词同时检索。在检索式中,将必需的主题词以及用+连接的比较容易命中的词提前。提问式尽量化简。如1*2+1*3应化简成1*(2+3)对某一部分完全相同的多个主题词,尽量利用检索系统的截词功能,即文献标引词只要有某一部分与提问词相符,即命中,这样可以节省比较时间。(3)确定检索策略 所谓检索策略,就是在分析信息需求的实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找的步骤的一种科学安排。制定检索策略实际上包括了选择检索词与编制检索提问式这两步。除此之外,检索策略还应该对检索式可能的检索结果作出预测,并事先提出相应的对策。提高查全率、查准率方法提高查全率、查准率方法 查全率,主要从扩检入手 (1)选用同义词并以“OR”方式与原词连接后加入到检索式中;(2)降低检索词专指度,从词表或检出文献中选上位词或相关词;(3)采用分类号检索;(4)减少AND运算;(5)取消过严的限制符,如字段限制符等;(6)调整位置算符。查准率查准率,主要从缩检入手,主要从缩检入手 (1)提高检索词的专指度,增加下位词和专指性较强的自由词;(2)用AND连接限定主题概念的相关检索项;(3)限制检索词出现的可检字段;(4)利用文献的外表特征限制;(5)用NOT来排除无关检索项;(6)调整位置算符等。2.6 2.6 国内高等院校多馆联合目录国内高等院校多馆联合目录-CALIS-CALIS联合联合目录目录(OPAC)(OPAC)书目:书目:是一批相关文献的著录,并按一定次序编排组织而成的揭示和报道文献,可用于检索文献的工具。馆藏书目:馆藏书目:是揭示报道检索一个图书馆或多个图书馆馆藏文献的特征。馆藏书目的作用:(1)反映馆藏 (2)导航作用 (3)为资源共享提供支持 中国高等教育文献保障系统(CALIS,China Academic Library&Information System),是由国家经费支持的中国高校图书馆联盟.CALIS的宗旨是建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。设在北京大学的CALIS项目管理中心联合各参见单位,建设了文理、工程、农学、医学四个全国文献信息中心,华东北、华东南、华中、华南、西北、西南、东北七个地区中心和一个东北地区国防信息中心,发展了152个高校成员馆。1.连接方式 通过各成员关图书馆网站设置链接进入。或者,直接链接CALIS(OPAC)在浏览器的地址栏中输入:hppt:/ 浏览检索只提供著者、题名、丛编题名、主题四种检索途径。一次检索只能选择一种检索途径。思考题:1、简述计算机检索的几种基本检索技术2、简述数据库的类型和基本构成。3、运用所学的计算机检索技术,写出下列检索要求的文献检索式:(1)检出的文献要同时含有“satellite”和“Communication”这两个词,而且两个词要彼此接近,前后顺序不限。(原文检索)(2)课题检索结果包含Cad或者Computer aided design和出现其中任意一个词的所有文献,但均不能包含PLD方面的内容。(3)请写出作者是“杨克成”,题名、文摘中含有检索词“激光”,文献类型为期刊,1992年以后出版的文献检索式。(检索字段限定检索)4、在信息检索过程中,如何提高查准率和查全率?5、试述计算机信息检索的基本检索程序和步骤。6、在CALIS联合目录中查找电子工业出版社2002年出版的 电子通信系统(影印本),列出哪些图书馆提供馆际互借服务,哪些图书馆提供文献传递服务。7、在中国国家图书馆查找文献,列出该文献书目:题名:窗外与窗里 著者:王安忆 出版单位:沈阳出版社 出版日期:2002年