《医学信息检索.ppt》由会员分享,可在线阅读,更多相关《医学信息检索.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学信息检索医学信息检索主讲老师:杨晓雯主讲老师:杨晓雯E-mail:E-mail:该课的内涵该课的内涵 什么是医学信息检索什么是医学信息检索“信息检索”一词出现于20世纪50年代,又称信信息存贮与检索息存贮与检索,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程和技术。广义上说,“信息检索”包括“存”和“取”两个环节和内容。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询信息查询。医学信息检索,即为如何“存”和“取”医学信息。开设此课的意义开设此课的意义信息是当今社会最重要的资源之一,信息素质已成为评价人才综合素
2、质的一项重要指标,是信息化社会人们生存与发展的基本素质之一。1992年由美国学者杜尔对信息素质的阐述,较好地概括了信息素质的内涵:一个具有信息素质的人,能够认识到精确的和完整的信息是作出合理决策的基础。能够确定对信息的需求,形成基于信息需求的问题,确定潜在的信息源,采用成功的检索方式,从包括计算机和其他信息源获取信息、评价信息、组织信息并应用于实际。将新信息与原有的知识体系进行配合以及在批判性思维和问题解决的过程中使用信息。信息素质的诠释可以看出:信息素质包括信息获取的意识,评价、判断信息的能力,查找、收集、组织信息的能力,信息决策及处理能力。学校的信息素质教育,开设的主要课程包括计算机基础和
3、文献检索课。前者主要培养学生的信息技能,后者作为信息素质教育的主要课程,应全方位地从信息知识、信息意识、信息能力和信息道德四方面系统开展。第一章第一章 信息检索基础信息检索基础(一)、信息、知识、情报、文献(一)、信息、知识、情报、文献1.信息(information):在自然界、人类社会以及人类思维活动中普遍存在,是物质的一种基本属性,是物质存在方式及其运动的规律、特点的外在表现。2.知识(knowledge):人们通过信息对自然界、人类社会以及思维活动规律的认识与掌握,是人的大脑通过思维重新组合的系统化信息的集合。3.文献(literature):以文字、图形、符号、声频、视频等手段记录和
4、传播知识的载体就是文献。4.情报(information):传递着的有特定效用的知识。信息信息 知识知识 情报情报信息、知识、情报的联系与区别信息、知识、情报的联系与区别情报情报知识知识信息信息 信息源是个人为满足其信息需要而获得信息的来源。1.3.1 信息源的类型 信息源的类型可依不同的标准划分如下:(二)信息源(二)信息源 1.3.1.5 按信息的产生次序和加工整理的程度不同,可将信息源划分为四个层次结构:(1)零次信息 指未经正式发表或不宜公开和大范围内交流的比较原始的素材、底稿、手稿、书信、工作文稿、工程图纸、考察记录、实验记录、调查稿、原始统计数字,以及各种口头交流的知识、经验或意见
5、论点等。这类文献在较小的范围内交流、使用、参考,其传播渠道少,或常保密,或限制使用以及因珍稀的原因,不为人们知晓。其形式多是抄件、打字件、油印件以及内部录音、录像等等。其特点是信息来源直接、真实,内容新颖。因特网的普及,为广大网民提供了跨越空间的口头交流便利,如各种聊天工具。(2)一次信息 又称原始文献,也称原始信息源,它是作者依据本人的科研和工作成果而形成的文献,这类文献是脑力劳动的正式产品,是科研成果的一种主要表述方式,代表新知识,组成了可供交流的系统性信息。此类文献主要包括:专著、期刊和报纸、科学考察报告、研究报告、会议论文、学位论文、专利说明书、技术标准、政府出版物、产品样本等。(3)
6、二次信息 指根据实际需要,按照一定的科学方法,将特定范围内的分散的一次信息进行加工整理使之简化和有序化而形成的文献信息。它能较为全面地系统地反映某学科某专业文献的线索,是检索一次信息的工具。这类文献有:书目、题录、索引和文摘等。(4)三次信息 指通过二次信息提供的线索,选用一次信息的内容,进行分析、综合、研究后而编成的信息。一般包括专题述评、动态综述、系统评价、进展报告、学科年度总结、年鉴、指南和百科全书等。1.3.1.4 按信息的出版类型划分,可分为以下十种类型(1)图书 大多是对已发表的成果和经验,或某一知识领域的系统论述或总结。它往往以期刊论文、会议论文、研究报告等一次文献为基本素材,经
7、作者的分析、归纳、重新组织而成。图书提供的知识一般比较系统、全面、可靠,起着综合、积累和传递知识的重要作用。从时间上看,图书报道的知识比期刊和特种文献晚,且出版周期较长。(2)期刊论文 指采用统一名称,定期或不定期出版的连续出版物。其特点是出版周期短,报道速度快,数量大、内容多,发行面广。期刊的内容一般是一次文献,即原始文献,许多新的研究成果大多首先在期刊上发表,因此,期刊论文是获取新信息的主要来源,是极其重要的信息源。(3)科技报告 是关于某项科学研究和革新成果的报告或研究过程中的阶段进展情况的实际记录。它反映的科学研究和技术革新成果比期刊论文快,内容高度专门化,且具有一定的保密性。一般以单
8、行本的形式出版。(4)专利文献 专利是国家对发明创造的法律保护。广义的专利文献应该是一切与专利有关的文献,包括专利说明书、专利公告、专利分类表、专利文摘等。狭义的专利文献一般指专利说明书,它是专利文献的主体。专利文献是极其重要的信息源,蕴藏着丰富的科技信息。(5)会议文献 一般是各种科技会议上的论文或书面发言。随着科学技术的发展,各种科技会议日益增多,已成为科技交流的一种重要渠道。许多学科中的重要发现有很大一部分是在会议文献中公开的,加上一些会议论文不在其它刊物或出版物上发表,或者即使发表,也要经过较长一段时间,因此,会议文献越来越受到科技界的重视,它已成为科技人员了解本专业的发展水平和最新研
9、究成果的有效工具。(6)政府出版物 指各国政府部门及所属机构发表、出版的文件,大体上可分为行政性文件(如法令、方针政策、规章制度、统计资料等)和科技文献两大类。科技文献中包括政府各部门的科研报告、技术政策等,对了解某一国家的科学技术和经济政策及其演变等情况有一定的参考价值。(7)学位论文 是为了取得某一级学位而提交的论文,包括学士论文、硕士论文和博士论文。它们的特点是:论文的水平和质量差别较大,论题比较专一,阐述系统、具体,有一定的独创性观点,且经过一定的审查,故有一定的参考价值。(8)标准文献 是对工农业产品和工程建设的质量、规格及检验方法等方面做出的技术规定。它是从事生产、建设的共同技术依
10、据,是一种规章性的文献,有一定的法律约束力。标准文献属于三次文献,其反映的信息传达了当时的技术标准和技术水平。因此,其技术新颖性和及时性低于专利等文献。(9)产品样本 是厂商为推销产品而印发的一种宣传性出版物,包括产品的性能、规格、尺寸、重量、构造、用途、使用方法等。产品样本的特点是技术上比较新颖,参数比较可靠,能给人以直观形象。利用它可了解国内外技术水平及有关技术的演变和发展动向,可获得设计、制造、使用中所需要的数据和方法,也可以为判断产品的价值提供依据。(10)科技档案 是在科研生产活动中形成的有一定具体工程对象的技术文件、图样、照片、原始记录的原本或复制本,内容包括任务书、技术指标、研究
11、方案、实验记录、设计图纸等。它是科技活动的真实记录,内容一般真实、准确可靠。(三)信息交流和信息素养(三)信息交流和信息素养信息交流:个体之间借助于共同的符号系统所进行的信息传播、交换和分享。信息需要:就是指人们在从事各项实践活动的过程中,为解决所遇到的各种问题而产生的对信息的需求。信息动机:指激励和推进个体发动并维持其信息行为导向某一目标的心理过程。信息行为:人们满足自己信息需要的社会活动的过程。用户的信息行为主要有信息检索行为、信息的选择行为和信息利用行为。信息需要是信息行为发生的根本基础,而信息动机则是信信息需要是信息行为发生的根本基础,而信息动机则是信息行为发生的根本动力。息行为发生的
12、根本动力。信息需要信息需要v信息需要的层次v 未知的信息需要v 有些现实问题过于复杂和隐蔽,或个人的认知能力有限或缺乏信息意识,因此没有、或没有意识到自己处于信息需要的状态,属客观信息需要。v 潜在信息需要v 有些人可能认识到了自己的信息需要,但却没有表达出来,致使信息需求无法用信息符号表达出来而处于“意会”的状态。人们认识到而未表达出来的信息需要称为潜在信息需要。v 现实的信息需要v 当人们意识到信息需要,而且明确表达出来的,称之为现实信息需要。用户在表达出来后,向信息服务机构提出具体的信息要求的称之为信息提问,用户自己动手寻找信息的称之为信息自问。信息素养:包括信息获取的意识,评价、判断信
13、息的能力,查找、收集、组织信息的能力,信息决策及处理能力。标准:2000年1月18日,美国大学与研究图书馆协会(ACRL)通过了美国高等教育信息素养能力标准标准一标准一 能够确认信息需求的特性与范围能够确认信息需求的特性与范围 。标准二标准二 能有效而又高效地获取所需要的信息。能有效而又高效地获取所需要的信息。标准三标准三 能评判性地评价信息及其来源,并能把所能评判性地评价信息及其来源,并能把所 筛选出的信息融入自己的知识基础筛选出的信息融入自己的知识基础 。标准四标准四 能有效地利用信息去完成一个具体任务。能有效地利用信息去完成一个具体任务。标准五标准五 了解利用信息过程中所涉及的经济、法律
14、了解利用信息过程中所涉及的经济、法律 和社会问题,合理、合法地检索、搜集和和社会问题,合理、合法地检索、搜集和 利用信息。利用信息。(四)信息检索(四)信息检索信息检索:是从任何信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。广义的信息检索包括信息的存储和信息的检索,所以又称为“信息存储与检索”。信息检索按存储和检索的内容划分:文献信息检索 数据信息检索 事实信息检索 (1)文献信息检索 文献信息检索是以文献为检索对象,将存储于数据库中的关于某一主题文献查找出来的检索。它通常以原始文献的出处为检索目的,通过对目录、索引、文摘等二次文献的检索,向用户提供有关原一次文献的信息。(2
15、)数据信息检索 是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查出可回答某一问题的数据的检索。这些数值型数据各种各样,包括物理性能常数、统计数据、人口数据、国民生产总值、气象数据等。(3)事实信息检索 事实信息检索是将存储于事实数据库中的关于某一事件发生的时间、地点、过程等情况查找出来的检索。一般先从系统中检索出所需信息后,加以逻辑推理得出结论。例如,HIS数据库包括大量医院管理中有关人员、工资、病床周转率、药房销售统计等信息,这类信息主要是用于管理决策。事实信息检索比数据信息复杂。(五)信息检索系统(五)信息检索系统 信息检索系统是为了信息检索而建立的,可以根据某种(或某些)文献特
16、征信息从其中查检出含有特定信息(知识和情报)的文献的文献特征信息逻辑系统,是对巨大的不断增长的文献流进行控制的手段。所谓文献特征信息,是指文献所固有的,可找出某一或某些文献并将其从其他文献中识别出来的特征信息。如文献的题名、著者、出版者和出版年份、发表文献的刊物名称和期号、文献原始编号(如专利号)、文献主题内容等等。将某一文献的各种特征信息加以记载,成为一条文献记录,再将属于一定范围的全部文献记录按一定规则组织起来,就成为一个信息检索系统。(六)信息检索语言(六)信息检索语言(1)自然语言:指文献作者或文摘提要的作者原来使用的语言,即 出现在文献题名、摘要或正文中的语词。自然语言检索不足:(1
17、)不能简单明了而又专指地表达文献及检索课题的主题概念;(2)不能够语词与概念一一对应,不能够排除多词一义、一词 多义和词义含糊现象;例如:艾滋病、爱滋病、aids 获得性免疫缺陷综合症 (3)不能显示出概念之间的关系;(4)不能将概念进行系统排列;(5)不能够在检索时便于将标引用语和检索用语进行相符 性比较。自然语言检索应注意的问题为了弥补自然语言的不足,人们对自然语言的进行人为控制,依据一定的规则对其进行事先规范,于是诞生了人工语言情报检索语言。(2)人工语言情报检索语言:情报检索语言是根据情报检索的需要而创制的人工语言,专门用于各种手工的和计算机化的情报检索系统,表达文献主题概念和检索课题
18、概念。其实质是一系列概括文献情报内容的概念及其相互关系的概念标示系统。情报检索语言可分为分类检索语言、主题检索语言主题检索语言和代码检索语言三大语系。举例:如何运用人工语言如何运用人工语言 在存储文献时,文献标引人员首先要对各种文献进行主题分析,即把它所包含的情报内容分析出来,使之形成若干能代表文献主题的概念,并用情报检索语言的语词(标识)把这些概念标示出来,然后纳入检索系统。在检索文献时,检索人员首先要对检索课题进行主题分析,即把它所涉及的检索范围明确起来,使之形成若干能代表情报需要的概念,并把这些概念转换成情报检索语言的语词,然后从检索系统中查找用该语词标引的文献,从而找到含有所需情报的文
19、献。人工语言的具体表现形式人工语言的具体表现形式医学主题词表医学主题词表什么是医学主题词表什么是医学主题词表主题词又称叙词,在标引和检索中用以表达文献主题的规范化的词或词组。主题词是规范化的检索语言,它对文献中出现的同义词、近义词、多义词以及同一概念的不同书写形式等进行严格的控制和规范,使每个主题词都含义明确,以便准确检索,防止误检、漏检。如:白介素2、白细胞介素2、IL2、IL-2等表达同一概念的不同书写形式规范为“白细胞介素2”。主题词表是对主题词进行规范化处理的依据,也是文献处理者和检索者共同参照的依据。医学主题词表医学主题词表美国医学主题词表(mesh)荷兰医学文摘的主题词表(EMTr
20、ee)中国中医药学主题词表(pubmed)主题词表考察检索效率的常用指标考察检索效率的常用指标 检全率与漏检率检全率与漏检率 检全率与漏检率是可以说是同一问题的两个相对的概念。检全率高则漏检率就低,而漏检率高则检全率就低:如果检全率为65,则漏检率就是35。检全率是情报检索质量的主要标志,因为漏检率高表明重要情报被遗漏的危险性大,所以在情报检索中,总是力求提高检全率,或者说力求降低漏检率。检准率与误检率检准率与误检率 检准率也是文献检索质量的重要标志,因为误检率高表明用于甄别所检出文献是否真正有用的劳动的增加利时间的延误,虽不如遗漏重要文献那样严重,但对检索效率也有重大影响,所以在文献检索中,
21、总是力求提高检准率或者说力求降低误检率。(七七)文献数据库文献数据库文献数据库是指记录各种文献信息的数据库,它是计算机可读的、有组织的相关文献信息的集合。在文献数据库中,文献信息以数字化方式,按一定的数据结构,有组织地存储在计算机中,使计算机能够识别和处理。文献数据库的文献数据库的结构结构v文献数据库一般由记录、字段、文档组成。v 文档在数据库中有顺排文档和倒排文档之分。顺排文档是数据库的主体,又称主文档,它按每条记录的顺序号排列。数据库中得到的检索结果都来自于顺排文档。倒排文档是供检索顺排文档的工具,在一个数据库中可能有若干个倒排文档,如主题词索引、著者索引、刊名索引等,它按索引的字顺排列。
22、检索时,计算机按输入检索词的字顺先从指定的倒排文档(索引)中找到匹配的索引词,然后根据索引词后的记录顺序号到主文档中调出记录。v 记录是构成文献数据库的一个完整的信息单元,每条记录描述了一原始信息的外部特征和内部特征。例如,书目数据库中的一条记录通常代表一篇文献,其他类型数据库中的记录可能是一种治疗方案、一组理化指数。v 字段是组成记录的数据项目。例如,在MEDLINE中一条记录代表一篇书目文献,在这条记录中有题名、著者、来源、文摘、主题词等字段。每个字段都有自己的字段标识符(Field tag),如TI(篇名)、AU(著者)、SO(文献出处)、AB(文摘)、AD(著者所在结构)、AN(记录顺
23、序号)等。将记录细划成字段作用是:帮助识别记录内容,方便检索结果输出时格式的选择,便于进行字段检索。v 文献数据库的类型文献数据库的类型(1)按文献数据库的记录内容划分:书目数据库全文数据库混合数据库(p31页)。(2)按文献数据库的运行方式划分:光盘数据库联机数据库网络数据库几种主要的文献数据库几种主要的文献数据库(1)题录数据库:(论文结构)题录”是指文献的基本信息,也称为目录。包括题名、作者题名、作者、关键词、作者机构、文献来源文献来源、摘要等。题录数据库是用各种索引方法制作的二次文献数据库,又称题录数据库或篇名数据库,以简略的形式向用户提供文献的信息。如:中国生物医学文献服务系统中国生
24、物医学文献服务系统(Sinomed)(Sinomed)、(2)文摘数据库(3)图书馆馆藏目录数据库(联合目录p32)(4)全文数据库(5)光盘数据库(6)多媒体数据库(7)网络数据库文献检索方式文献检索方式手工检索:手工检索:人工查找文献信息的检索方式,检索过程人工查找文献信息的检索方式,检索过程 主要是利用各种印刷型检索工具主要是利用各种印刷型检索工具 。计算机检索:计算机检索:根据信息特定的需求,利用计算机从相根据信息特定的需求,利用计算机从相 关数据库中识别并提取所需要的信息过程关数据库中识别并提取所需要的信息过程 。网络信息检索:网络信息检索:通过互联网上提供的网络信息查询工通过互联网
25、上提供的网络信息查询工 具,从网上获取和享用电子信息服务。具,从网上获取和享用电子信息服务。(八)计算机检索技术(八)计算机检索技术(1 1)计算机检索的基本原理)计算机检索的基本原理当有检索提问式输入计算机时,计算机将提问标识和数据库文档中的特征标识按照一定的运算规则进行比较,如果基本相同,就将该记录存取号保存下来,即为命中信息;如果找不到相同的字符,则检索结果为零。这种匹配是字面上的匹配过程,而不是概念匹配检索提问字符串 数据库中特征标识字符串匹配匹配(2 2)计算机检索特点:计算机检索特点:检索速度快,效益高检索功能强,数量大检索途径多,手段灵活检索范围广服务方式多更新速度快文献套录方便
26、用户使用方便(3 3)计算机检索方法)计算机检索方法1 布尔逻辑检索 2 位置逻辑检索 3 截词检索 4 字段检索 5 范围运算6 精确检索 7 加权检索 1 1 布尔逻辑检索布尔逻辑检索布尔逻辑基本运算形式共有三种:逻辑“与”逻辑“或”逻辑“非”(1)逻辑逻辑“与与”:逻辑“与”一般用AND或“*”号表示。设提问集A和B,如果文献C同时满足A和B中的每一个提问项,则为命中文献,否则为不命中。用数学模型来表示,则C为A和B的交集。如检索“流行性感冒引起咳嗽”,应写成:流行性感冒 and 咳嗽C(2)逻辑逻辑“或或”:逻辑“或”一般用OR或“+”号表示。设提问集A和B,如果文献C满足A或者满足B
27、,即为命中文献,否则为不命中。用数学模型来表示,则C为A和B的并集。如检索“流行性感冒或者咳嗽”,应写成:流行性感冒 or 咳嗽C(3)逻辑逻辑“非非”:逻辑“非”一般用NOT或“-”号表示。设提问集A和B,如果文献C满足A,且不包含B为命中,否则为不命中。逻辑“非”实际上反映了A集合对B集合的差运算。如检索“流行性感冒不带咳嗽”,应写成:流行性感冒 not 咳嗽C布尔运算符的优先级为:-、*、+,使用括号可改变运算顺序。如果含两个或两个以上的逻辑算符,应先算NOT,然后算AND,最后算OR。也可以用()来改变计算次序,因为()里的部分可最先算。例如:(T=大学生*T=信息素养)+T=大学生)
28、*T=检索能力2 2 位置逻辑检索位置逻辑检索 位置逻辑检索,又称邻近检索、相邻度检索。它是基于文献中或文献记录中语词之间的相对次序或位置不同,它们所表达的意思可能不同;相应地,一个检索提问中语词之间的相对次序和位置不同,其表达的检索意图也不一样。因此,可以使用一些特定曲位置逻辑算符来限定检索词之间的位置关系,使检索提问式尽可能表达检索者真正的检索意图,从而既提高检准率,又提高见检全率。(举例p43)3 3 截词检索截词检索 截词检索是指在检索词中保留相同的部分,用截词符号代替可变化的部分。它是为了部分解决由于检索式中对同义词列举不全造成的漏检现象而提出的,相当于用逻辑“或”扩展检索范围。截词
29、符号一般用“?”或“*”等。?代表零或一个字母;*代表两个或两个以上字母举例:Child*可代表child,children,childly,childhoodColo?r可检索出color,colourDra?t可检索出drat,draft,draught截词检索主要用于年代、作者、同根词和单复数词的检索,减少输入负担,节省检索时间和费用,提高检全率。4 4 字段检索字段检索 字段检索是指将检索词的匹配限定在某个或某些特定的字段范围内进行。在检索词前用一个字段符加“=”表示,有的是在检索词后加“in”和一个字段符表示。in 对某一指定数据项进行检索 如:公共卫生事业管理 in TI=用于限定
30、性字段的检索如:LA=ENGLISH5 5 范围运算范围运算=,=如:PY=1997;PY1996;PY=19946 6 精确检索精确检索精确检索又称短语检索,是将一个短语(词组)当做一个独立的运算单元,往往用双引号括起来,进行严格匹配,以提高查准率。7 7 加权检索加权检索加权检索是为了弥补布尔逻辑检索不能揭示检索概念与检索课题相关程度的缺陷而提出来的。其基本思路是,由检索者自行对各检索词设置一个权值,并提出一个阈值,当检索出的提问式的总权值大于或等于阈值时,该文献为命中,否则为不命中。(4)(4)检索提问式:检索提问式:检索式是检索策略的逻辑表达式,是指计算机信息检索中用来表达用户检索提问
31、的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。举例:(题名或关键词=预防)+(题名或关键词=治疗)*(题名或关键词=糖尿病肾病)*(题名或关键词=醛糖还原酶抑制剂)*全部期刊*年=1989-2009检索醛糖还原酶抑制剂预防或治疗糖尿病肾病方面的文献本次作业简答题:简答题:1、按信息的产生次序和加工整理的程度不同,可将信息源划分为四个层次,分别是哪四个层次,并举例?2、按信息的出版类型划分,可将信息源分为十种类型,分别是哪十种类型?3、信息检索按存储和检索的内容划分,分为哪三种?4、在信息的存储和检索中,可采用有自然语言和人工语言,请问哪种检索语言更好,判断其更好的依据是什么?如何采用人工语言?5、什么是主题词?常用的医学主题词表有哪些?6、什么是题录数据库?什么是全文数据库?7、计算机检索的方法有哪些?8、布尔逻辑的基本运算符有哪些?运算优先级如何?9、请举一个例子来说明什么是截词检索?10、举例说明精确检索和模糊检索的区别?提交作业平台
限制150内