《计算机医学信息检索演示-精选课件.ppt》由会员分享,可在线阅读,更多相关《计算机医学信息检索演示-精选课件.ppt(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机医学信息检索 一、基 本 原 理下一页精选课件1、计算机检索发展简史 1951 年人们首次利用计算机进行信息检索实验。从1954 年美国海军兵器中心使用IBM701 型电子管计算机建立了世界上第一个计算机检索系统以来,计算机信息检索共经历了五个阶段:上一页 下一页精选课件n 脱机检索阶段(20 世纪50 年代中至 60 年代中)n 联机检索阶段(20 世纪60 年代中至70 年代)n 光盘检索阶段(20 世纪80 年代中期)n 网络检索阶段(20 世纪90 年代)上一页 下一页精选课件2、计算机信息检索系统的构成n 硬件(主机、外围设备、数据处理、数据传送有关的其他设备。)n 软件(系统
2、软件、应用软件)n 数据库(是衡量检索系统规模大小的重要标志)n 通讯线路(电话、数据、卫星通讯网)n 检索终端上一页 下一页精选课件3、数据库的类型与结构(1)类型书目数据库:存储文摘、题录、目录等书目数据的一类数据库,又称为二次文献数据库。数值数据库:为用户提供能够直接使用的数值类信息,无需再追查原文。事实数据库:存储描述人物、机构、事物的等非文献信息源的数据库。全文数据库:存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。上一页 下一页精选课件(2)结构数据库 文档 记录 字段 若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。记录是构成数据库的完整的信息单元,每
3、条记录描述了原始信息的外部特征和内部特征。组成记录的数据项目上一页 下一页精选课件(3)我国常见的生物医学数据库n MEDLINE 数据库n 荷兰医学文摘数据库(EM)n 生物学文摘数据库(BA)n 化学文摘数据库(CA)n 科学引文索引数据库(SCI)上一页 下一页精选课件n 中国生物医学文献数据库(CBMdisc)n 中文生物医学期刊数据库(CMCC)n 中国学术期刊数据库n 万方数据库n 中医药文献数据库上一页 下一页精选课件4、计算机信息检索的检索过程n 检索需求的分析和表达n 检索方法的制定n 检索式的编制n 检索结果的反馈调整n 检索结果的输出上一页 下一页精选课件 检索需求的分析
4、和表达 用户的检索需求大致分为3 类:n 新:及时获得最新的内容,对查全没有过高要求。n 准:要解决研究中的具体问题,要求检出的文献有针对性,对查准要求较高。n 全:要全面了解某一特定领域的发生、发展和现状,是一种回溯性检索,对查全有较高要求。上一页 下一页精选课件 检索方法的制定n 根据课题的学科专业范围、主题内容,选择合适的数据库,确定检索途径。n 对检索需求进行概念分析,根据数据库的词表,把主题内容转换成检索系统采用的检索标识和检索词,并准备若干自由词。上一页 下一页精选课件 计算机检索系统的检索词分为两种:主题词:主要来自于主题词表、叙词表等,是经过规范化的。自由词:来自于文献的篇名、
5、文摘或正文,是一种没有规范化的自然语言。原则上首选主题词检索。上一页 下一页精选课件检索式的编制 常用的运算符:n 布尔逻辑运算符 逻辑“与”文字表示为“and”,符号表示为“*”。检索词A 与检索词B 用and 组配,提问式可写为:A and B 或者 A*B 上一页 下一页精选课件A B表示检索结果中每条记录必须同时含有A 和B 检索词,增强检索的专指性,缩小检索范围,提高了查全率。上一页 下一页精选课件Insulin(胰岛素)and diabetes(糖尿病)上一页 下一页精选课件 逻辑“或”n 文字表示为“or”,用符号表示为“+”。检索词A 与B 用or 组配,提问式可写为:A or
6、 B 或者 A+Bn 表示包含检索词A 的文献或包含检索词B 的文献或同时包含检索词A 和检索词B 的文献均为命中文献,逻辑“或”扩大了检索范围,提高查全率。上一页 下一页精选课件 Cancer(癌)or tumor(瘤)A B上一页 下一页精选课件 逻辑“非”n 用文字表示为“not”,用符号表示为“-”。检索词A 与检索词B 用not 组配,提问式可写为:A not B 或者 A-Bn 表示检索结果中每条记录必须包含检索词A,但不包含检索词B。排除了不希望出现的检索词,缩小了检索范围,提高查准率。上一页 下一页精选课件Hepatitis B virus not human(乙肝病毒)(人类
7、)AB上一页 下一页精选课件在一个检索式中,如果含有两个或两个以上的布尔逻辑运算符,运算符的优先次序是:NOT AND OR上一页 下一页精选课件查找有关肿瘤引起的贫血的非英文文献 neoplasms/complications(并发症)anemia/etiology(病因学)English#1 1687 NEOPLASMS/complications#2 179 ANEMIA/etiology#3 23867 English in LA(LA=English)#4 20(#1 and#2)not#3上一页 下一页精选课件n 截词符 后截断,将截词符号放在一个字符串的右方,以表示其右的有限或无
8、限个字符不影响该字符串的检索。例如:hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism 等。hypertensi?可查到hypertension、hypertensive。涉及到词的单复数、作者、年代、同根词等方面的检索时,选用后截断技术。上一页 下一页精选课件 前截断,将截词符号放在一个字符串的左方,以表示其左的有限或无限个字符不影响该字符串的检索。例如:*sighted,可查到farsighted 与nearsighted。前截断只检索后缀相同的一类词,常用于检索化学化工文
9、献与复合词较多的文献。上一页 下一页精选课件 中截断,将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。例如:wom?n,可查到Woman,Women。defen?e,可查到defense,defence。上一页 下一页精选课件n 限制符 检索系统中,缩小或约束检索结果的方法成为限制检索。常用的有特定字段的限制检索,限制符为“in”和“=”。例如:Hypertension in TI,表示高血压一词在题名字段Title 中出现。限制符还有其他形式:py2000 表示检索2000 年前发表的文献记录。上一页 下一页精选课件n 位置算符 要求原始记录
10、中检索词之间的相互位置满足某些条件时要使用位置算符,常用的位置算符有with、near 等。with 算符 表示此算符两侧的检索词在命中记录中必须出现在同一字段中,即同时出现于篇名或文摘中等,但前后位置可以颠倒。上一页 下一页精选课件n near 算符 表示此算符两侧的检索词的距离最近。A near B 的检索结果是A 与B 必须同时出现在一句话中,无论语序,二者之间最多可相隔n-1 个单词。A near B 表示命中记录中左右两个检索词出现在同一句子中。上一页 下一页精选课件n 检索结果的反馈调整 检索结果主要通过查全率、查准率两个指标来进行评价。查全率:系统进行检索时,检出的相关文献量与系
11、统文献库中相关文献总量的比率。查准率:系统中检出的相关文献量与检出的文献总量的比率。上一页 下一页精选课件 提高查全率的方法:n 降低检索词的专指度,选出一些上位词和相关词补充到检索式中。n 调节检索式的网罗度,减少逻辑“与”的组配面。n 进行族性检索,可采用分类检索,或用一组同义词、近义词和相关词,用“或”连接在检索式中。n 采用截词技术,取消某些限制过严的限制符。上一页 下一页精选课件 提高查准率的方法:n 提高检索词的专指度,换用专指度较强的规范词或自由词。n 增加“与”连接,进一步限定主题概念。n 限定检索词所在的可检字段,用位置算符控制检索词的词间顺序与位置。n 限制输出文献的外部特征,如限制年限、语种、文献类型等。n 用逻辑“非”限制与提问不相关的文献的输出。n 用主题词检索,不用或少用自由词检索。上一页 下一页精选课件n 检索结果的输出 检索结果的输出是整个检索过程的最后一步,用户可以要求检索系统按照一定的格式输出检索结果。输出格式通常有题录、全文或整个网页。上一页返回精选课件
限制150内