信息检索预习复习预习资料.doc
《信息检索预习复习预习资料.doc》由会员分享,可在线阅读,更多相关《信息检索预习复习预习资料.doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-_科学信息检索与应用科学信息检索与应用 第一章第一章 绪论绪论 1.1.情报检索与科学研究关系情报检索与科学研究关系2 2.个体研究阶段个体研究阶段, ,世界上最早出现的手工检索工具:世界上最早出现的手工检索工具: 答答:1821 年瑞士出版的物理科学进展年报 1830 年德国创办的文摘杂志药学总览 3 3.社会化阶段,研制大型检索工具:社会化阶段,研制大型检索工具: 答答:美国 1884 年创办了工程索引 (EI) 美国 1907 年创办了化学文摘 (CA)美国 1926 年创办了生物学文摘 (BA)英国 1896 年创办了科学文摘 (SA) 4 4.自动化阶段,产生新的检索理论:自动化阶
2、段,产生新的检索理论: 答答:1951 年 Taube,M 提出:单元词组配法 1958 年 Citron,J 提出:轮排索引 1958 年 Luhn,H 提出:定题服务(SDI) 二战期间案例: 曼哈顿工程 - 阿波罗计划 5 5.科技文献概念科技文献概念 答答:记录在载体上的科技知识,包括科技事实、数据、理论方法、构思和假设 等。 (文献/科技文献) 6 6.文献信息源,按文献载体形式划分:文献信息源,按文献载体形式划分: 答答:印刷型文献:指印刷术发明之后,以纸张为存储载体,通过油印、铅印、 胶印、静电复印等手段,将文字固化在纸张上所形成的文献。 缩微型文献:又称为缩微复制品文献,它是以
3、感光材料为载体,以印刷型 文献为母本,采用光学摄影技术,将文献的体积浓缩而固化到载体上。 机读型文献:机读型文献的全称为计算机阅读型,是以磁性材料为存储载 体,以穿孔、打字或光学字符识别装置为记录手段而形成的文献。 声像型文献:又称为视听型文献,它是以磁性材料或感光材料为载体,借 助特定的机械设备直接记录声音信息和图像信息所形成的文献。 7.7.文献信息源,按文献的出版形式划分:文献信息源,按文献的出版形式划分: 答:科技图书(Science and Technical Book) -_科学期刊(Science and Technical Journal) 科技报告(科技报告(ScienceS
4、cience andand TechnicalTechnical ReportReport) 专利文献(专利文献(PatentPatent DocumentDocument) 会议文献(Conference Paper)学位论文(学位论文(DegreeDegree ThesisThesis)标准文献(Standard Literature) 政府出版物(Government Document) 产品样本(Product Stylebook ) 技术档案(Technical Files) 8 8. 文献信息源,按文献的产生、加工、用途划分为:文献信息源,按文献的产生、加工、用途划分为: 答:答:
5、一次文献,又称原始文献。以本人的研究成果为基本素材创作而成的文献。二次文献,将分散的一次文献进行选择、加工、整理之后所得到的产物, 是为了便于管理和利用一次文献而编制的检索工具。 三次文献,利用二次文献查阅大量一次文献,并将其进行综合、分析、研 究而编写出来的文献。 9.9.文献寿命缩短文献寿命缩短 半衰期:贝纳尔(Bernal,J.D)提出半衰期:某学科现时尚在利用的全部文献 中较新的一半,是在多长一段时间内(X 年)发表的。经过 X 年,某学科领域 其一半文献的利用价值已逐渐衰减。 例如:生物科学文献的半衰期是 3 年,也就是说,现时仍在利用的生物科学 文献的 50%,其出版年龄不超过 3
6、 年。换句话说,上述生物学文献的半衰期 (一半老化的时间)是 3 年。 表 1. 各类科技文献使用寿命 文献类型文献类型使用寿命使用寿命文献类型文献类型使用寿命使用寿命科技图书科技图书 10-2010-20 年年 科技期刊科技期刊3-53-5 年年 科技报告科技报告 1010 年年 标准文献标准文献 5 5 年年 学位论文学位论文 5-75-7 年年 产品样本产品样本 3-53-5 年年 平均使用寿命为 5-6 年 表 2. 不同学科文献半衰期 学科学科半衰期半衰期学科学科半衰期半衰期学科学科半衰期半衰期数数 学学10.510.5地理学地理学16.016.0生物、医学生物、医学3.03.0物理
7、学物理学4.64.6化化 工工4.84.8生理学生理学7.27.2化化 学学8.18.1冶金工程冶金工程3.93.9植物学植物学10.010.0天文学天文学4.74.7机械工程机械工程5.25.2农林科学农林科学5.95.9-_地质学地质学11.811.8工程技术工程技术3.23.2社会科学社会科学5.05.010.10.情报检索(情报检索(InformationInformation RetrievalRetrieval)是指将信息按一定的方式组织存储起 来,并根据信息用户的需要找出相关信息的过程。 1111.主题检索语言:主题检索语言: 答:主题词:能表达文献的实质内容,经过规范化处理的名
8、词术语。 如,中国汉语主题词表 、 医学主题词表 、 农业、生物科学主题词表 关键词:能表达文献主要内容的词汇或术语,未经过规范化处理。 1212.评价指标评价指标 答:英国情报学家克莱弗登(Cranfield)在分析用户基本要求的基础上,提出 了 6 项系统性能的指标,它们是:收录范围、查全率、查准率、响应时间、用 户负担和输出形式,其中查全率和查准率是两个最常用的重要指标。 查全率(查全率(RecallRecall ratioratio) :指检出的相关文献量(a)与检索系统中相关文 献总量(ac)的比率。例如:某课题检出相关文献 49 篇,而该检索工具中与课题相关的文献总量 有 70 篇
9、,那么,此次检索的查全率为 70%。%100caaR%1007049R%70R查准率(查准率(PrecisionPrecision ratioratio):指检出的相关文献量(a)与检出的文献总量 (ab)的比率。例如:某课题检出文献总量为 60 篇,经筛选只有 30 篇与课题相关,那么 此次检索的查准率为 50%。%100baap%1006030P%50P13.13.效果评价效果评价 答:表 3. 各种因素对查全和查准率的影响: 影影 响响 因因 素素漏检率漏检率误检率误检率数据库标引不全、漏标、误标数据库标引不全、漏标、误标29.8%29.8%11.5%11.5%检索语言专指词不足、词间关
10、系层次错误检索语言专指词不足、词间关系层次错误10.2%10.2%35.7%35.7%检索式用词不当,组配错误检索式用词不当,组配错误29.9%29.9%26.9%26.9%程序功能欠缺,设备局限程序功能欠缺,设备局限25.0%25.0%16.6%16.6%其他因素其他因素5.1%5.1%9.3%9.3%本章思考题 1. 试述情报检索与科学研究二者间的关系。(材料第一题) 2. 在个体研究阶段,最早出现的手工检索工具有哪些?(材料第二题) 3. 19 世纪末-20 世纪初,研制并产生了哪些大型检索工具?(材料第三题) 4. 二战以后,产生了哪些新的检索理论?(材料第四题) 第二章第二章 计算机
11、检索方法与制定检索策略计算机检索方法与制定检索策略-_1.1.布尔逻辑算符检索法布尔逻辑算符检索法 答:是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简 单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把 一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式, 用以表达用户的检索要求。逻辑运算符有三种:与、或、非逻辑运算符有三种:与、或、非 逻辑与(逻辑与(andand 或或 * *)是一种用于交叉概念和限定关系的组配。它可以缩小减缩 范围,有利于提高查准率。 例如:insulin and diabetes 凡是用 and 的检索式,and 两
12、侧的检索词必须同时出现在同一条记录中, 该记录才算命中。逻辑或(逻辑或(oror 或或 + +)是一种用于并列关系的组配。它可以扩大检索范围,防止漏 检,有利于提高查全率。 例如:cancer or tumor 凡是用 or 的检索式,or 两侧的检索词只要有一个在一条记录中出现,该 记录就算命中。 逻辑非(逻辑非(notnot 或或 - -)是一种排斥关系的组配。用来从原来的检索范围中排除不 需要的概念,有利于提高查准率。 例如:solar energy not nuclear 凡是用 not 的检索式,not 前面的检索词必须在记录中出现而后面的检索 词一定不能出现,该记录才算命中。 2.
13、2.三个提示三个提示 提示 1:在使用“逻辑非”进行组配时特别注意,否则会出现漏检。如上例 是查找有关太阳能并排除核能方面的文献,结果查到一篇有关一种替代核能燃 料方面的文献。 提示 2:在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻 辑检索式。复合逻辑检索式中,运算优先级别从高至低依次是 not、and、with、or,可以使用括号改变运算次序。 如(A or B)and C , 先运算(A or B) ,再运算 and C 。 提示 3:在检索过程中,应根据课题的具体要求,选用不同的逻辑算符进行-_组配,通过改变检索项的逻辑组配关系,可扩大或缩小检索范围。 如,检索有关“汽轮机
14、叶片制造”方面的文献A-汽轮机 B-叶片 C-制造 检索式:A and B and C;A and B;B and C 3.3.位置算符检索法位置算符检索法 又称邻接算符(adjacent operators) ,适用于两个检索词以指定间隔距离或 者指定的顺序出现的场合。跟 and 运算符类似,但比 and 运算符功能更具体。 例如:查找“细菌对染料破坏”方面的文献常用位置运算符有(w) (n) (s) (f) (1) (W) (词间位置算符,含义为 With) 词序不能颠倒,两词之间不允许插入其它词,但允许有空格。 例如:Economy(W)Mathematics 4.4.截词(截词(Tru
15、ncationTruncation)检索法)检索法截词有多种用途: (1)词尾截断可得到该单词所提及的所有词语(单数和复数)(2)词间切断或通配符:可找到该单词的所有变化形式或不同拼法。 ? = 一个字符* = 一个或多个字符 例如: 检索单复数和不同拼法等词语注意:截词检索时,不可截的太短,否则会检出无关概念。如,Com* 5.5.检索限定检索限定字段限定包括 TI、AB、DE、 AU;时间范围限定 PY; 分类限定 CC;语种限 定 LA;文献类型 DT 等字段限定也是调整检索策略的一种重要手段。多数检索系统对不指定字段的 检索词通常在所有字段(all field)中进行检索。如果想指定在
16、文献的题目等特定字段中检索,就需要使用字段限制。字段限 制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出 篇数,提高检索的查准率。 例如:Tea and Breeding /TIAU = Zhou,G Z 6.6.布尔逻辑检索式编写布尔逻辑检索式编写(1)逻辑运算符使用方法布尔逻辑检索式是检索策略的逻辑表达式,其表达形式实际上是上述各步 骤结果的综合体现,即使用合适的逻辑算符和位置算符,将各检索词进行组配,-_使之确切地表达课题的主题概念,符合检索的需求。 例例 1 1:查找分别单独论述微型汽车发动机和摩托车发动机的文献,并要求排除 那些同时论述这二个主题的文献” 。A-微
17、型汽车 B-摩托车 C-发动机 检索式:(A and C or B and C)not(A and B and C) (A and C or B and C)not(A and B )例例 2 2:查找论述太阳能或者风能的文献,但不要其中又论及水能的文献。 A-太 阳能 B-风能 C-水能 检索式:( A or B )not C 例例 3 3:电视中暴力行为对儿童的影响。 A-电视 B-暴力行为 C-儿童。 检索式:A and B and C 例例 4 4:检索有关利用杀虫剂控制蚜虫方面的文献。A-insecticde B-aphidesC-control 检索式:A and B and C
18、A and B 提问:哪个是最佳检索式? 例例 5 5: 查找三氧化二砷与空气污染方面的文献。A-三氧化二砷(As) B-空气 C-污染 检索式: (Arsenic trioxide or As)and air and pollutionArsenic trioxide or As and air pollution Arsenic trioxide or As 提问:在上述三个检索式中,哪个为最佳或最合理检索式?为什么? 7.7.编写逻辑检索式一般原则编写逻辑检索式一般原则 答:用 and 连接检索词,将出现频率不高的词放在 and 的左边。 用 or 连接检索词,将出现频率高的词放在 or
19、 的左边。 当用 and 和 or 两种算符,并且连续使用多个 or 算符,or 应放在 and 的左 边(or 部分用括号) 。 8.8.鲍纳鲍纳查尔斯(查尔斯(C.C. BourneBourne)检索策略)检索策略-_答:最专指面优先策略(下位类 或同类) 积木型概念组策略(OR AND) 引文珠型增长策略(单篇文献 多篇文献) 逐次分馏策略(上位类 下位类)见示例: 最专指面优先策略(提高查准率)最专指面优先策略(提高查准率) 例如:果蔬农药残留量的检测与分析 (水果 or 蔬菜) and 农药残留量 and 检测 and 分析(2) (水果 or 蔬菜) and 农药?(4110) (
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 预习 复习 资料
限制150内