情报检索的原理与技术精.ppt
《情报检索的原理与技术精.ppt》由会员分享,可在线阅读,更多相关《情报检索的原理与技术精.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报检索的原理与技术第1页,本讲稿共50页日本经济发展的启示日本经济发展的启示日本人均国民生产总值日本人均国民生产总值:19451945年只有年只有2020美元,美元,19551955年为年为200200美元,美元,19651965年为年为10001000美元,美元,19801980年为年为1000010000美元,美元,19821982年为年为1200012000美元,美元,19891989年为年为1610016100美元,美元,19911991年为年为2732627326美元(当年美国是美元(当年美国是2255022550美元)且仅次于瑞美元)且仅次于瑞士(士(3510035100美元),
2、美元),19941994年为年为3463034630美元,居世界银行评出的十大富国的第美元,居世界银行评出的十大富国的第三位(十大富国:卢森堡、瑞士、日本、丹麦、挪威、三位(十大富国:卢森堡、瑞士、日本、丹麦、挪威、美国、德国、奥地利、冰岛、瑞典)。美国、德国、奥地利、冰岛、瑞典)。数据来源:数据来源:远东经济评论远东经济评论(Economic Review of Far EastEconomic Review of Far East)第2页,本讲稿共50页 日本是第二次世界大战战败国,而且地处孤岛,日本是第二次世界大战战败国,而且地处孤岛,资源缺乏,但它只花了资源缺乏,但它只花了2020年的
3、时间就令全国经济获得年的时间就令全国经济获得飞速发展,原因何在?飞速发展,原因何在?最重要的一条就是每个国民及整个国家都竭尽最重要的一条就是每个国民及整个国家都竭尽全力地追求信息,走一条全力地追求信息,走一条“引进、消化、综合、创引进、消化、综合、创新、返销、赚钱新、返销、赚钱”的富国之路。的富国之路。第3页,本讲稿共50页 资料显示,资料显示,19521952年日本出口总额只年日本出口总额只有有8 8亿美元亿美元,由于它在,由于它在战后花了战后花了2020年时间和年时间和5757亿美元亿美元购买外国的购买外国的情报和专利,大大促情报和专利,大大促进了经济的发展,到进了经济的发展,到19901
4、990年,日本的出口年,日本的出口总额竟达到总额竟达到28602860亿美亿美元元,19951995年则达到年则达到44004400亿美元亿美元,出口总,出口总额仅次于德国、美国,额仅次于德国、美国,居世界第三位。居世界第三位。日本人收集情报信息日本人收集情报信息的手段多种多样,而且的手段多种多样,而且具有独创性。每年在近具有独创性。每年在近千种科技文献、政府报千种科技文献、政府报告和报刊上获得美国有告和报刊上获得美国有价值的论文约价值的论文约7 7万篇万篇,内,内容几乎涉及所有的科技容几乎涉及所有的科技领域。日本企业在美国领域。日本企业在美国的大学情报站有的大学情报站有上千个上千个,这些情报
5、站多是高薪聘这些情报站多是高薪聘用美国的专家为日本服用美国的专家为日本服务的务的。第4页,本讲稿共50页 国际情报公司国际情报公司(International International Information Company,Information Company,IICIIC)一位人士说,日)一位人士说,日本人收集情报、信息本人收集情报、信息像梭子鱼一样,极其像梭子鱼一样,极其厉害,什么都不放过。厉害,什么都不放过。第5页,本讲稿共50页第一节第一节 情报检索原理情报检索原理第二节第二节 情报检索技术情报检索技术第6页,本讲稿共50页第一节第一节 情报检索原理情报检索原理一情报检索概念一情
6、报检索概念二二.情报检索类型情报检索类型三情报检索语言三情报检索语言四情报检索工具四情报检索工具 第7页,本讲稿共50页 1.1.情报检索情报检索 “检索检索”一词源自英文一词源自英文“Retrieval”,其含义是,其含义是“查找查找”。将大量相关情报按一定的方式和规律组织和存储起将大量相关情报按一定的方式和规律组织和存储起来,形成某种情报集合,并能根据用户特定需求快速高来,形成某种情报集合,并能根据用户特定需求快速高效地查找出所需情报的过程称情报检索。效地查找出所需情报的过程称情报检索。一情报检索概念一情报检索概念第8页,本讲稿共50页总结:总结:从大量的信息情报集合中查找出所需情报的活从
7、大量的信息情报集合中查找出所需情报的活动、过程与方法。动、过程与方法。(狭义(狭义)将情报信息按照一定方式组织、存贮起来,将情报信息按照一定方式组织、存贮起来,并针对用户需求的需要查找出所需情报的过程。并针对用户需求的需要查找出所需情报的过程。(广义)(广义)第9页,本讲稿共50页 2.2.情报检索原理情报检索原理 存存贮贮过过程程:搜搜集集情情报报、筛筛选选加加工工、形形成成检索工具、组成检索系统检索工具、组成检索系统 检检索索过过程程:明明确确需需求求、分分析析课课题题、利利用检索工具、得出检索结果用检索工具、得出检索结果第10页,本讲稿共50页主题分析主题分析文文 献献 情情报内容报内容
8、用用 户户 情情报需求报需求主题概念主题概念主题概念主题概念情情报报检检索索语语言言标识标识标识标识情情报报检检索系统索系统结果结果主题分析主题分析 输入输入检索检索第11页,本讲稿共50页 1 1.根据检索内容分类根据检索内容分类 文献检索文献检索(Document Retrieval)数据检索(数据检索(Data Retrieval)事实检索(事实检索(Fact Retrieval)二二.情报检索类型情报检索类型 第12页,本讲稿共50页 2.2.根据检索手段分类根据检索手段分类 手工检索手工检索 特点是方便、灵活、判别直观,可随特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。
9、不足的是检索速度较时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的慢,漏检现象比较严重,不便于进行复杂概念课题的检索。检索。计算机检索计算机检索 特点是速度快、效率高、查全率较高。特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准率通常不尽如人意。不足之处是成本高、费用大,查准率通常不尽如人意。第13页,本讲稿共50页 1.检索语言的概念检索语言的概念 情报检索语言是根据检索需要而创制的人工语言,情报检索语言是根据检索需要而创制的人工语言,也称检索标识系统。它专门用于各种手工和计算机情也称检索标识系统。它专门用于各种手工和计算机情报检索
10、系统,其实质是表达一系列概括文献内容的概报检索系统,其实质是表达一系列概括文献内容的概念及其相互关系的概念标识系统。念及其相互关系的概念标识系统。三情报检索语言三情报检索语言第14页,本讲稿共50页 2.2.检索语言的类型检索语言的类型 检索语言的种类很多,按其构成原理一般检索语言的种类很多,按其构成原理一般可分为分类语言(又称分类法)、主题语言和可分为分类语言(又称分类法)、主题语言和代码语言三种。代码语言三种。其中分类语言又有体系分类法和组配分类法其中分类语言又有体系分类法和组配分类法的区别,主题语言又有标题词语言、叙词语言和的区别,主题语言又有标题词语言、叙词语言和关键词语言的区别。关键
11、词语言的区别。第15页,本讲稿共50页检索语言检索语言 表达文献情表达文献情报主题概念报主题概念 表达文献情表达文献情报外部特征报外部特征分类语言分类语言 主题语言主题语言 标题词语言标题词语言单元词语言单元词语言 叙词语言叙词语言关键词语言关键词语言书名、刊名、篇名等书名、刊名、篇名等 著者(作者)名称著者(作者)名称号码(如报告号、专利号码(如报告号、专利号、文献序号)号、文献序号)文献类型文献类型 第16页,本讲稿共50页 1.1.检索工具的概念检索工具的概念 检索工具是用以报道、存储和查找文献信息检索工具是用以报道、存储和查找文献信息的一切工具与设备。的一切工具与设备。它以各种类型的原
12、始文献为素材,在广泛收集、它以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成的二次文献。和标引,并按特定规则组织编排而成的二次文献。四情报检索工具四情报检索工具第17页,本讲稿共50页(1 1)按检索手段划分)按检索手段划分 手工检索工具手工检索工具 机械检索工具机械检索工具 计算机检索工具计算机检索工具2.2.检索工具的类型检索工具的类型 (2 2)按载体形态划分)按载体形态划分 书本式检索工具、书本式检索工具、卡片式检索工具、卡片式检索工具、缩微式检索工具、缩微式检索工具、磁性材
13、料检索工具(磁盘、磁性材料检索工具(磁盘、光盘等)光盘等)第18页,本讲稿共50页(4 4)按著录对象和方式)按著录对象和方式划分划分 目录型检索工具目录型检索工具 题录型检索工具题录型检索工具 文摘型检索工具文摘型检索工具 参考型检索工具参考型检索工具 搜索引擎搜索引擎 (3 3)按收录范围划分)按收录范围划分 综合性检索工具综合性检索工具 专业性检索工具专业性检索工具 专题性检索工具专题性检索工具 单一性检索工具单一性检索工具第19页,本讲稿共50页第二节第二节 情报检索技术情报检索技术一一.传统检索技术传统检索技术二二.现代检索技术现代检索技术三三.检索策略检索策略第20页,本讲稿共50
14、页 传传统统意意义义上上的的检检索索技技术术包包括括布布尔尔逻逻辑辑检检索索、位位置置检检索索、截截词词检检索索、限限制制检检索索等等,不不同同的的数数据据库库使使用用该该技技术术的的情情况况各各不不相相同同,具具体使用时应结合实际情况选用。体使用时应结合实际情况选用。一传统检索技术一传统检索技术第21页,本讲稿共50页1.1.布尔逻辑检索(布尔逻辑检索(Boolean Logic Boolean Logic RetrievalRetrieval)通过对一些简单概念检索词的组配,表达一个通过对一些简单概念检索词的组配,表达一个复杂概念。表达概念间的并列关系、相交关系和排复杂概念。表达概念间的并
15、列关系、相交关系和排斥关系,分别是斥关系,分别是逻辑或(逻辑或(oror)、逻辑与()、逻辑与(andand)、逻)、逻辑非(辑非(notnot)。)。第22页,本讲稿共50页 (1 1)逻辑)逻辑“或或”“oror”或或“+”“或或”用于组配具有同义或同组概念的词,如同义词或用于组配具有同义或同组概念的词,如同义词或近义词。用于并列关系,可以扩大检索范围,防止漏检,近义词。用于并列关系,可以扩大检索范围,防止漏检,增加查全率。增加查全率。检索式检索式写作写作 A or BA or B 或或 A+BA+B 表达意义表达意义 数据库中凡有检索词数据库中凡有检索词A A或者或者B B,或同时有,或
16、同时有A A和和B B的记录均为命中记录。的记录均为命中记录。第23页,本讲稿共50页 (2 2)逻辑)逻辑“与与”“andand”、“*”或或“”“与与”用于概念交叉和限定关系的组配。可以缩小用于概念交叉和限定关系的组配。可以缩小检索范围,减少命中文献量,提高查准率。检索范围,减少命中文献量,提高查准率。检索式检索式写作写作 A and BA and B 、A*BA*B 或或A BA B 表达意义表达意义 数据库中同时有检索词数据库中同时有检索词A A和和B B的记录才的记录才为命中记录。为命中记录。第24页,本讲稿共50页 (3 3)逻辑)逻辑“非非”“notnot”或或“”表示排除某些不
17、需要的和影响检索结果的概念,表示排除某些不需要的和影响检索结果的概念,基本作用是缩小检索范围,提高查准率。基本作用是缩小检索范围,提高查准率。检索式检索式写作写作 A not BA not B 或或 A-BA-B 表达意义表达意义 数据库中凡有检索词数据库中凡有检索词A A而不含检索词而不含检索词B B的记的记录才为命中记录。录才为命中记录。第25页,本讲稿共50页注意:注意:布尔逻辑检索算式优先执行顺序通常是布尔逻辑检索算式优先执行顺序通常是NOTNOT、ANDAND、OROR,在有括号的情况下,先执行括号内的运算,在,在有括号的情况下,先执行括号内的运算,在多层括号时,先执行最内层括号的运
18、算。多层括号时,先执行最内层括号的运算。布尔逻辑检索比较容易掌握,但使用不当会布尔逻辑检索比较容易掌握,但使用不当会造成大量误检和漏检,尤其是非运算符的运用造成大量误检和漏检,尤其是非运算符的运用应特别小心。应特别小心。第26页,本讲稿共50页 2.2.位置算符检索位置算符检索 位置检索也叫邻近检索,是用一些特定的位置检索也叫邻近检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间算符(位置算符)来表达检索词与检索词之间的邻近关系,并且可以不依赖主题词表而直接的邻近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。使用自由词进行检索的技术方法。位置关系包括位置关系包括词距
19、(单词间的间隔)和词序(单词距(单词间的间隔)和词序(单词的先后顺序)词的先后顺序)两个方面。两个方面。第27页,本讲稿共50页 (1 1)()(W W)或()或()(W W)算符是)算符是WithWith或或word word 的缩写,的缩写,表示两侧的词必须紧表示两侧的词必须紧密相连,次序不得颠倒,中间不得有其他词或者字母(两密相连,次序不得颠倒,中间不得有其他词或者字母(两个词之间可以有一个空格、或一个标点符号、或一个连接个词之间可以有一个空格、或一个标点符号、或一个连接号)。号)。例如:例如:CDCD()()ROMROM (nWnW)n Word n Word n n为一个数字,表示算
20、符两侧的检索词间允许插入为一个数字,表示算符两侧的检索词间允许插入n n个实词或虚词,顺序不能颠倒。个实词或虚词,顺序不能颠倒。例如:例如:price (2w)inflationprice (2w)inflation 第28页,本讲稿共50页 (2 2)()(N N)(N N)算符是)算符是NearNear的缩写,表示算符两侧的词必须紧的缩写,表示算符两侧的词必须紧密相连,中间不得有其他字符,但词序可以颠倒。密相连,中间不得有其他字符,但词序可以颠倒。(nNnN)nNear nnNear n是一数字,表示在两个检索词之是一数字,表示在两个检索词之间最多可以插入间最多可以插入n n个单词,且词序
21、可以颠倒。个单词,且词序可以颠倒。(3 3)()(F F)FieldField同字段检索,检索词必须同时出同字段检索,检索词必须同时出现在同一字段中。现在同一字段中。(4 4)()(S S)SubfieldSubfield或或sentence sentence,同子字,同子字段或同句检索,参加检索的两个词必须出现在同段或同句检索,参加检索的两个词必须出现在同一个自然句中。一个自然句中。第29页,本讲稿共50页3.3.截词检索截词检索 由于西文的构词特性,在检索中经常会遇到名词由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一意义的词,英、美拼法不一的单复数形式不一致;同一意义的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 情报 检索 原理 技术
限制150内