《2022年信息检索复习资料借鉴 .pdf》由会员分享,可在线阅读,更多相关《2022年信息检索复习资料借鉴 .pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 第一章1、信息的定义:信息是客观世界中各种事物的变化和特征的最新反映以及经过传递后的再现。2、按信息产生的先后和加工深度划分:一次信息、二次信息、三次信息3、信息的特性:a普遍性、b 存储性、c 传递性、d 共享性、e开发性、f 价值的不定性4、信息组织的理论基础:a关于知识组织的理论、b 系统科学理论、c 耗散结构理论、d 协同论、e突变理论、f 信息字组织理论5、信息组织的方法基础:a语言学、b 逻辑学、c知识分类6、知识的定义:广义知识是指人们通过学习、积累、发现、发明各种知识的总和,包括普通知识和专业知识。狭义知识是指知识经济研究的知识,通常是专业知识7、知识的分类:按载体划分,可
2、将知识分为隐性知识和显性知识8、知识的特性:a智慧性、b 客观性、c 依附性、d 不磨损性、e非遗传性、f 增值性、g共享性9、知识的组织方法(了解):a 知识表示、b 知识聚类、c 知识分类、d 知识重组、e 知识编辑、f知识获取、g知识存检、h 知识布局、i 知识监控10、网络信息资源组织的环境与传统文献管理环境的不同主要表现:a 网络环境下,信息组织工作的对象有了很大变化。b 网络环境下,用户需求发生了很大的变化;c 信息组织的技术环境有了很大的变化;d 网络信息资源,主要是由用户通过终端的屏幕获得(p10)11、搜索引擎的定义:搜索引擎主要指利用自动搜索技术软件,对Internet网络
3、资源进行收集、组织并提供检索服务的的一类信息服务系统。12、元数据搜索引擎的定义:元数据搜索引擎又称集合式搜索引擎,他将多个搜索引擎集成在一起,并提供一个统一的检索界面13、元数据定义及常用的两个标准P19 元数据是关于数据的数据,是用于提供某种资源的相关信息的结构化数据,是对数据进行组织和处理的基础,是传统的书目方法在网络信息组织与管理中的发展。常用的几个个标准:a、MARC(机读目录格式);b、DC(都柏林核心);c、PICS(internet 内容挑选平台);d、CDF(频道定义格式);e、MCF(元数据内容框架);f、RDF(资源描述框架)14、数据库组织方法:是将所有已获得的网络信息
4、资源以固定的记录格式存储,用户通过关键词及其组配查询,就可以找到信息线索,并通过信息线索直接连接相应的网络信息资源15 超维组织方法:是一种基于知识单元的新型信息组织方法,它借助于超文本技术实现16、网络信息资源标记格式的几种标准:a、SGML b、HTML c、XML d、PDF 17、电子图书的定义及两个问题:电子图书又称e-book,它是利用计算机高容量的存储介质来存储图书信息的一种新型图书记载形式。两个问题:数字资源版权问题和电子图书阅读问题18、数字图书馆的定义和基本类型:以统一的标准和规范为基础,以数字化得各种信息为底层,以分布式海量资源库群为支撑,以智能检索技术为手段,以电子商务
5、为管理模式,以宽带高速网络为传输通道,将丰富多彩的多媒体信息传递到千家万户基本类型:a资源服务型;b、服务研究型、c 联合建设型第二章网络信息资源存储1、信息资源存储的意义和作用:意义a、有利于增大信息资源的拥有量;b、有利于集中管理信息资源;c、有利于开发高层次的信息资源;d、有利于充分利用信息资源,提高管理工作的效率作用:a、方便检索;b、延长寿命;c、利于共享;d、方便管理2、信息资源存储的主要类型:a、人脑载体存储;b、语言载体存储;c、文字载体存储;d 书刊载体存储;e、电子载体存储3、信息资源存储的主要技术:纸张印刷存储技术、缩微存储技术、声像存储技术、计算机存储技术、光盘存储技术
6、第三章信息检索基础1、信息检索的实质原理:就是将用户的检索标识与信息集合中存储的信息标识进行比较和选择,名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 4 页 -2 即进行匹配,完全匹配者作为检索结果被系统输出即检索命中,也就是说当查找的思路与存储的思路一致时,信息就会被查找出来,否则就查不出来。2、信息检索的类型(重要):a、按检索的目标分书目检索和事实数据检索;b、按手段不同分为手工检索和计算机检索;c、按检索时间不同分为定题检索和回溯检索。书目检索:以查找某一课题的相关文献为目标的检索,如某一主题某一时期。事实数据检索:以某一特定的事实或数据为目标的检索;如:某一人物的资料
7、。手工检索:是检索者与检索工具直接对话。他依靠检索者手翻、眼看、脑子判断而进行,不需要借助任何的辅助设备,特点:方便、灵活、判别直观、可随时修改、查准率高计算机检索:利用计算机通过各种数据库查找所需信息,检索过程是由人操作计算机完成的,匹配是由计算机进行的定题检索:指根据用户的需要,预先将制定好的检索策略存入检索系统中,定期对检索系统的信息进行查询,把检索结果及时提供给有关用户,可以查出最新相关信息,具有连续性,新颖性回溯检索:根据用户需求,检索系统的信息进行全面的检索,将检索结果一次性提供给用户,具有一次性,广泛性的特点、3 检索语言的定义:是应文献信息的加工、存储和检索的共同需要而发展起来
8、的专门语言,它是表达概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。4、检索语言的类型:a、按语言的结构原理划分为分类语言和主题语言;b、按语言标识的组配方式分为先组式检索语言和后组式检索语言5、信息检索系统的4 个基本要素:a、检索文档;b、技术设备;c、语言工具;d、其他人员检索文档:是标有检索标识的信息集合;技术设备:是能从存储信息及其标识以及实现存储和检索操作的各种技术设备;语言工具:指检索语言、标引规则、输入和输出标准等;其他人员:包括信息加工标识人员、录入人员、检索人员、系统管理维护人员等6 信息检索的类型P64(重要):目录、题录、文摘、索引。目录:是一批相关
9、文献的著录集合,是以报道文献的出版信息为主要功能的工具;题录:是将图书、报刊等文献中论文的篇目按照一定的排检索方法编排而成的,供人们查找篇目出处的工具,按论文的片名顺序排列,具有大、全、快的特点。著录项包括篇名、著者、来源出处。文摘:是以精炼的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具,文摘可以分为指示性、报道性、和评论性 3 中类型;索引:是对一组信息集合的系统化的指引,一般只起指引特定信息内容及其存储地址的作用,7、评价检索系统的标准:检索的方便性、收录的全面性、检索的效率、报道及时性检索的方便性由多方面
10、因素决定,如信息的编排组织是否科学合理,索引系统是否完备、索引深度是否适中,标识的专指度是否足够等。收录的全面性:指它收录的文献信息是否全面,有3 个衡量指标;覆盖面、摘贮率、报道数检索的效率:查全率、查准率2 个衡量指标。查全率指从检索系统检出的有关某课题的文献信息数据与检索系统中实际的该题有关的文献信息总量之比率。查准率是指从检索系统检出的有关某课题文献信息数量与检出的文献信息总量之比率。报道及时性:是指它所报到新出现文献信息的速度一般用时差来衡量,时差指文献信息从其发表到检索系统提供给用户的这段时间间隔8、信息检索的基本程序;a.分析研究课题,明确检索要求b、选择检索工具或检索系统c、确
11、定检索途径和检索策略d、选择检索方法e、索取原始文献(例如专利文献,标准文献和学术论文)9、描述信息检索的基本方法:a 顺差法:指按照时间的顺序由远及近的利用检索进行文献信息检索的方法,特点:漏检率误检率低,但是工作量大b、倒差法:由近及远,从新到旧逆着时间的顺序利用检索工具进行文献信息检索的方法c、抽查法:针对检索课题的特点选择有关该课题的文献信息最可能出现或最多出现的时段利用检索工具进行重点检索的方法d、追溯法:指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献进行逐一的追溯查找“引文”的一种最简单的扩大情况来源的方法e、综合法:又称循环法,把上述方法加以综合运用的方法,既要
12、利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段的交替使用几种方法名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 4 页 -3 10、影响检索效率的因素:检索的语言的功能、检索途径的数量、著录标引的质量、检索策略的优劣、检索人员的素质11、信息检索的基本策略:最专指面优先策略、最少记录面优先策略、积木型概念组面策略、引文珠形增长策略,逐次分馏策略12、扩检时,即提高查全率时,调整检索式的主要方法:选全同意词并以“or”方式与原词连接后加入到检索式中;降低检索词的专指度,从词表或检索文献中选一些上位词或相关词;采用分类号进行检索;删除某个不甚重要的概念组面
13、,减少and运算;取消某些过严的限制符;调整位置算符,13、缩检时即提高查准率时,调整检索式的主要方法:调高检索词的专指度;增加或换用下位词和专指性较强的自由词;增加概念组面用 and连接一些进一步限定主题概念的相关检索项;限制检索词出项的可检字段;利用文献的外表特征限制;用逻辑非not来排除一些无关的检索项;进行加权检索;调整位置算符第四章 网络信息检索1、网络信息资源的定义:是指以数字化形式记录的,以多媒体形式表达的,存贮在网络计算机磁介质、光介质以及各类通信介质上的,并通过计算机网络通信方式进行传递的信息内容的集合。2、因特网上拥有的信息资源类型:联机数据库;联机馆藏目录库;专利信息;网
14、络期刊;网上报纸;教育信息;消闲娱乐性信息。3、网络信息资源的新特点(重要):a、多样化特点b、因特网价值的差异性c、信息分布和构成缺乏结构和组织d、信息发布具有很大的自由性和任意性e、正式出版物和非正式信息交流交织在一起 f、信息交流范围广4、网络信息资源的评价的方法:a、第三方评价法b、用户评价方式c、网络计量法5、计算机信息检索的发展阶段:a、脱机检索阶段b、联机检索阶段c、光盘检索阶段d、网络化检索阶段6、相关网络信息检索技术(重要):(P92)截词检索(前截词,后截词,中间截词)、布尔逻辑检索(and表示扩大检索范围,or 表式缩小检索范围,not表示限定检索范围)7、搜索引擎的原理
15、(由哪几部分组成):P98 8、搜索引擎的使用技巧:P99 9、网络目录的定义和主要方法:网络目录又称分类点目录、专题目录或主题指南、站点导航系统等 它是由专家从茫茫网海中挑选出质量较高的网页,以某种分类法进行组织,并和检索法集成在一起的辅助信息查询方式。10、网络目录分类所使用的主要方法:主题分类法;学科分类法;分面组配法;体系分类法11、用万方数据库检索的一般步骤:C 卷简答8、搜索引擎主要包括哪四个模块:数据的采集和存储;信息索引的建立;检索界面的建立;检索结果的相关性处理9、信息资源存储的主要技术有哪些?答:纸张印刷存储技术;缩微存储技术;声像存储技术;计算机存储技术;光盘存储技术10
16、 网络信息资源有哪些新特点?(具体见P72)答:(1)复杂性和多样性空前增加;(2)11、信息检索有哪几种基本方法?答:(1)顺查法:指按照时间的顺序由远及近的利用检索系统进行文献信息检索的方法,特点:漏检率、误检率低,但是工作量大。(2)倒差法:由近及远,从新到旧逆着时间的顺序利用检索工具进行文献信息检索的方法。(3)抽查法:针对检索课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时段,利用检索工具进行重点检索的方法。名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 4 页 -4(4)追溯法:指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一的追
17、溯查找“引文”的一种最简便的扩大情报来源的方法。(5)综合法:又称循环法,把上述方法加以综合运用的方法,既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段的交替使用几种方法。C 卷论述1、结合平时使用的经验和评价检索的标准具体评价一个常用搜索引擎2 要检索吉林大学的博士生彭涛的题为面向专业搜索引擎的主题爬行技术研究的优秀博士论文,而且知道已可以通过我们学校的镜像数据库获取。回答以下问题:A 我们学校的镜像库中有哪些镜像库提供了硕博士学位论文信息的查找?B 检索时通常提供初级检索、高级检索、专业检索等方式,请简述其不同点?答:初级检索:选定检索项,设定相应的检索条件,但不进行检索条件之间的逻辑匹配,它得到的检索结果数量比较多,但相对高级检索而言不够精确。高级检索:可选择多个检索项,多个检索条件之间的逻辑匹配来进行检索,它得到的检索结果比较精确,但相对简单检索而言数量较少。专业检索:按照自己需求来组合逻辑表达式以便进行更精确检索C 选择一种镜像库分别写出你的初级检索过程、高级检索过程?D 如果想打开或阅读该篇文章,还需做哪些工作?答:下载超星阅读器名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 4 页 -
限制150内