信息检索原理与~技术专业考试大纲重点整理.doc
《信息检索原理与~技术专业考试大纲重点整理.doc》由会员分享,可在线阅读,更多相关《信息检索原理与~技术专业考试大纲重点整理.doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、|信息检索原理与技术第 1 章 信息检索概论(1)一次文献信息:是指作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献,如期刊论文、研究报告、学位论文等。(2)二次文献信息:是指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,具有汇集性、工具性、综合性、系统性的特点。(3)三次文献信息:是对一、二次信息综合、分析等深加工的产物,如评论、进展报告、百科全书、期刊书目等。(4)文献:记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。(5)构成文献的要素:构成文献内核的知识信息、负载知识信息的物质载体、记录知识信息的符号和技术。(6)文献的特征:知识性(文献的
2、本质,离开知识信息,文献信息便不复存在) ;传递性(帮助人们克服时间与空间上的障碍,在时空中传递人类已有的知识,使人类的知识得以流传和发展) ;动态性(其所蕴含的知识随着人类社会和科技的发展在不断地、有规律地运动着)(7)信息、知识和文献的联系:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容,它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改变思
3、维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的活动着的知识。(8)文献信息流有序化阶段的三个环节: 替代。描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。从文献信息流的运动角度看, “替代”是文献信息流的流量、流向得到测度并合理调节。 改组。从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。其目的是使一次文献信息更容易被理解和使用。 综合。利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识
4、体系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。文献信息流失一个以研究活动为起点。按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。(9)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的
5、基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。(10)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。(11)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。检索知识包括主题词、分类号、著者、标题、机构、代码等。(12)信息检索的一般原理:P7(13)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子系统、查询子系统、用户与系统交互子系统、匹配子系统)(14)检索工
6、具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。(15)检索系统的功能:报道功能、存储功能、检索功能。(16)信息检索理论:标引理论、检索模型、检索结果的可视化。(17)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。第 2 章 信息检索模型|(1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快
7、捷地组建信息检索模型。(2)信息检索模型的类型:P18(3)布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。(4)布尔逻辑运算符:逻辑与(AND) 、逻辑或(OR) 、逻辑非( NOT)(5)布尔运算的运算次序:P24(6)传统布尔检索模型的优缺点:优点:1)逻辑运算符较少,便于用户学习。2)模式较易构造,可以通过简单的关系来体现检索项的联系。3)可以将复杂的检索过程以简单的检索式表达出来。4)检索提问式较灵活,方便修改。缺点:1)布尔检索中的关键词没有权重区别。2)检索结果分输出没有重要性是排序。3)查全率很难控制。4)布尔检索
8、要求用户具有很高的素质和语义提取能力。(7)向量空间模型:一种基于统计学方法的数学模型。(8)向量空间模型的工作原理:P27(9)向量空间模型的优缺点优点:1)采用自动标引技术与文献提供标引词。2)采用部分匹配策略,使得在算法层面上的基于多值相关性的判断处理得以实现。3)改变了布尔检索只有两种情况 0 和 1 的简单判断,标引词和文献的相关程度可在 0 和 1 之间取值,使标引者和检索者都可以比较灵活地定义标引词与文献的关系深度,改变了布尔检索模型的僵化的缺点。4)由于其相似的程度作为检索的标准,可从量的角度判断命中与否,从而使检索结果更趋合理。5)检索结果可以按照与提问的相关度排序输出,便于
9、用户通过相关反馈技术修正提问,控制检索量。6)布尔模型的逻辑关系依然可以使用,保留了直观性和方便些。7)向量空间模型的灵活性使它有很好的可扩展性和可改进性,为以后的更加完善奠定了基础。缺点:1)检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系。2)由于对于任何一个提问度需要计算全部文献库中的每一篇文献,因此,计算量大,算法复杂性较高。3)由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。4)有很多是假定的,在实际工作中有时会不能解决。(10)扩展布尔检索模型:P31(11)扩展布尔检索模型的工作原理:P32(12)扩展布尔检索模型的优缺点:优点:拥有矢量处理的思想,体现
10、了加权的特点;继续保留布尔检索的直观的操作符,具有很强的描述能力;对于输出结果可以很好的控制和排序;通过调整权重参数的取值,可以灵活选择并得到不同的检索结果;便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系;与传统倒排文档一致,更易接受。缺点:扩展布尔模型由于是集成了两种经典模型的一种改进的“集成化模型” ,所以它不可避免的存在着臃肿、不够自然简洁的缺点,而且不是很普及,目前在信息检索领域使用较少。(13)概率模型:一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。(14)贝叶斯定理:P37(15)概率模型的优缺点:优点:文档可以按照他们相关概率递减的顺序来计
11、算秩,还可以通过反复反馈结果和用户需求,使结果得到很好的调整,相对合理得多。缺点:索引词权值计算方法没有考虑到词频加权因素。沿用了索引词之间相互独立的基本假设。开始时需要猜想把文档分为相关和不相关的两个集合,过程比较烦琐。(16)概率模型在处理实际问题时的困难:初始检索文件阀值比较大,由检索式检索的相关文件数量相对于精确估计的概率而言太小。|(17)古典逻辑模型的特点:1)逻辑模型不是一个经典模型。2)逻辑检索要借助外部信息进行评价。3)逻辑检索对关键词的语境更加重视。4)对信息的联想法控制。5)逻辑检索具有不确定性。6)对多词一义的把握。7)适应信息的不完全性。(18)逻辑模型的优点:逻辑理
12、论具有很强的推理能力,将检索过程逻辑化可以使人们能从新的角度认识检索,并在逻辑化的基础之上建立演绎信息检索系统。在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以憎加或减少检索目标项,从而实现扩检和缩检。同时,通过因入更多的谓词、丰富系统的知识库、允许查询目标语句中包含更多的谓词,演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化程度更高,功能更强,换句话说,基于逻辑模型,我们可以建立智能化的、提供多种检索入口的、便于扩展的信息检索系统、(19)逻辑模型的缺点:在逻辑模型中,信息的重要程度这一特征并不能很成功地被表达出来。基于实质蕴涵的情报检索古典逻
13、辑模型自然也并不能完全表达出文献 d 与信息需求 q 之间的真实联系。它关注的仅是前后件之间在真假方面的逻辑关系,而并不关心前件和后件中所涉及的信息延展性问题。由于查询是依靠推理来获得相关性的文献,因此推理过程越是不确定,获得的相关性文献就越少,而这样的现象在传统的逻辑检索模型中屡有发生。(20)限词检索模型:通过限制检索范围,达到优化检索结果的方法。(21)字段检索:把检索词限定在某个或某些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。第 3 章 自动索引和文档组织1、索引:著录书刊中的题名、语词、主题、人名、地名、事件及其他事物名称,并把它们按照一定的方式编排起来,
14、指明出处是一种检索工具。2、索引的发展历程:人工索引阶段、机辅索引阶段、自动索引阶段3、索引的功能:检索功能、分解功能、梳理功能、聚类功能、追踪功能、导航功能、预测功能4、常见索引的类型:主题索引、著者索引、名称索引、地名索引、题名索引、数字或代码索引、分类索引5、索引的过程:为了方便查询而对信息指定索引款目的过程。包括信息采集、信息标引、建立索引。6、索引建立的步骤:选题,建立主索引文件;对主索引关键词进行抽词倒排,建立目标格式文件;排序与归并。7、信息标引分为受控标引和自然语言标引。受控标引指采用受控语言中的标识表达主题概念的标引方式,主要有分类标引和主题标引;自然语言标引是指采用自然语言
15、语词作为标识来表达主题概念的标引方式。8、分类标引:依据一定的分类语言,对信息资源的内容特征进行分析、判断和选择,赋予分类标识的过程。9、分类标引的要求:准确性、充分性、一致性、适用性。10、分类标引规则:基本标引规则、一般标引规则、特殊标引规则。11、主题标引:对信息内容进行主题分析、确定主题概念,然后按照一定的词汇控制方式,为标引对象赋予恰当的语词标识的过程。12、标引方式:根据文献或信息特点和使用需要确定的标引和揭示主题的形成。包括整体标引、全面标引、对口标引、综合标引和分析标引等。13、标引方法:标题法、元词法、叙词法。14、标引规则:(1)选用标引词的基本规则:正式词标引规则;相对专
16、指标引规则;标引方案优先顺序规则;适度标引规则;一致标引规则(2)叙词组配标引的基本规则:叙词组配必须是概念组配;组配结果要求所表达的概念清楚;叙词组配中要注意次序。15、自然语言标引:是一种采用自然语言作为标识表达主题概念的标引方式。16、汉语语词的切分方法:词典分词法、切分标记的分词法、基于语法语义理解的分词方法、基于神经网络的分词方法。17、自动标引:指利用计算机从各种文献信息中自动提取有关标识的过程。18、层次聚类法:依据一种事先决定的相似性或非相似性度量和类间距离,经过计算建立聚类图,在根据聚类图决定分类结果。|19、文献自动分类:指首先分析被分类对象中的特征,将其与各种类别中对象所
17、具有的共同特征或一定的分类标准、分类参数进行比较,然后将被分类对象划归为特征最相近的一类,并赋予相应的分类好的过程。20、自动分类的基本流程:文本的预处理、文本特征的选取、分类模型的构建等。21、决策树:P8222、顺排文档(主文档):按照某一属性(字段)的字符顺序存入了数据库的全部记录。23、顺排文档的检索:将用户检索表达式与顺排文档中的文献记录依次比较,就可以判断是否有匹配的文献记录。检索可以使顺序检索,也可以使分块检索和折半检索。24、顺排文档组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护。但在查询的时候需要对所有的文档进行扫描以确保没有遗漏,这样就使得检索时间大大延长,检
18、索效率低下。25、倒排文档:将主文档中的可检字段(如主题词、著者)抽出,按某种顺序重新排列起来所形成的一种索引文档。26、倒排文档的建立:索引词选择;对抽出的内容进行排序,便于归并相同内容;对相同内容进行归并,把合并后的内容放入倒排文档的主键字段,统计每一数据的频次作为目长,把每一内容后的记录号顺序放于记录号集合字段。27、倒排文档的更新:P86第 4 章 词汇控制1、词汇控制:通过对词形、词义和词间关系等的控制,达到信息源语言、标引语言和检索语言三者之间的有效沟通,从而实现信息的有效组织以及用户对信息的有效检索和利用。2、词汇控制的原则:正确性、单义性、简明性、兼容性、系统性、稳定性、族性3
19、、词汇控制的内容:(1)词量控制:对词表所收词汇的数量的控制。(2)词量控制的方法:词汇组配、词汇替代、语义分解法、词汇合理选择(3)词类控制:对词表所收词汇的种类的控制。(4)词类控制的方法:确定选词范围、设置停用词表(5)词形控制:根据主题标引和检索的需要对字面形式不同,但含义相同的词汇加以控制使一个主题概念只具有一个语词形式。(6)词形控制的方法:控制语词形体、控制外来语和数字的用法、控制外文的词形、控制词序、控制语词长度。(7)词义控制:对多义词或同形异义词加以控制,使其意义明确,含义单一。(8)词义控制的方法:加限义词、加注释、加定义(9)词间关系控制:对语词之间的等同关系、属分关系
20、和相关关系等加以控制,以形成一个便于揭示词间关系的语义网络。(10)先组度控制:对语词先组程度的控制。(11)句法关系控制:按照事先确定的句法关系,把若干词汇组合起来表示某一特定的论题,以避免产生语义含混的现象。(12)句法控制的方法:P944、词汇控制工具包括分类词表、主题词表、分类主题一体化词表。(1)分类词表:杜威十进分类法 、 国际十进分类法 、 冒号分类法 、 中国图书馆分类法(2)主题词表:医学标题表 、 汉语主题词表(3)分类主题一体化词表:是指分类系统与主题系统实现完全兼容,既能充分发挥各自特有的功能,又能互相配合,发挥最佳的整体效应。5、词表评价体系:P115/6、受控词表的
21、使用:P119第 5 章 自动文摘技术(1)文摘:用浓缩、简明的短文,描述信息载体的主要内容和原始数据,向使用者报道、传递最新信息和信息查询线索的一种工具。(2)自动文献:利用计算机自动地从原始文献中提取文摘。按照文本分析方法的不同,自动文摘分为基于统计分|自动文摘、基于理解的自动文摘、基于结构的自动文摘、基于模板的自动文摘。(3)自动文摘的处理过程:第一步是文本分析,这个阶段是自动文献的基础,主要是寻找最能代表原文内容的成分;第二步是转化过程,通过摘录或概括的方法压缩原文;第三步是重组原文内容,生成文摘。(4)基于统计的自动文摘(摘录型文摘):根据统计学的方法将权重高的句子作为文摘句。不足:
22、摘要内容不完整;摘要内容不简洁;语句不连贯。(5)基于统计的自动文摘一般步骤:待摘文本信息录入;词频信息统计;计算句子权重;选取候选句子;加工生成摘要。(6)基于理解的自动文摘:建立在人工智能、自然语言处理的基础上的,它利用语言学知识对文字进行复杂的语法分析,语义分析和语用分析,获取语言结构,还利用相关学科领域知识进行分析、推理和判断,最后生成文摘。优点:简洁精炼、全面准确、可读性强。不足:语料范围限制;框架的拟定。P136(7)基于理解的自动文摘步骤:待摘文本信息录入;文本分析(语法分析、语义分析、运用分析和信息提取) ;文摘初稿形成。(8)基于结构的自动文摘;:将文本信息视为句子的关联网络
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 原理 技术 专业 考试 大纲 重点 整理
限制150内