信息检索习题汇总及答案.doc
《信息检索习题汇总及答案.doc》由会员分享,可在线阅读,更多相关《信息检索习题汇总及答案.doc(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date信息检索习题汇总及答案填空题一、 填空题1.数据的记载方式主要有 数值型_、文字型、_语音型、_图像型。2.数据与信息的关系可看作是 原料_和_成品_的关系。3.信息分析过程是将数据转换为_信息_的过程。4.信号分为_信息_信号和_人为_信号。5.信息一般表现为_数据_、文本_、_声音、_图像_等形态。6.一般认为,信息由_语义_、_差异_、_传递_、_载体_等要素构
2、成。7.信息的加工按加工对象的不同可分为对_外表_信息的描述,对_整体_信息的描述,如文摘对_内容_信息的描述。8.信息管理的过程包括信息_收集_、信息_传输_、信息加工_、信息储存_。9.信息加工包括_信息形式的变换和_信息内容的处理。10.信息动机的形成原因有_内在的信息需要_和_外在刺激_。11.主题语言包括_标题词_、_单元词_、_叙词_、_关键词_。12.在信息存储的结构中,基本的逻辑结构有_线性结构_、_非线性结构、_树形结构_、网状结构。13.总体上,信息检索系统可分为_数据预处理_、_索引生成_、_查询处理、_检索_。二、名词解释1. 数据:是指记载下来的事实,是客观实体属性的
3、值,它是由原始事实组成的。2信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。3信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。 4检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。5信息检索:可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储
4、起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。狭义的信息检索仅指信息查找过程。6信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。7检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。三、简答题1简述了解用户信息需求的作用 答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。2简述影响信息动机向信息行为转化的主要因素 答:(1)信息动机强度 (2)认知能力 (
5、3)抱负水平3简述信息需要的特点 答:(1)信息需要的广泛性 (2)信息需要的社会性 (3)信息需要的发展性 (4)信息需要的多样性4简述信息检索系统的构成模式 答:(1)信息数据的选择、处理、录入、维护子系统 (2)词表和标引子系统(3) 检索子系统 (4)系统-用户接口子系统8.简述信息检索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。四、论述题1有人说,信息加工是一个体系,你如何理解,请着重从“体系”这个角度加以说明答:(1)加工的方式、方法多种多样。(2)加工的方式、方法相互之间有关联,从不同角度对信息进行加工的。(3)加工过程有其内在联系,构成一个完整的系统。(4
6、)整个加工体系会随着时间的变化,信息数量的变化,载体的变化和技术的变化而不断变化和完善。(5)信息的加工按其加工对象的不同可分为对外表信息的描述与加工,对整体信息的描述与加工,还有对内容信息的描述与加工。2.请探讨一下信息加工的层次性根据信息加工特点,信息加工分为6个层次:外表信息的加工是描述性的,给用户提供的是信息的线索;整体信息的加工是概述性的,给用户提供的是信息的内容特点;内容信息的加工要深入信息内部,对有用的信息给予揭示标引,使读者利用信息有据可查;精粹信息的加工是通过比较鉴别的方法,选取价值高的整体或局部信息,给用户直接提供信息的精华,满足用户对实质性信息的要求;深度信息的加工是研究
7、性和评价性的,解决信息的优劣和有关信息的有效组合问题,给用户以启迪和决策依据;相关信息的加工是信息的外延和扩展,使有关信息根据一定关系进行链接,给用户检索和直接利用的方便。* 二 *一、填空题1. 数据库的定义功能主要是对数据库的结构进行描述,这些定义都保存数据字典 中。2. 数据库系统提供了两种机制来支持完整性约束:第一种是完整性 定义机制,第二种是完整性_验证约束机制_。3. 数据库的三级模式是指_外模式_、_内模式_、_模式_。4. 对文献数据库而言,加工深度表现为_题录_、_文摘_、_全文 三个层次。5. 标引工作可分为_人工标引_、_计算机辅助标引_、_自动标引 三种方式。6. 信息
8、检索过程实际上是将检索提问式与文献记录标引词进行_对比匹配_的过程。7. 为提高检索效率,计算机检索系统从_概念相关性_、_位置相关性_等方面对检索提问实行技术处理。8. 用向量模型计算机向量时,一般采用向量的_夹角余弦_来表示。9. 通常,智能信息检索系统由_知识库_、_文本处理_、_智能接口_三部分组成。二、 名词解释1数据模型:是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。2著录:就是对信息外部特征进行分析、选择与记录的过程。3标引:就是指对信息内容特征进行分析,赋予信息以检索标识的过程。4词位检索:是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又
9、称全文检索、邻近检索。三、 简答题1什么是倒排文档?为什么要使用倒排文档? 答:倒排文档是将主文档中的可检字段抽出,按某种顺序重新排列起来所形成的一种文档。 按表达文献内容特征的主题词排列的文档称为基本索引文档;按表达文献外部特征排列的文档称为辅助索引文档。在实施检索时,必须和顺排文档配合使用。倒排文档类似于检索工具中的辅助索引。2简述布尔模型及其优缺点 答:布尔模型是最简单的信息检索模型。这种模型的理论基础是集合论。布尔模型最大的优点是理论简单、使用方便。缺点是:(1)它只能给出精确匹配的结果;(2)检索结果有可能因查询词在大量文档中出现而数量太多;(3)由于找不到与查询词完全匹配的文档而使
10、结果太少。3简述向量空间模型及其优点 答:向量空间模型是一种简便、高效的文本表示模型,其理论基础是代数学。向量空间模型最主要的优点在于:(1)该模型的权重计算方法能够提高系统的检索性能;(2)模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档;(3)在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。另外,向量空间模型计算简单,检索速度快。4简述“网播”的信息推送方式 答:(1)频道式推送 (2)邮件式推送 (3)网页式推送 (4)专用式推送5简述智能信息检索的系统结构 答:智能信息检索系统是由知识库、文本处理和智能接口三部分组成。6简述智能信息检索的主要方法 答:
11、(1)统计方法 (2)文本分析方法 (3)人工智能方法 (4)语料库方法7. 有哪些种类的加权检索?各有哪些特征?加权检索把量化思想引入定性检索之中,是改善和提高检索效果的一种重要手段。分标引加权和检索加权;检索加权是指检索者在给出检索词的同时,并为每个检索词赋予权值,以区分每个检索词在检索中的重要程度。通过加权,明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序 词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和,依据命中记录权和数从大到小排列,最后由阈值控制输出命中结果。与检索词加权检索不同的是,词的权值是由数据库记录中的词频决定,不是
12、由检索者指定,不需人工干预,减轻了检索者的负担。词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加权将失去意义。简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录每个检索词权值之和来决定该记录是否为命中记录。相对词频加权检索:是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。标引加权检索是指在对文献进行标引时,根据每个标引词在文献中的重要程度不同,为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。四、 论述题1. 扩展的检索技术很多,请从提高可是查准率和查全率两个角度探讨一下扩展的检索技术。
13、循此思路。你还有什么新的解决方法?2. 如何理解布尔逻辑表达式的逆波兰转换?3. 请用实例说明信息推送的实际应用* 四 *一、 填空题1. 全文检索主要研究对整个文档信息的_表示_、_存储_、_组织_、_访问_。2. 全文检索的中心环节是_文件内容表达_、_信息查询的获得_、_相关信息的匹配_。3. 按检索对象来区分,全文检索可分为_基于文本_和_基于Web _两种类型;根据索引库中索引元素的不同,全文检索可分为_基于字表_的全文检索和_基于词表_的全文检索。4. 基于理解的分词系统通常包括_分词子系统_、_句法语义子系统_、_总控部分_等三个部分5. 自动标引又分为_自动主题标引_、_自动分
14、类标引_。6. 自动标引的方法主要有_统计标引法_、概率标引法_、_句法分析法_、_语义分析法、_人工智能法_。7. 一个自动标引系统通常包括文本输入_、_词典_、_抽词_、_知识库_、_综合与转换_、_输出_等六个子系统。8. 文本有_词频_、_标题_、_位置、_句法结构_、_线索词_、_指示性短语 等新课程形式特征,这些特征是自动摘录的依据。9. 汉字全文检索系统主要包括两方面的核心技术,一是如何建立和维护全文检索的_索引数据库_,二是如何提供快速有效的_检索机制_。10. 索引数据库一般由一个变长的_主文件_和一个在索引文件控制下的_倒排文件_组成。11. 全文检索索引数据库的生成包括_
15、数据准备_、_文本预处理_、_数据加载 三个步骤。二、 名词解释1. 全文检索 自动标引 主题词标引 自动文摘三、 简答题1. 简述全文检索的优缺点2. 简述基于字符串匹配分词方法的一般模型3. 简述单汉字标引法及其优缺点4. 简述主题词标引的基本思路5. 简述主题词标引的实现6. 简述自动标引的基本流程7. 简述词索引的全文检索系统的索引算法8. 简述全文检索系统的系统结构9. 简述自动标引的基本方法10. 简述汉语自动标引的方法11. 简述自动标引的系统构成四、 论述题1. 针对全文检索存在的问题,你准备采取什么方式进行解决?2. 根据简单匹配全文检索算法,画出其流程图3. 请简要论述一下
16、全文检索算法的发展轨迹4. 请谈一下你对几种分词方法的看法。* 五 *一、 填空题1. 搜索引擎的工作过程可以看作三步,_从互联网上抓取网页_、_建立索引数据库、_在索引数据库中搜索排序_2. 目前,Internet上的搜索引擎大致可分为_目录式_、_机器人_、_元_3. 搜索引擎一般由_搜索器_、_索引器_、_检索器_、_用户接口_四个部分组成4. 搜索引擎中主要有_页面数据_、_索引数据_、_ URL数据_等三类典型的数据5. Robot的主要瓶颈是_域名服务器(DNS)的查找6. Robot技术中最关键的一部分是_站点爬行7. 在站点爬行过程中必须要解决_消除重复_、_辨别类型_、_限制
17、范围_、_限制深度_8. Robot使用_深度优先_、_广度优先_两种基本的搜索策略9. 对于网页内容的提取,网络蜘蛛系统一般采用_插件_的形式10. 文本预处理中,词法分析的过程是将_字符串_转换成_词条_的过程11. 在信息获取系统中,词典是用来根据词汇找到对应词汇信息的_数据汇编 12. 倒排文件机制是一种面向_单词_的机制13. 倒排文件结构由_词汇_和_词汇出现情况_两部分组成14. 一个搜索引擎的有效性在很大程度上取决于_索引_的质量15. 索引数据库建立的策略在很大程度上影响搜索引擎的_效率_与_准确性_16. 垂直搜索技术主要分为_模板级_、_网页库级_两个层次17. 垂直搜索
18、引擎的技术评估是从_全面性_、_更新性_、_准确性_、_功能性_等几个方面来进行的18. 目前,智能化搜索引擎在形式上采用了“_以网对网_”的二级映射模式来代替传统的_一级映射模式_19. 智能化搜索引擎中,词典维护工具有_词典生成工具_、_词典导出工具_、_词典连接工具20. Innernet网就是_语意分析器、_词典维护工具_、_关键词分析_三个部分组成的有机整体二、 名词解释1. 搜索引擎 垂直搜索 Innernet网三、 简答题1. 简述搜索引擎的特点2. 简述搜索引擎四个组成部分的功能3. Robot程序设计时需要考虑的问题是什么4. 简述网络蜘蛛的工作过程5. 简述文本预处理的步骤
19、6. 简述检索器的功能7. 倒排文件如何搜索8. 简述PageRank算法的计算公式9. 简述垂直搜索的特点10. 简述模板级垂直搜索和网页库级垂直搜索的优缺点11. 简述个性化搜索中用户兴趣信息存放的解决方案12. 简述智能化搜索引擎的特征13. 简述垂直搜索的内容来源14. 简述垂直搜索所需要的技术15. 搜索引擎所使用的信息检索模型有那些?各有什么特点?16. 简述建立搜索引擎的关键技术17. 搜索引擎如何对网页的内容进行提取四、 论述题1. 请尝试着比较一下搜索引擎与全文检索2. 请评价一下收费排名3. 如何看待垂直搜索的信息采集策略4. 你如何看待传统搜索引擎技术的不足?你准备如何解
20、决?* 六 *一、 填空题1.多媒体内容的处理包括_内容获取_、_内容描述_、_内容操纵_三个步骤2.视频可用_场景_、_镜头 、_帧_来描述3.在基于内容的视频检索中,检索的基本单元是_镜头_4.基于内容的视频检索的关键技术是_视频分割_、_代表帧_、_动态特征提取_5.镜头之间的转换方式主要有_突变_和_渐变_6.音频检索主要采用_示例查询_二、 名词解释1.基于内容的图像检索三、 简答题1. 简述基于内容检索的特点2. 简述基于内容检索的过程3. 简述基于内容检索的系统结构4. 简述基于内容检索的关键技术5. 简述基于内容检索的评价标准6. 简述基于特征的图像检索过程* 七 *一、 填空
21、题1.信息分析与预测的基本方法分为三类:_逻辑学方法_、_数量分析方法_、_系统科学方法 2.竞争情报是经过筛选、提炼和分析过的,可据此采取行动的有关_竞争对手_和_竞争情况_的信息集合。3.竞争情报的来源分为_公共领域_信息和_非公共领域 信息。4.一般认为,竞争情报的实施分为_情报规划_、收集数据 、分析情报 和_传播 等几个步骤。5.数据挖掘所得到的信息应具有_未知_、_有效_、_可实用_三个特征6.数据挖掘系统是从被挖掘的数据中形成特定知识表示过程的实现机制,因此它与被挖掘的_数据组织形式_和所采用的_知识表示_及_推理方式_有关。7.按挖掘的对象不同,网络信息挖掘可分为_ Web内容
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 习题 汇总 答案
限制150内