信息检索-试题(共3页).doc

上传人：飞****2

文档编号：7755457

上传时间：2022-03-03

格式：DOC

页数：3

大小：91.50KB

( 4.5 )

《信息检索-试题(共3页).doc》由会员分享，可在线阅读，更多相关《信息检索-试题(共3页).doc（3页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上1内容安全概念模型2 Jaccard系数的缺陷，tf-idf要考虑哪些因素3 产生式与判别式的区别4索引的建立，倒排索引5检索评价指标计算6 极大似然估计，使用加1平滑答案：1. 信息安全的框架包括内容安全（信息利用的安全）、数据安全（信息自身的安全）、运行安全（信息系统的安全）、物理安全（信息系统的安全）。如图所示：内容安全涉及的是对流动的数据进行限制，包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗，即针对信息中的信息熵而进行的隐藏、掩盖，或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、

2、过滤技术、隐藏技术等。2. Jaccard系数的缺陷：（1）不考虑词项频率，即词项在文档中的出现次数；（2）罕见词比高频词的信息量更大，Jaccard系数没有考虑这个信息；（3）没有仔细考虑文档的长度因素。tf-idf要考虑的因素：（1）词项频率，即词t在文档d中出现的次数；（2）文档频率，指出现词项t的文档数。（3）归一化向量3.判别式模型（ discriminative model ）产生式模型（ generative model ）特点寻找不同类别之间的最优分类面，反映的是异类数据之间的差异对后验概率建模，从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度区别 ( 假定输入

3、x,类别标签 y)估计的是条件概率分布 (conditional distribution) : P(y|x)估计的是联合概率分布（ joint probability distribution: P(x, y),联系由产生式模型可以得到判别式模型，但由判别式模型得不到产生式模型。常见模型 logistic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal bel

4、ief networks, Bayesian networks Markov random fields 优点1 ）分类边界更灵活，比使用纯概率方法或产生式模型更高级；2 ）能清晰的分辨出多类或某一类与其他类之间的差异特征；3 ）在聚类、 viewpoint changes, partial occlusion and scale variations 中的效果较好；4 ）适用于较多类别的识别；5 ）判别模型的性能比产生式模型要简单，比较容易学习。1 ）实际上带的信息要比判别模型丰富；2 ）研究单类问题比判别模型灵活性强；3 ）模型可以通过增量学习得到；4 ）能用于数据不完整（ missing

5、 data）情况。缺点1 ）不能反映训练数据本身的特性。能力有限，可以告诉你的是 1 还是 2，但没有办法把整个场景描述出来；2 ） Lack elegance of generative: Priors, 结构 , 不确定性； 3 ） Alternative notions of penalty functions, regularization, 核函数； 4 ）黑盒操作 : 变量间的关系不清楚，不可视。1) Tend to produce a significant number of false positives. This is particularly true for obj

6、ect classes which share a high visual similarity such as horses and cows； 2) 学习和计算过程比较复杂。性能较好（性能比生成模型稍好些，因为利用了训练数据的类别标识信息，缺点是不能反映训练数据本身的特性）较差主要应用Image and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 设有两个文档D1,D2其文本内容分别如下：D1=abfcdgecfcdeagD2=dacfggfcbbaafc

7、对文档D1,D2建立倒排索引，并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询Q=fc如果采用向量u 空间模型检索，请写出检索过程。专心-专注-专业（3）对于查询Q：（, ）文档D1：（, , , , , ）文档D2：（, , , , , ）所以可得到，文档向量为D1： D2: Q：查询文档相似度计算：采用内积计算：文档D1和Q的内积：3*1 + 2*1 = 5；文档D2和Q的内积：3*1 + 3*1 = 6；采用夹角余弦：文档D1和Q的夹角余弦：文档D2和Q的夹角余弦：综上所述，根据两个文档的相似度进行排序，文档D1的相似度高于文档D2，所以文档D1的结果更优，输出结果为D1，D25.6 极大似然就是ppt上的例子

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 信息检索试题

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：信息检索-试题(共3页).doc
链接地址：https://www.taowenge.com/p-7755457.html