欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    信息检索-试题(共3页).doc

    • 资源ID:7755457       资源大小:91.50KB        全文页数:3页
    • 资源格式: DOC        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息检索-试题(共3页).doc

    精选优质文档-倾情为你奉上1内容安全概念模型2 Jaccard系数的缺陷,tf-idf要考虑哪些因素3 产生式与判别式的区别4索引的建立,倒排索引5检索评价指标计算6 极大似然估计,使用加1平滑答案:1. 信息安全的框架包括内容安全(信息利用的安全)、数据安全(信息自身的安全)、运行安全(信息系统的安全)、物理安全(信息系统的安全)。如图所示:内容安全涉及的是对流动的数据进行限制,包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗,即针对信息中的信息熵而进行的隐藏、掩盖,或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。2. Jaccard系数的缺陷:(1)不考虑词项频率,即词项在文档中的出现次数;(2)罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息;(3)没有仔细考虑文档的长度因素。tf-idf要考虑的因素:(1)词项频率,即词t在文档d中出现的次数;(2)文档频率,指出现词项t的文档数。(3)归一化向量3.判别式模型( discriminative model )产生式模型( generative model ) 特点寻找不同类别之间的最优分类面,反映的是异类数据之间的差异对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度区别 ( 假定输入 x,类别标签 y)估计的是条件概率分布 (conditional distribution) : P(y|x)估计的是联合概率分布( joint probability distribution: P(x, y),联系由产生式模型可以得到判别式模型,但由判别式模型得不到产生式模型。 常见模型 logistic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal belief networks, Bayesian networks Markov random fields 优点1 )分类边界更灵活,比使用纯概率方法或产生式模型更高级;2 )能清晰的分辨出多类或某一类与其他类之间的差异特征;3 )在聚类、 viewpoint changes, partial occlusion and scale variations 中的效果较好;4 )适用于较多类别的识别;5 )判别模型的性能比产生式模型要简单,比较容易学习。1 )实际上带的信息要比判别模型丰富;2 )研究单类问题比判别模型灵活性强;3 )模型可以通过增量学习得到;4 )能用于数据不完整( missing data)情况。 缺点1 )不能反映训练数据本身的特性。能力有限,可以告诉你的是 1 还是 2,但没有办法把整个场景描述出来;2 ) Lack elegance of generative: Priors, 结构 , 不确定性; 3 ) Alternative notions of penalty functions, regularization, 核函数; 4 )黑盒操作 : 变量间的关系不清楚,不可视。1) Tend to produce a significant number of false positives. This is particularly true for object classes which share a high visual similarity such as horses and cows; 2) 学习和计算过程比较复杂。 性能较好(性能比生成模型稍好些,因为利用了训练数据的类别标识信息,缺点是不能反映训练数据本身的特性)较差 主要应用Image and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 设有两个文档D1,D2其文本内容分别如下:D1=abfcdgecfcdeagD2=dacfggfcbbaafc对文档D1,D2建立倒排索引,并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询Q=fc如果采用向量u 空间模型检索,请写出检索过程。专心-专注-专业(3)对于查询Q:(<f, 1>, <c, 1>)文档D1:(<a, 2>, <b, 1> <c, 3>, <d, 2>, <e, 2>, <f, 2>, <g, 2>)文档D2:(<a, 3>, <b, 2> <c, 3>, <d, 1>, <e, 0>, <f, 3>, <g, 2>)所以可得到,文档向量为D1: D2: Q:查询文档相似度计算:采用内积计算:文档D1和Q的内积:3*1 + 2*1 = 5;文档D2和Q的内积:3*1 + 3*1 = 6;采用夹角余弦:文档D1和Q的夹角余弦:文档D2和Q的夹角余弦:综上所述,根据两个文档的相似度进行排序,文档D1的相似度高于文档D2,所以文档D1的结果更优,输出结果为D1,D25.6 极大似然就是ppt上的例子

    注意事项

    本文(信息检索-试题(共3页).doc)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开