欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年信息检索检索向量空间模型整理 .pdf

    • 资源ID:30534850       资源大小:91.75KB        全文页数:3页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年信息检索检索向量空间模型整理 .pdf

    信息检索检索向量空间模型一:算法描述在文本挖掘、 搜索引擎应用中 ,文本的特征表示是挖掘工作的基础,它对文本进行预处理 ,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。向量空间模型 (VectorSpaceModel) 是近年来应用较多的文本特征表示方法之一 ,它是由 GerardSlaton等人在 1958 年提出并发展起来的 ,是一个关于文献表示的统计模型 ,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中 ,并且取得了较好的效果 。文献 (document):泛指各种机器可读的记录,可指一篇文章或一个网页,也称为文档。项(term):亦称索引项 ,是用来标引被检索内容的关键词等。项的权重 (termweight):对于有 n 个不同的项的系统 ,文献 D=(t1,t2,tn),项tk(1kn)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项 tk 的权重。相似度( Similarity) :指两个文档内容相关程度的大小。确定权重的方法是运用TF-IDF 公式,即 Wik=tfik/dfk=tfik*idfk, 其中 tf ik 为特征项 Tk在文档 Di 中的出现频率 ,称为项频率 ; dfk 则是文档集 D 中出现特征项 Tk的文档的数量 ,称为文档频率 ; idfk 为 dfk 的倒数,称为反转文档频率。姓名陈严学号2220122685 班级智能科学与技术 1 班名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 相似度是一个函数,它给出两个向量之间的相似程度。常用的方法有:内积(Inner Product)、余弦(Cosine) 。对于二值向量 , 内积是查询式中的词项和文档中的词项相互匹配的数量;对于加权向量 , 内积是查询式和文档中相互匹配的词项的权重乘积之和。余弦相似度计算两个向量的夹角,余弦相似度是利用向量长度对内积进行归一化的结果。二:数据描述建立 10 至 15 个文件,输入文档集,以供检索。三:算法参数文件、项的权重、 tf ik、dfk、idfk、相似度四:实验流程1.输入文档集;2.计算词项的特征权重;3.输入要查询的内容;4.计算余弦相似度;5.根据相似度排序,找出相似的文档。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 3 页 - - - - - - - - - 五:实验结果实验生成 result 文件甲中的 result.txt 文件。六:实验总结向量模型是以假设向量空间的各维之间相互正交(即各关键字之间相互独立)为前提的 ,因而不可避免地存在由此带来的损失关键字间的相关性的缺点,可它把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点 ,可以计算出文档与查询式的相关程度,因而可以很容易地进行输出结果的排序 ,用户相关性反馈机制也很容易实现,尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来,至今都有很强的生命力。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 3 页 - - - - - - - - -

    注意事项

    本文(2022年信息检索检索向量空间模型整理 .pdf)为本站会员(Che****ry)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开