2022年信息检索检索向量空间模型整理 .pdf
信息检索检索向量空间模型一:算法描述在文本挖掘、 搜索引擎应用中 ,文本的特征表示是挖掘工作的基础,它对文本进行预处理 ,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。向量空间模型 (VectorSpaceModel) 是近年来应用较多的文本特征表示方法之一 ,它是由 GerardSlaton等人在 1958 年提出并发展起来的 ,是一个关于文献表示的统计模型 ,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中 ,并且取得了较好的效果 。文献 (document):泛指各种机器可读的记录,可指一篇文章或一个网页,也称为文档。项(term):亦称索引项 ,是用来标引被检索内容的关键词等。项的权重 (termweight):对于有 n 个不同的项的系统 ,文献 D=(t1,t2,tn),项tk(1kn)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项 tk 的权重。相似度( Similarity) :指两个文档内容相关程度的大小。确定权重的方法是运用TF-IDF 公式,即 Wik=tfik/dfk=tfik*idfk, 其中 tf ik 为特征项 Tk在文档 Di 中的出现频率 ,称为项频率 ; dfk 则是文档集 D 中出现特征项 Tk的文档的数量 ,称为文档频率 ; idfk 为 dfk 的倒数,称为反转文档频率。姓名陈严学号2220122685 班级智能科学与技术 1 班名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 相似度是一个函数,它给出两个向量之间的相似程度。常用的方法有:内积(Inner Product)、余弦(Cosine) 。对于二值向量 , 内积是查询式中的词项和文档中的词项相互匹配的数量;对于加权向量 , 内积是查询式和文档中相互匹配的词项的权重乘积之和。余弦相似度计算两个向量的夹角,余弦相似度是利用向量长度对内积进行归一化的结果。二:数据描述建立 10 至 15 个文件,输入文档集,以供检索。三:算法参数文件、项的权重、 tf ik、dfk、idfk、相似度四:实验流程1.输入文档集;2.计算词项的特征权重;3.输入要查询的内容;4.计算余弦相似度;5.根据相似度排序,找出相似的文档。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 3 页 - - - - - - - - - 五:实验结果实验生成 result 文件甲中的 result.txt 文件。六:实验总结向量模型是以假设向量空间的各维之间相互正交(即各关键字之间相互独立)为前提的 ,因而不可避免地存在由此带来的损失关键字间的相关性的缺点,可它把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点 ,可以计算出文档与查询式的相关程度,因而可以很容易地进行输出结果的排序 ,用户相关性反馈机制也很容易实现,尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来,至今都有很强的生命力。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 3 页 - - - - - - - - -