信息检索理论模型.ppt
《信息检索理论模型.ppt》由会员分享,可在线阅读,更多相关《信息检索理论模型.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第2章信息检索理论模型5/26/2023 1信息检索过程n 信息检索过程实际上涉及到三个重要的处理:n 文档集的逻辑表示n 查询的表示n 相似匹配及其排序n 对上述因素和检索过程建模(抽象描述),产生各种不同的信息检索模型5/26/20232信息检索模型分类信息检索模型检索模型 浏览模型内容模型 结构模型布尔模型矢量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型逻辑模型5/26/20233本章主要内容n 2.1布尔检索模型n 2.2向量空间模型n 2.3概率检索模型n 2.4信息检索逻辑模型5/26/202342.1布尔检索模型n 布尔检索模型的理论基础是布尔逻辑和集合理
2、论5/26/202352.1布尔检索模型n 布尔逻辑主要内容:命题逻辑与谓词逻辑n 布尔逻辑是数理逻辑的基础部分n 利用符号来表示逻辑中的各种概念n 建立了一系列的运算法则,利用代数的方法研究逻辑问题5/26/20236布尔运算n 布尔逻辑运算符:n“与(AND)”、“或(OR)”、“非(NOT)”运算的定义5/26/20237传统布尔检索模型n 文献表示n 将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0”即“1”,表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中,则元素取值为1,反之则取0。n 给定一个文献集合D,包含m篇文献,分别用d1,d2,d3dm表示
3、。再给出一个标引词集合T,包含n个标引词t1,t2,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为(di1,di2,din)5/26/20238传统布尔检索模型n 查询表示n 在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式,也即相应的布尔表达式n 例如,布尔提问式q=t1 and(t2 or not t3)n q的主析取范式(t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3)n q的
4、简化形式qdnf(1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3个合取子项(合取子项可用符号qcc表示)5/26/20239传统布尔检索模型n 匹配函数5/26/202310传统布尔检索模型n 文献D1=(t1,t2,not t3)n 查询Q=t1 and t2 and not t35/26/202311传统布尔查询的评价n 该模型结构简单、容易实现和快速检索。5/26/202312传统布尔查询的评价n 布尔模型在检索系统的开发与应用中表现出的主要问题有:n(1)准确匹配(exact matching)策略问题。布尔模型采用
5、准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的”,要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。n(2)布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。5/26/202313传统布尔查询的评价n 为了弥补这些缺陷,发展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模型。5/26/2023142.2向量空间模型n 2.2.1传统向量空间检索n 2.2.2项的权重模式n 2.2.3相似度的计算n 2.2.4潜在语义标引5
6、/26/2023152.2.1传统向量空间检索n 向量空间模型(Vectorspacemodel)介绍n 向量空间模型(VSM)的评价5/26/202316向量空间模型介绍n 1.文献空间n(1)文献空间的概念n文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”n在一个文献空间内,用向量D1来代表某一文献,则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重n文献与空间点n(2)标引词空间5/26/202317向量空间模型介绍T2T3T1D1=d11,d12,d13D2=d21,d22,d23D3=d31,d32,d33图三维文献空间5/26
7、/202318向量空间模型介绍n 2.项权重n(1)词频n越重要的项分配越高的权值n可以用词频来作为该项的权重(用tf表示)n(2)文献频率n假设存在一个文献集合,其中大部分的文献都包含了某一项,则说明该项对某一主题的专指度较差,可能就不太重要n在设计项权重时,要考虑逆文献频率(用idf表示)5/26/202319向量空间模型介绍n 2.项权重n(3)权重的规范化处理n为了抵消由篇幅带来的不同影响,经常要对项权重进行规范化处理n在各种规范化方法中,余弦规范是一种常用、有效的方法:tfidf权重/文献向量的欧氏长度 5/26/202320向量空间模型介绍n 3.文献向量与查询向量的匹配n 匹配函
8、数n 利用向量的内积运算,得到文献向量Di与查询向量q之间的相似度 nSim(Di,q)=Diqn 简单n 存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常,需要引入一些特别的方法来改进这个相似度计算公式,使得其能够考虑到项的相互联系这一重要因素5/26/202321向量空间模型的评价v 优点v 简单,功能却非常强大v 能将非结构化的文献表示成向量的形式,使得各种数学处理成为可能 v模型的检索效果和布尔检索模型比起来,要好得多v 不足v 忽略项之间存在的相互联系,必然使得检索效果产生极大的偏差v 传统向量处理模型不能处理布尔表达等结构化查询v 改进v 广义向量空间模型(GVSM
9、)、潜在语义标引(LSI)、概率向量处理模型以及基于语义分析的向量空间模型(SVSM)5/26/2023222.2.2项的权重模式n 项向量的规范化5/26/202323项向量的规范化n 构建一个项权重模式,需要涉及三个主要因素:词频、集合频率和向量的规范化。一般来说,n 会为那些在特定文献中出现非常频繁的词(有着高词频的词)分配较高的权值;n 为那些在文献集中很少部分的文献中出现的词(有着低文献频率的词)分配较高的权值;n 对文献集合中长度不一的文献进行规范化处理,从而排除长文献与短文献在统计上的差别。5/26/202324项向量的规范化n 余弦规范化n 余 弦 规 范 化 是 在 向 量
10、空 间 模 型 中 最 为 常 用的一种规范化方法。它的规范因子是:n n 这里的wi是项的原始tf*idf权重。n 在 一 个 文 献 中,如 果 一 个 项 有 着 异 常 的 高出 现 次 数,利 用 余 弦 规 范 化,也 可 以 减 小这个高词频对权重的影响。5/26/2023252.2.3相似度的计算n 内积相似度运算n 余弦相似度n“距离”相似度运算n 等等5/26/2023262.2.4潜在语义标引n 模型的提出n 潜在语义标引模型n 模型的评价5/26/202327模型的提出n VSM模型的主要缺陷n 假定项之间是相互独立的。因为忽略项之间的联系,从而在空间中增加或剔除一个项
11、,对空间中已然存在的项是毫无影响的,实际上,在集合中增加一个新的文献,不仅仅会增加一些新的项,而且还会影响到已经存在的项的权重分配,因为新增的文献影响了这些项在整个集合中的逆文献频率(idf)因素。n 词频矩阵过大(降维处理)5/26/202328潜在语义标引模型n 该方法的基本步骤是:n 1)建立词频矩阵R0;n 2)计算词频矩阵的奇异值分解,把词频矩阵分解成3个矩阵的积:T0S0D0,其中T0、D0的列向量都两两正交,S0为对角线矩阵。如果要求T0、D0是满秩的并且S0中对角线上的单值按照从小到大的顺序排列,那么词频矩阵有,并且仅有一个这样的分解;n 3)S0中对角线上的k个较大的单值被保
12、留,其它较小的单值被置为0,去掉S0中单值为0的所有行和列得到对角阵S,去掉T0、D0中相应的列,得到矩阵T、D,并可以产生一个新的矩阵R=TSD,作为新的词频矩阵;n 4)对于每一个文档d,用SVD方法筛选得到的词的组成新的向量替换原有的文本特征向量;n 5)保存所有向量集合,并用高级多维索引技术为文本集合创建索引;n 6)使用转换后的文档向量进行相似度计算。5/26/202329模型的评价n 潜在语义标引的长处在于 n 第一、模型具有丰富的表述能力。保持了原始数据中的主要信息,同时,也捕捉住了隐含的潜在语义信息。n 第二、传统的基于字面的词匹配系统,无法解决大量的同义或歧义现象造成的查全、
13、查准下降的问题。而在潜在语义标引中,却能自动处理这类问题。n 第三、潜在语义标引能够降低检索运行的时间。n 第四、能够处理由于人为原因,如拼写错误导致的匹配问题。5/26/202330模型的评价n 潜在语义标引的不足:n 总体上看来,潜在语义标引对于较大集合的运算却是非常耗费的5/26/2023312.3概率检索模型n 检索过程存在内在的不确定性,如信息检索系统不能精确地定义文献集合中与查询相匹配的文献n 概率理论是处理随机不确定性的理论n 一个概率模型就是要估计概率,即文献dk与查询q相关的概率。5/26/2023322.3概率检索模型n 概率模型试图在一个概率框架中处理信息检索问题,其基本
14、思想是:给定一个用户的查询,则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。给出这个理想结果集的描述,并用于检索。n 查询的过程是说明理想结果集属性的过程,初始的时候努力的猜测它们是什么,猜测结果我们将产生一个对理想结果集的概率描述,检索出最初的结果集,然后引入用户的交互,改善结果集。5/26/2023332.3概率检索模型n 基本假设:给定一个查询q和文档集中一个文档dk,概率模型试图找出用户对其感兴趣的概率,模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的
15、。5/26/2023342.3概率检索模型n 其主要优点是:理论上,文档按照其与目标集合的相关概率的降序排列。n 主要缺点是:n 需要最初将文档分为相关和不相关的集合;n 所有权重都是二值的,模型中仍然假设索引项之间是相互独立的。5/26/2023352.3概率检索模型n 概率模型(ProbabilisticModel)n 概率排序原则:按照根据系统已经获得的全部数据估计出来的相关概率的降序排序是最优的排序n 贝叶斯推断:由feedback更新先验概率分布n w1=document is relevant,w2=non-relevant.n x=(x1,x2,.,xn)binary vecto
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 理论 模型
限制150内