信息检索模型ppt课件.ppt
《信息检索模型ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息检索模型ppt课件.ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022-8-4信息存储与检索信息存储与检索12022-8-4 信息存储与检索信息存储与检索2第七章 信息检索模型 7.1 信息检索模型概述 7.2 经典的信息检索模型 7.3 集合论检索模型 7.4 代数检索模型 7.5 概率检索模型 7.6 结构化文本检索模型 7.7 超文本检索模型2022-8-4 信息存储与检索信息存储与检索37.1 信息检索模型概述7.1.1 信息检索概述 信息检索是一门研究从一定规模的文档库中找出满足用户需求的信息的学问,它指的是对非结构化或半结构化信息的检索,半结构化信息检索人们通常称为文本信息检索,而非结构化信息检索多指多媒体信息检索。 信息检索是对信息集合与需
2、求集合的匹配和选择。 信息检索基本原理:用户通过一些列关键词来阐明自己的信息需求,信息检索系统则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献进行排序。2022-8-4 信息存储与检索信息存储与检索47.1.2 信息检索模型1、定义 信息检索模型的核心问题是检测哪些文献相关,哪些文献不相关,即判断一篇文献是否与用户的查询条件相关,以及相关的程度。 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。2022-8-4 信息存储与检索信息存储与检索52、信息检索
3、模型的组成(1)用户的需求表示:包括用户查询信息的获取与表示。(2)文档的表示:文档内容的识别与表示。(3)匹配机制:用户需求表示与文档表示之间的查询机制,以及它们之间相关性排序的准则和函数表示。(4)反馈修正:对检索结果进行优化。7.1.2 信息检索模型2022-8-4 信息存储与检索信息存储与检索6结构化文本模型结构化文本模型集合论模型集合论模型文文本本检检索索模模型型非重叠链表模型非重叠链表模型邻近节点模型邻近节点模型布尔模型布尔模型向量模型向量模型概率模型概率模型浏览模型浏览模型超文本模型超文本模型基于本体的模型基于本体的模型经典模型经典模型超文本模型超文本模型知识检索模型知识检索模型
4、扩展布尔模型扩展布尔模型模糊集合模型模糊集合模型广义向量模型广义向量模型潜语义标引模型潜语义标引模型神经网络模型神经网络模型推理网络模型推理网络模型信任度网络模型信任度网络模型代数模型代数模型概率模型概率模型3、信息检索模型的类型7.1.2 信息检索模型2022-8-4 信息存储与检索信息存储与检索77.2 经典的信息检索模型7.2.1 定义及假设 定义:令 t 表示文档集里所用不同标引词的数目,Ki表示一个标引词,K=K1,K2K3,Kt表示所有标引词的集合,对于文档Dj中存在的标引词Ki,其权重Wij0;对于文档Dj中没有的标引词Ki,其权重Wij=0。这样就可以将文档Dj表示成一个向量D
5、j=(W1j,W2j,W3jWtj),向量Dj的第i维就对应项Ki在文档Dj中的权重。2022-8-4 信息存储与检索信息存储与检索87.2.1 定义及假设 在经典的信息检索模型中,还存在以下一些普遍性假设:(1)被检索对象主要为文档对象。(2)标引词是相互独立的。(3)用户检索是根据文档内容的表示及所需信息的表示进行的。(4)所有文档的内容和所需信息的表示都是非精确的。2022-8-4 信息存储与检索信息存储与检索97.2 经典的信息检索模型7.2.2 布尔检索模型 布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算
6、来检索文献。 在传统的布尔模型中,每一文献用一组标引词表示。Dj = ( K1, K2, K3, , Km )表示文献Dj,式中K1, K2, K3, , Km表示文献Dj中的所有标引词集合。2022-8-4 信息存储与检索信息存储与检索107.2.2 布尔检索模型 文档与标引词建立一个布尔关系。用若干标引词的布尔表达式来表达和解释查询Q。 对于一个表示为Q= ( K1 AND K2 ) OR ( K3 AND ( NOT K4 )的提问式,系统的响应必须是这样一组文献集合:这些文献中都含有标引词K1和K2,或者含有标引词K3但不含有标引词K4。 常用的布尔逻辑组配运算符有:逻辑“与”(AND
7、,常用符号“”表示)、逻辑“或”(OR,常用符号“”表示)、逻辑“非”(NOT,常用符号“”表示)。 2022-8-4 信息存储与检索信息存储与检索11布尔检索模型 在布尔检索模型中标引词在文献中要么出现、要么不出现,因此标引词Ki在文档Dj中的权重全部被设为二值数据,即Wij (0,1)。 用户提交的查询条件由若干个标引词用与、或、非等逻辑符号相联结,在布尔检索模型中被表示成了布尔表达式Q=(K1,K2,),其本质可以表示为多个标引词权值的合取向量的析取Qi(Qi为表达式Q的任意合取向量),则文献Dj和查询Q的相关度表示为不相关和查询,表示文献,此时相关和查询,表示文献,此时QDQQQDQQ
8、QDSimjijij01),(2022-8-4 信息存储与检索信息存储与检索12布尔检索模型 如要检索“布尔检索或概率检索但不包括向量检索”方面的文档,其相应的查询表达式为:Q=检索 and (布尔or 概率 not 向量),那么Q可以在其相应的(检索,布尔,概率,向量)标引词向量上取(1,1,0,0) (1,0,1,0) (1,1,1,0),那么文档Dj的向量如果与这中间一个相等,那么即可认为他们之间存在相似关系,而这种相互关系也是布尔值,即sim(Q, Dj)只能为0或1。 这也就是布尔模型的局限性所在,描述所有关系都是布尔值,而现实中文档与标引字或者标引字与查询语句之间的关系都不可能只是
9、有关系或者没关系,换句话说布尔模型中无法描述关系的密切程度。 2022-8-4 信息存储与检索信息存储与检索13简单实例: Q = 病毒 AND (计算机 OR 电脑)AND NOT医 D1: 据报道,计算机病毒近日猖獗 D2: 小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种 D3: 计算机程序发现了爱滋病病毒的传播途径 D4:最近我的电脑中病毒了请问:哪些文档会被检索出来? 2022-8-4 信息存储与检索信息存储与检索14布尔检索模型 Boolean模型存在着一些缺陷: 第一, 它的检索策略是基于二元判定标准(例如,对于检索来说一篇文档只有相关和不相关两种状态),缺乏文档分级
10、(rank)的概念,限制了检索功能。 第二, 虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。2022-8-4 信息存储与检索信息存储与检索157.2 经典的信息检索模型7.2.3 向量空间模型 向量模型通过分派非二值权重给查询和文档中的标引词来实现检索目标。这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配。这样做的结果中的文档排列顺序比通过布尔模型得到的结果要合理得多。2022-8-4 信息存储与检索信息存储
11、与检索167.2.3 向量空间模型 定义: 在向量空间模型中,标引词Ki在文档Dj中的权重Wij是一个大于0的非二值数。文档Dj可以看做是一个向量: Dj=(W1j,W2j,W3jWtj) 其中,t是文档集中所有标引词的数目。 用户查询中的标引词也是有权重的,设Wiq是用户检索提问式(查询) Q的标引词Ki的权重,且Wiq0,则查询向量Q被定义成: Q=(W1q,W2q,W3qWtq)。 衡量文档和查询的相关度转化成计算文档向量和查询向量之间的相似度。一般使用文档向量和查询向量之间的夹角余弦值来计算它们之间的相似度。2022-8-4 信息存储与检索信息存储与检索177.2.3 向量空间模型Wi
12、jK1k2KnD1010D210.80.5Dn0.201文档向量空间的表示:文档文档D1(W11,W21,Wn1)查询查询Q(W1q,W2q,Wnq)文档文档D2(W12,W22,Wn2)特征项特征项1特征项特征项2特征项特征项3文档向量空间模型:2022-8-4 信息存储与检索信息存储与检索18 文档和文档之间的相似度Sim可以表示如下:nknkjkiknkjkikjiDWDWDWDWDDSim11221) )()()()(cos),(titiiqijtiiqijjWWWWQDSim11221) )(cos),(文档和查询之间的相似度Sim可以表示如下:7.2.3 向量空间模型2022-8-
13、4 信息存储与检索信息存储与检索19例子D1 = 2K1 + 3K2 + 5K3D2 = 3K1 + 7K2 + K3Q = 0K1 + 0K2 + 2K3文档文档D1=2K1+3K2+5K3查询查询Q=0K1+0K2+2K3文档文档D2=3K1+7K2+K3特征项特征项1特征项特征项2特征项特征项313. 0591)2()173(210703),(81. 0385)2()532(250302),(2222122221QDSimQDSim2022-8-4 信息存储与检索信息存储与检索20 标引词的权重计算(TF-IDF) N为文档集合,ni为包含标引词Ki的文档篇数,TFij表示标引词Ki在文
14、档Dj中出现的频数,则文档Dj中标引词Ki的标准化频率Fij为 Fij= TFij / maxj TFij 最大值是通过计算文档Dj中出现的所有标引词来获得的。如果标引词Ki没有出现在文档Dj中,则Fij= 0。 标引词Ki的IDF为IDFi=log(N/ni) 标引词Ki在文档Dj中的权重Wij=Fij*IDFi7.2.3 向量空间模型2022-8-4 信息存储与检索信息存储与检索21TF-IDF举例说明 文本:“俄罗斯频繁发生恐怖事件,俄罗斯的安全部门加大打击恐怖主义的力度。”TFIDFTF-IDFTFIDFTF-IDF俄罗斯2较高高安全1中等高恐怖的2较高高部门1较低低的2非常低很低加大
15、1较低低频繁1较低低打击1中等高发生1较低低主义1较低低事件1较低低力度1中等高2022-8-4 信息存储与检索信息存储与检索227.2.3 向量空间模型 向量空间模型的主要优点: 对标引词的权重进行了改进,其权重的计算可以通过统计的办法自动完成,使问题的繁杂性大为降低,从而改进了检索效率。 把文档和查询本身简化为标引词及其权重集合的向量表示,把对文档内容和查询要求的处理简化为向量空间中向量的运算。 根据文档和查询之间的相似度对文献进行排序,有效地提高了检索效率。 可以实现文档自动分类。2022-8-4 信息存储与检索信息存储与检索23 向量空间模型的主要缺点:(1)标引词仍然被认为是相互独立
16、,会丢掉大量的文本结构信息,降低语义准确性。(2)相似度的计算量大,当有新文档加入时,必须重新计算词的权值。7.2.3 向量空间模型2022-8-4 信息存储与检索信息存储与检索247.2 经典的信息检索模型7.2.4 概率模型1、基本思想 用户提出了查询,就有一个由相关文档构成的集合,该集合只包括与查询完全相关的文档而不包括其他不相关的文档,称该集合为理想结果集合,记为R。如果知道R的特征,就可以找到所有的相关文档,排除所有的无关文档。因此,可以把查询看成一个寻找R的特征的过程。2022-8-4 信息存储与检索信息存储与检索257.2.4 概率模型 在第一次查询时并不知道R的特征,只能去估计
17、R的特征来进行查询。第一次查询完成后,可以让用户判断一下检索到的文档哪些是相关文档,根据用户的判断,可以更精确地估计R的特征。然后系统利用该信息重新定义理想结果集合的概率描述;重复以上操作,就会越来越接近真正的结果文档集。 估计估计R的特征的特征进行检索进行检索用户判断用户判断2022-8-4 信息存储与检索信息存储与检索267.2.4 概率模型2、相关概念 贝叶斯定理: 词条的独立假设:P(AB)= P(A) P(B) 当且仅当 A 与 B 相互独立. 若文档中的各个索引词相互独立,则有 P(Dj)=P(k1)P(kt) )()()|()|(BPAPABPBAP2022-8-4 信息存储与检
18、索信息存储与检索277.2.4 概率模型3、定义: 对于概率检索模型而言,标引词Ki在文档Dj中的权重Wij0,1,同时用户查询中的标引词Wiq0,1,查询Q是标引词空间的一个子集,用R表示已知的相关文献集,用 表示R的补集,条件概率P(R Dj)表示文档Dj与查询Q相关的概率,条件概率P( Dj)表示文档Dj与查询Q不相关的概率。文献Dj与查询Q的相似度Sim(Dj,Q)可以定义为两者的比值,即:RR)()|()()|()|()|(),(RPRDPRPRDPDRPDRPQDSimjjjjj2022-8-4 信息存储与检索信息存储与检索287.2.4 概率模型 Sim(Dj,Q)可以近似的表示
19、为: 因为经典的信息检索模型中假设标引词之间无相关关系,是独立的,则Sim(Dj,Q) 可以表示为: 取对数,在相同背景下,忽略对所有因子保持恒定不变的因子,则有 这是概率模型中排序计算的主要表达式。 )|()|(),(RDPRDPQDSimjjj)|()|()|()|(),(0)(1)(0)(1)(RKPRKPRKPRKPQDSimiDgiDgiDgiDgjjijijiji)|()|(1log)|(1)|(log),(1RKPRKPRKPRKPWWQDSimiiiitiijiqj2022-8-4 信息存储与检索信息存储与检索297.2.4 概率模型 对我们的初始估计R集合相关的概率赋予初始值
20、: ni为包含标引词Ki的文献数目;N为集合中的文献总数。 初始值确定后,根据与查询Q相关的大小进行初步排序,取前若干个文档作为相关查询集合。之后通过如下方法进行改进。NnRKPRKPiii)|(5 . 0)|(2022-8-4 信息存储与检索信息存储与检索307.2.4 概率模型 用V表示概率模型初步检出并经过排序的文档子集, Vi表示V中包含索引词ki 的文档集合。根据V和Vi中包含标引词Ki的文献数目来改进初始值,通过如下假设完成: 根据已检索出的文献中标引词Ki的分布来估计的 根据未检索出的文献都是不相关的来估计 这样就形成了一个检索和学习的迭代过程,也就是概率检索模型。 )|(RKP
21、i)|(RKPiVNVnRKPVVRKPiiiii)|()|(2022-8-4 信息存储与检索信息存储与检索31 对较小的V和Vi,如V=1,Vi=0,上述计算会出现问题,所以做以下改进: 也可以为:15 . 0)|(15 . 0)|(VNVnRKPVVRKPiiiii1)|(1)|(VNNnVnRKPVNnVRKPiiiiiii7.2.4 概率模型2022-8-4 信息存储与检索信息存储与检索327.3 集合论检索模型7.3.1 模糊集合检索模型 从信息检索的本质上讲,文档和提问之间的匹配处理是一个近似过程,系统中的每一个标引词都对应着一个模糊的命中文档集合,而每一篇文档对于这个命中集合来说
22、,又都具有各自不同的隶属度值(通常是小于1的)。隶属度用词频加权法、反文献频率加权法、词频-反文献频率加权法等方法确定。将标引词和它在对应文献中的隶属度一起作为集合论标引的一个有序对。检索时通过匹配运算,得到检索提问词在每篇文献中的隶属度,根据隶属度的大小对文献排序。 2022-8-4 信息存储与检索信息存储与检索337.3 集合论检索模型 模糊集合论对经典集合论的推广,主要表现在它把元素属于集合的概念模糊化,承认论域上存在既不完全属于某集合、又不完全不属于某集合的元素,即变经典集合论“绝对的”属于概念为“相对的”属于概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对于同一集合具有不
23、同的隶属程度,引入了隶属度(membership)的概念。 模糊集合的严格定义可以表述如下: 论域U到实区间0,1的任一映射A:U0,1,对于任意xU,xA(x)都确定U上的一个模糊集合A,A称做A的隶属函数,A(x)为元素x对A的隶属度。2022-8-4 信息存储与检索信息存储与检索34 假设U =0,1,2,.,9 为代表一个家庭中,所可能拥有子女个数的集合,令三个模糊集合定义为A:子女数众多,B:子女数适中,C:子女数很少,其归属函数的定义如表所示。 子女数子女众多(A)子女适中(B)子女很少(C)00011001200.20.8300.70.24010.150.10.7060.30.2
24、070.800810091002022-8-4 信息存储与检索信息存储与检索35 模糊集合理论对于表示和解决现实社会中存在的许多模糊和不精确问题非常有效,并已在许多领域取得广泛应用,其中就包括在信息检索领域中的成功应用。以下选择奥加娃(Y.Ogawa)等人提出的模糊检索模型,对其基本原理进行介绍。 (1)标引词关联矩阵 (2)文档的隶属度 (3)用户提问及表示7.3.1 模糊集合检索模型2022-8-4 信息存储与检索信息存储与检索36(1)标引词关联矩阵 所谓标引词关联矩阵,是指以标引词集合K中的元素作为行、列,标引词之间语义关系作为元素值的一个词-词矩阵。假设关联矩阵用Ct*t表示,矩阵元
25、素cil表示标引词ki、kl之间的关联因子,其值用如下公式计算: Cil = nil/ (ni + nl nil) 式中,ni、nl分别表示文档集合D中含有索引词ki和kl的文档数,而nil表示D中同时含有索引词ki、kl的文档数。7.3.1 模糊集合检索模型2022-8-4 信息存储与检索信息存储与检索377.3.1 模糊集合检索模型(2)文档的隶属度 在信息检索处理中,对于每一个标引词来说,都存在一个模糊的文档集合与之相关。定义与标引词ki相关的模糊文档集合为Di,对于任一文档dj,其隶属于集合Di的隶属度值可以通过下式计算: ij = 1 - (1- cil ) 如果文档dj的词与Ki有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 模型 ppt 课件
限制150内