书签分享收藏举报版权申诉 / 59

立即下载

当前位置：首页 > 教育专区 > 大学资料 > 信息检索理论模型.ppt

信息检索理论模型.ppt

上传人：wuy****n92

文档编号：91542828

上传时间：2023-05-27

格式：PPT

页数：59

大小：318.49KB

( 4.5 )

《信息检索理论模型.ppt》由会员分享，可在线阅读，更多相关《信息检索理论模型.ppt（59页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第2章信息检索理论模型5/26/2023 1信息检索过程n 信息检索过程实际上涉及到三个重要的处理：n 文档集的逻辑表示n 查询的表示n 相似匹配及其排序n 对上述因素和检索过程建模（抽象描述），产生各种不同的信息检索模型5/26/20232信息检索模型分类信息检索模型检索模型浏览模型内容模型结构模型布尔模型矢量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型逻辑模型5/26/20233本章主要内容n 2.1布尔检索模型n 2.2向量空间模型n 2.3概率检索模型n 2.4信息检索逻辑模型5/26/202342.1布尔检索模型n 布尔检索模型的理论基础是布尔逻辑和集合理

2、论5/26/202352.1布尔检索模型n 布尔逻辑主要内容:命题逻辑与谓词逻辑n 布尔逻辑是数理逻辑的基础部分n 利用符号来表示逻辑中的各种概念n 建立了一系列的运算法则，利用代数的方法研究逻辑问题5/26/20236布尔运算n 布尔逻辑运算符:n“与（AND）”、“或(OR)”、“非(NOT)”运算的定义5/26/20237传统布尔检索模型n 文献表示n 将文档表示成一个集合，集合中的每个元素都为一个二元变量，取值非“0”即“1”，表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中，则元素取值为1，反之则取0。n 给定一个文献集合D，包含m篇文献，分别用d1,d2,d3dm表示

3、。再给出一个标引词集合T，包含n个标引词t1,t2,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为（di1,di2,din）5/26/20238传统布尔检索模型n 查询表示n 在布尔检索系统中，根据用户提出的检索需求，选取适当的检索标识，与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式，也即相应的布尔表达式n 例如，布尔提问式q=t1 and（t2 or not t3）n q的主析取范式（t1 and t2 and t3）or（t1 and t2 and not t3）or（t1 and not t2 and not t3）n q的

4、简化形式qdnf（1，1，1）or（1，1，0）or（1，0，0）,其中，（1，1，1）、（1，1，0）和（1，0，0）是qdnf的3个合取子项（合取子项可用符号qcc表示）5/26/20239传统布尔检索模型n 匹配函数5/26/202310传统布尔检索模型n 文献D1=(t1,t2,not t3)n 查询Q=t1 and t2 and not t35/26/202311传统布尔查询的评价n 该模型结构简单、容易实现和快速检索。5/26/202312传统布尔查询的评价n 布尔模型在检索系统的开发与应用中表现出的主要问题有：n（1）准确匹配（exact matching）策略问题。布尔模型采用

5、准确匹配策略，对检索过程中客观存在的一些不确定性情形绝对排斥，认为一篇文献对于某一提问要么是“相关的”，要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善，并带来其他一些相关问题。n（2）布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式，在很多情况下并不容易实现。5/26/202313传统布尔查询的评价n 为了弥补这些缺陷，发展了一些别的检索模型，如向量空间、扩展布尔、概率检索和聚类模型。5/26/2023142.2向量空间模型n 2.2.1传统向量空间检索n 2.2.2项的权重模式n 2.2.3相似度的计算n 2.2.4潜在语义标引5

6、/26/2023152.2.1传统向量空间检索n 向量空间模型(Vectorspacemodel)介绍n 向量空间模型(VSM)的评价5/26/202316向量空间模型介绍n 1.文献空间n（1）文献空间的概念n文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”n在一个文献空间内，用向量D1来代表某一文献，则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重n文献与空间点n（2）标引词空间5/26/202317向量空间模型介绍T2T3T1D1=d11,d12,d13D2=d21,d22,d23D3=d31,d32,d33图三维文献空间5/26

7、/202318向量空间模型介绍n 2.项权重n（1）词频n越重要的项分配越高的权值n可以用词频来作为该项的权重（用tf表示）n（2）文献频率n假设存在一个文献集合，其中大部分的文献都包含了某一项，则说明该项对某一主题的专指度较差，可能就不太重要n在设计项权重时，要考虑逆文献频率（用idf表示）5/26/202319向量空间模型介绍n 2.项权重n（3）权重的规范化处理n为了抵消由篇幅带来的不同影响，经常要对项权重进行规范化处理n在各种规范化方法中，余弦规范是一种常用、有效的方法：tfidf权重/文献向量的欧氏长度 5/26/202320向量空间模型介绍n 3.文献向量与查询向量的匹配n 匹配函

8、数n 利用向量的内积运算，得到文献向量Di与查询向量q之间的相似度 nSim(Di,q)=Diqn 简单n 存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常，需要引入一些特别的方法来改进这个相似度计算公式，使得其能够考虑到项的相互联系这一重要因素5/26/202321向量空间模型的评价v 优点v 简单，功能却非常强大v 能将非结构化的文献表示成向量的形式，使得各种数学处理成为可能 v模型的检索效果和布尔检索模型比起来，要好得多v 不足v 忽略项之间存在的相互联系，必然使得检索效果产生极大的偏差v 传统向量处理模型不能处理布尔表达等结构化查询v 改进v 广义向量空间模型（GVSM

9、）、潜在语义标引（LSI）、概率向量处理模型以及基于语义分析的向量空间模型（SVSM）5/26/2023222.2.2项的权重模式n 项向量的规范化5/26/202323项向量的规范化n 构建一个项权重模式，需要涉及三个主要因素：词频、集合频率和向量的规范化。一般来说，n 会为那些在特定文献中出现非常频繁的词（有着高词频的词）分配较高的权值；n 为那些在文献集中很少部分的文献中出现的词（有着低文献频率的词）分配较高的权值；n 对文献集合中长度不一的文献进行规范化处理，从而排除长文献与短文献在统计上的差别。5/26/202324项向量的规范化n 余弦规范化n 余弦规范化是在向量

10、空间模型中最为常用的一种规范化方法。它的规范因子是：n n 这里的wi是项的原始tf*idf权重。n 在一个文献中，如果一个项有着异常的高出现次数，利用余弦规范化，也可以减小这个高词频对权重的影响。5/26/2023252.2.3相似度的计算n 内积相似度运算n 余弦相似度n“距离”相似度运算n 等等5/26/2023262.2.4潜在语义标引n 模型的提出n 潜在语义标引模型n 模型的评价5/26/202327模型的提出n VSM模型的主要缺陷n 假定项之间是相互独立的。因为忽略项之间的联系，从而在空间中增加或剔除一个项

11、，对空间中已然存在的项是毫无影响的，实际上，在集合中增加一个新的文献，不仅仅会增加一些新的项，而且还会影响到已经存在的项的权重分配，因为新增的文献影响了这些项在整个集合中的逆文献频率（idf）因素。n 词频矩阵过大（降维处理）5/26/202328潜在语义标引模型n 该方法的基本步骤是：n 1)建立词频矩阵R0；n 2)计算词频矩阵的奇异值分解，把词频矩阵分解成3个矩阵的积：T0S0D0，其中T0、D0的列向量都两两正交，S0为对角线矩阵。如果要求T0、D0是满秩的并且S0中对角线上的单值按照从小到大的顺序排列，那么词频矩阵有，并且仅有一个这样的分解；n 3)S0中对角线上的k个较大的单值被保

12、留，其它较小的单值被置为0，去掉S0中单值为0的所有行和列得到对角阵S，去掉T0、D0中相应的列，得到矩阵T、D，并可以产生一个新的矩阵R=TSD，作为新的词频矩阵；n 4)对于每一个文档d，用SVD方法筛选得到的词的组成新的向量替换原有的文本特征向量；n 5)保存所有向量集合，并用高级多维索引技术为文本集合创建索引；n 6)使用转换后的文档向量进行相似度计算。5/26/202329模型的评价n 潜在语义标引的长处在于 n 第一、模型具有丰富的表述能力。保持了原始数据中的主要信息，同时，也捕捉住了隐含的潜在语义信息。n 第二、传统的基于字面的词匹配系统，无法解决大量的同义或歧义现象造成的查全、

13、查准下降的问题。而在潜在语义标引中，却能自动处理这类问题。n 第三、潜在语义标引能够降低检索运行的时间。n 第四、能够处理由于人为原因，如拼写错误导致的匹配问题。5/26/202330模型的评价n 潜在语义标引的不足：n 总体上看来，潜在语义标引对于较大集合的运算却是非常耗费的5/26/2023312.3概率检索模型n 检索过程存在内在的不确定性，如信息检索系统不能精确地定义文献集合中与查询相匹配的文献n 概率理论是处理随机不确定性的理论n 一个概率模型就是要估计概率，即文献dk与查询q相关的概率。5/26/2023322.3概率检索模型n 概率模型试图在一个概率框架中处理信息检索问题，其基本

14、思想是：给定一个用户的查询，则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。给出这个理想结果集的描述，并用于检索。n 查询的过程是说明理想结果集属性的过程，初始的时候努力的猜测它们是什么，猜测结果我们将产生一个对理想结果集的概率描述，检索出最初的结果集，然后引入用户的交互，改善结果集。5/26/2023332.3概率检索模型n 基本假设：给定一个查询q和文档集中一个文档dk，概率模型试图找出用户对其感兴趣的概率，模型假设这个概率只是依赖于查询和文档的表示，进而模型假设文档集中存在一个子集，它使得在集合中的文档被认为是与查询相关的，不在集合中的则被认为是不相关的

15、。5/26/2023342.3概率检索模型n 其主要优点是：理论上，文档按照其与目标集合的相关概率的降序排列。n 主要缺点是：n 需要最初将文档分为相关和不相关的集合；n 所有权重都是二值的，模型中仍然假设索引项之间是相互独立的。5/26/2023352.3概率检索模型n 概率模型（ProbabilisticModel）n 概率排序原则：按照根据系统已经获得的全部数据估计出来的相关概率的降序排序是最优的排序n 贝叶斯推断：由feedback更新先验概率分布n w1=document is relevant,w2=non-relevant.n x=(x1,x2,.,xn)binary vecto

16、rn 代表：INQUERY5/26/2023362.3概率检索模型n 优点：n 无需经验性的权值计算公式，完全从理论上推断出rankingn 很好支持用户反馈feedback，渐进的优化检索效果n 缺点：n 先验分布难于得到？5/26/202337ProbabilisticModelsn Rigorousformalmodelattemptstopredicttheprobabilitythatagivendocumentwillberelevanttoagivenqueryn Ranksretrieveddocumentsaccordingtothisprobabilityofrelevan

17、ce(ProbabilityRankingPrinciple)n Reliesonaccurateestimatesofprobabilitiesforaccurateresults5/26/202338ProbabilisticRetrievaln Goesbackto1960s(MaronandKuhns)n Robertsons“ProbabilisticRankingPrinciple”n Retrieveddocumentsshouldberankedindecreasingprobabilitythattheyarerelevanttotheusersquery.n Howtoes

18、timatetheseprobabilities?n Severalmethods(Model1,Model2,Model3)withdifferentemphasesonhowestimatesaredone.5/26/202339ProbabilisticModels:SomeNotationn D=Allpresentandfuturedocumentsn Q=Allpresentandfuturequeriesn(Di,Qj)=Adocumentquerypairn x=classofsimilardocuments,n y=classofsimilarqueries,n Releva

19、nceisarelation:5/26/202340ProbabilisticModels:LogisticRegressionProbability of relevance is based on Logistic regression from a sample set of documents to determine values of the coefficients.At retrieval the probability estimate is obtained by:For the 6 X attribute measures shown next5/26/202341Pro

20、babilisticModels:LogisticRegressionattributesAverage Absolute Query FrequencyQuery LengthAverage Absolute Document FrequencyDocument LengthAverage Inverse Document FrequencyInverse Document FrequencyNumber of Terms in common between query and document-logged 5/26/202342ProbabilisticModelsn Strongthe

21、oreticalbasisn Inprincipleshouldsupplythebestpredictionsofrelevancegivenavailableinformationn CanbeimplementedsimilarlytoVectorn Relevanceinformationisrequired-oris“guestimated”n Importantindicatorsofrelevancemaynotbeterm-thoughtermsonlyareusuallyusedn Optimallyrequireson-goingcollectionofrelevancei

22、nformationAdvantages Disadvantages5/26/202344VectorandProbabilisticModelsn Support“naturallanguage”queriesn Treatdocumentsandqueriesthesamen Supportrelevancefeedbacksearchingn Supportrankedretrievaln Differprimarilyintheoreticalbasisandinhowtherankingiscalculatedn Vectorassumesrelevancen Probabilist

23、icreliesonrelevancejudgmentsorestimates5/26/2023452.4信息检索逻辑模型n 在信息检索领域，可以看作是文献d满足查询q，也可以说文献d与查询q相关。n 逻辑模型着重强调信息检索是一个推理过程，即如果文献同查询相关，可以通过推理得出5/26/2023462.4信息检索逻辑模型n 逻辑模型的基本思想n 假如两个对象O1和O2，O1O2则表示对象O1蕴涵对象O2，换句话说，可以从O1中推理出O2。n 假设通过某一方法，将文献的信息内

24、容用d表示，查询的信息需求用q表示，dq表示可以从文献d中推理出查询q，即文献d中的信息足以蕴涵查询q中的信息。5/26/2023472.4信息检索逻辑模型n 几种典型的信息检索逻辑模型n 古典逻辑模型n 基于可能世界的逻辑模型 n 基于情景理论的信息检索模型n 基于术语逻辑的信息检索模型n 信息检索的元模型5/26/2023482.4信息检索逻辑模型n 个人观点n 一篇文献看成是一个知识集，把文献集看成是一个知识库，把查询看成是一个知识集把检索操作看成验证要查询的知识集是否是知识库的一个子集，也就是说，把针对文献的查询转变成针对知识的查询。n

25、进一步，将检索操作看成是逻辑程序的自动推理过程。借助于逻辑模型，可以研究查询与知识集的蕴含关系、知识集与文献的蕴含关系、查询与文献的相关程度；5/26/2023492.4信息检索逻辑模型n 个人观点n 把信息检索系统看成是一个逻辑程序P。如果Q是一个查询，且P|-Q那么我们称Q可检的5/26/202350InferenceNetworkModeln InferenceNetworkModeln Inthesimplestimplementation,adocumentinstantiatesatermwithacertainstrength,andthecreditfrommultiplete

26、rmsisaccumulatedgivenaquerytocomputetheequivalentofanumericscoreforthedocument.n Ifthestrengthisconsideredtobetheweightoftheterminthedocument,thentherankingissimilartotheVectorSpaceModelortheProbabilisticModel.n Anyformcanbeusedtodefinethestrengthoftheinstantiation,andanyformulacanbeused.5/26/202351

27、结构化文本检索模型概念有时候，用户希望能够对文档中的某些结构组元中包含的信息进行检索，例如，对出现在章节标题的词进行检索。那么就需要一种模型，把文档内容与文档的结构结合起来，为用户提供信息检索的能力。这种模型就被称为结构化文本检索模型。5/26/202352结构化文本检索模型概念在检索任务中，传统的结构化文本检索模型没有采用相关性的思想，它只是从各个结构组元中匹配用户的查询项。从这个意义上看，过去的结构化文档检索模型是一个数据检索模型，但是，检索系统能够搜索出那些部分匹配查询条件的文档，在这种情况下，这种匹配是近似的，并且某些排序也是使用这种近似的结构。因此，结构化文档检索算法可以看作是一种信

28、息检索算法，但排序机制并不健全。在结构化文本检索模型中，我们使用“匹配点”来表示文本与用户查询相匹配的词串位置；我们使用“区域”表示文本的块；使用“节点”表示文档的结构化组元。这样，一个节点是一个区域，具有文档的作者与用户所共知的、预定义的逻辑属性。5/26/202353结构化文本检索模型非重叠链表模型基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域，并用链表连接起来。因为有多种方法将文本分为非重叠的区域，所以，对于同一个文档，会产生多个链表。这些链表清晰的记录了文档的数据结构。在相同链表中的文本区域没有重叠，而不同链表中的文本区域可能会重叠。ChapterSectionParag

29、raph为允许对索引项和文本区域进行搜索，要为每个预定义的链表建立一个索引。在索引中每个结构组元作为索引中的一个项目。因为针对每个索引项目，其索引的文本区域是不重叠的，所以可以提交的查询是简单的。1、选择一个包含给定词的区域；2、选择一个不包含在给定区域的区域；3、选择一个不被包含于任何其他区域的区域。5/26/202354结构化文本检索模型邻近节点模型该模型是一种允许在相同文档上独立定义分层索引结构的模型，每个索引结构是一个严格的层次结构，其中每个结构组元称为节点，每个节点与一个文本区域相关，两个不同的层次结构可能涉及到两个重叠的文本区域。针对不同层次结构的用户查询，所汇集的结果是由来自其中

30、一个层次结构的节点组成，因此，一个应答结果是不能由来自两个不同层次结构的节点组成。这样做的目的是使得查询处理的速度快。Information 22 45 127 7892ChapterSectionParagraph5/26/202355信息浏览模型平坦浏览该模型的思想是假设用户浏览一个具有平坦组织的文档空间，文档集可以被描述为平面上的点或是链表中的元素。用户在这些文档上到处浏览，以寻找有关信息，在反馈过程中，用户通过在邻近文档中的浏览，查找出相关的资料，找出一些感兴趣的关键词。这些关键词将被输入到原始的查询中，以试图提供更好的、新的查询。同样，用户也可以以平面方式，浏览单一的文档。例如使用滚

31、动条来浏览一个Web页面。该模型的一个不足是：在给定的一个页面或屏幕上，可能没有任何用户所处上下文情况的指示。平坦模型缺乏层次性的视图、用户的浏览行为很容易迷航。5/26/202356信息浏览模型结构向导浏览为了对浏览的行为提供更好的支持，文档应该被组织成为如目录那样的结构，目录是类的层次结构，对稳当按照主题来分类和组织。也可以提供一些其他的导航工具，如提供浏览历史，指示最近访问的节点，这对于浏览结构庞大的文档集是相当有用的。5/26/202357信息浏览模型超文本浏览5/26/202358相关反馈讨论n 研究现状n 主要方法n 新的研究方向n 选择一篇比较好的文章进行讲解5/26/202359

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

11.9 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 信息检索理论模型

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：信息检索理论模型.ppt
链接地址：https://www.taowenge.com/p-91542828.html