第02章 信息检索模型.pdf
《第02章 信息检索模型.pdf》由会员分享,可在线阅读,更多相关《第02章 信息检索模型.pdf(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息检索信息检索第第第第0202章章章章 信息检索模型信息检索模型信息检索模型信息检索模型软件学院教研室软件学院教研室 陈鄞陈鄞PDF 文件使用 pdfFactory Pro 试用版本创建 本章内容本章内容 2.1 信息检索模型的定义和分类信息检索模型的定义和分类 2.2 布尔模型布尔模型 2.3 向量空间模型向量空间模型 2.4 扩展布尔模型扩展布尔模型 2.5 概率模型概率模型 2.6 统计语言模型统计语言模型PDF 文件使用 pdfFactory Pro 试用版本创建 2.1 2.1 信息检索模型的定义和分类信息检索模型的定义和分类2.1.1 信息检索模型的定义信息检索模型的定义 什么是
2、数学模型?什么是数学模型?为了某种特定目的,通过对现实世界的某一特定对象做出一些必要为了某种特定目的,通过对现实世界的某一特定对象做出一些必要的的简化简化与与假设假设,运用适当的,运用适当的数学工具数学工具得到的一种数学结构。得到的一种数学结构。面对相同的输入,模型的输出应能够无限地逼近现实世界的输出面对相同的输入,模型的输出应能够无限地逼近现实世界的输出 信息检索的实质问题信息检索的实质问题 对于所有文档,根据其与用户对于所有文档,根据其与用户查询查询的的相相关程度关程度由大由大到到小进行小进行排序排序 信息检索模型信息检索模型 是用是用来描述来描述文档和用户文档和用户查询查询的的表示形式以
3、及它们之表示形式以及它们之间相间相关性关性的的框架框架PDF 文件使用 pdfFactory Pro 试用版本创建 信息检索系统的形式化表示信息检索系统的形式化表示D,Q,F,R(di,q)D 文档文档集合集合的的机内表示机内表示 D=d1,d2,dm 为了为了满足满足检索检索匹配匹配所要所要求求的的快速快速与与便利便利,文档,文档di通通常由常由从从文档文档中抽取中抽取的能够的能够表达表达文档文档内容内容的特的特征项(如征项(如索索引引项项/检索检索词词/关键词)来表示关键词)来表示 设设T=t1,t2,tn 为为系系统索统索引项集合引项集合则则di=i1,i2,in(ij0)ij索索引词引
4、词tj在在文档文档di中中的的重重要要性(权值性(权值weight)PDF 文件使用 pdfFactory Pro 试用版本创建 D,Q,F,R(di,q)Q 用户用户查询查询的的机内表示机内表示 用户用户需求需求的的各各种种状态状态 潜在潜在的的真真实实需求(需求(Real Information Need,RIN)意识意识到到或感知或感知到的到的需求(需求(Perception Information Need,PIN)表达表达出的出的需求(需求(Request)用户用户查询(查询(Query)用户用户查询查询一一般采般采用与文档类用与文档类似似的的形式形式化化表示表示PDF 文件使用 p
5、dfFactory Pro 试用版本创建 D,Q,F,R(di,q)F 文档与文档与查询查询之查询查询之间的间的匹配框架匹配框架 R(di,q)文档与用户文档与用户查询之查询之间相间相关度关度计计算函算函数数PDF 文件使用 pdfFactory Pro 试用版本创建 2.1.2 2.1.2 信息检索模型的分类信息检索模型的分类信息检索模型信息检索模型布尔模型布尔模型模模糊集合糊集合模型模型扩展的布尔模型扩展的布尔模型集合论集合论代代数数论论向量空间模型向量空间模型广广义向量空间模型义向量空间模型隐性隐性语义索语义索引引神经网络神经网络概率模型概率模型语言模型语言模型推理网络推理网络信信念网络
6、念网络概率概率论论PDF 文件使用 pdfFactory Pro 试用版本创建 提纲提纲 2.1 信息检索模型的定义和分类信息检索模型的定义和分类 2.2 布尔模型布尔模型 2.3 向量空间模型向量空间模型 2.4 扩展布尔模型扩展布尔模型 2.5 概率模型概率模型 2.6 统计语言模型统计语言模型PDF 文件使用 pdfFactory Pro 试用版本创建 2.2 2.2 布尔模型布尔模型(Boolean Model)(Boolean Model)最早最早的的IR模型模型 1957年年,YBar-Hille就就对布尔对布尔逻辑逻辑应用于计应用于计算机算机信息信息检索的检索的可可能能性进行性进
7、行了了探讨探讨 目目前仍然前仍然应用于应用于商业商业系系统统中中 典典型型系系统统:LucenePDF 文件使用 pdfFactory Pro 试用版本创建 ExampleExample q=病毒病毒 and(计计算机算机 or 电脑电脑)and not 医医 D d1:据据报道报道计计算机算机病毒病毒最最近近猖獗猖獗 d2:小小王虽然王虽然是学是学医医的,的,但但对对研究研究电脑病毒电脑病毒也也感感兴趣兴趣 d3:计计算机算机程序程序发发现了现了艾滋病艾滋病病毒病毒传播途径传播途径 上上述述文档文档哪哪一一个会被个会被检索到?检索到?PDF 文件使用 pdfFactory Pro 试用版本创
8、建 PDF 文件使用 pdfFactory Pro 试用版本创建 PDF 文件使用 pdfFactory Pro 试用版本创建 PDF 文件使用 pdfFactory Pro 试用版本创建 2.2.12.2.1布尔模型的定义布尔模型的定义 Q 查询查询q被被表式表式成成索索引项引项的布尔的布尔组组合形式合形式 为为方方便便计计算算文档文档d和和查询查询q之之间的相间的相关度关度,一,一般般将将查询查询q的布尔的布尔表达式表达式转换成析转换成析取取范范式(式(Disjunctive Normal Form,DNF)的的形式形式 Exampleq=(ab)z(az)(bz)(1,0,1)(1,1,
9、1)(0,1,1)PDF 文件使用 pdfFactory Pro 试用版本创建 )()(q)(qExamplednf医电脑病毒医计算机病毒医电脑计算机病毒=PDF 文件使用 pdfFactory Pro 试用版本创建 D=d1,d2,di=i1,i2,in(ij0,1)F 完全完全匹配匹配方方式式 R If sim(di,q)=1,返回返回 If sim(di,q)=0,不返回不返回=其它对于任意如果存在0,1),(ijjqxiwwjqqdsimxPDF 文件使用 pdfFactory Pro 试用版本创建 ExampleExample D d1:a b c f g h d2:a f b x
10、y z q(ab)z(1,0,1)(0,1,1)(1,1,1)F sim(d1,q)=0 sim(d2,q)=1 R 将将文档文档2返回返回d1=(1,1,0)d2=(1,1,1)PDF 文件使用 pdfFactory Pro 试用版本创建 布尔模型的性能分析布尔模型的性能分析 优点优点 由由于模型简于模型简单且单且容容易易理理解解,经经过某种过某种训练训练的用户的用户可可以以容容易易地地写写出布尔出布尔查询式查询式,因而因而得到了得到了广广泛泛的应用,目的应用,目前仍然前仍然是实是实际际应用应用中最常中最常用的用的IR模型模型PDF 文件使用 pdfFactory Pro 试用版本创建 缺点
11、缺点 无无法体法体现文档现文档之之间的间的细微差别细微差别 相相关度关度的的大小大小只只有有两个两个值值,模型,模型这这种种“非此即彼非此即彼”的的二二值值判断标判断标准准无无法区法区分文档相分文档相关度大小关度大小的的细微差别细微差别 非非常常刚刚性性:“与与”意意味着全部味着全部;“或或”意意味着任何味着任何一一个个PDF 文件使用 pdfFactory Pro 试用版本创建 很难控制被很难控制被检索的文档数量检索的文档数量 原原则则上上讲讲,所有,所有被被匹配匹配的文档的文档都都将被返回将被返回 返回返回的文档要么过的文档要么过多多,要么过,要么过少少 很难很难对输出对输出进行排序进行排
12、序PDF 文件使用 pdfFactory Pro 试用版本创建 提纲提纲 2.1 信息检索模型的定义和分类信息检索模型的定义和分类 2.2 布尔模型布尔模型 2.3 向量空间模型向量空间模型 2.4 扩展布尔模型扩展布尔模型 2.5 概率模型概率模型 2.6 统计语言模型统计语言模型PDF 文件使用 pdfFactory Pro 试用版本创建 2.3 2.3 向量空间模型向量空间模型 向量空间模型向量空间模型(Vector Space Model,VSM)是是由由GSalton等人等人在在1958年年提提出的出的 代表系代表系统统 SMART(System for the Manipulati
13、on and Retrieval of Text)这这一一系系统统理论框架理论框架到现到现在在仍然仍然是信息检索是信息检索技术技术研究研究的的基础基础PDF 文件使用 pdfFactory Pro 试用版本创建 2.3.1 2.3.1 向量空间模型的定义向量空间模型的定义 D=d1,d2,di=(wi1,wi2,win)wij0 Q q=(wq1,wq2,wqn)wqj0 F 非完全非完全匹配匹配方方式式 R 在在VSM中中,由由于文档和于文档和查询查询都都是向量,是向量,因此因此用文档和用文档和查询查询两个两个向向量相量相似度来似度来估估计文档和计文档和查询查询的相的相关性关性 文档和文档和
14、查询之查询之间的相间的相关度关度具有具有较强较强的的可可计计算性算性和和可可操作操作性性,不不再再只只有有0和和1两个两个值值),(qdsimiPDF 文件使用 pdfFactory Pro 试用版本创建 文档中关键词的权重文档中关键词的权重 两方两方面面因因素素 词表达词表达文档文档内容内容的能的能力力 tfij关键词关键词的的词词频频(关键词(关键词tj在在文档文档di中中的的频频率率)词词区区分其所分其所在在文档与其文档与其它它文档的能文档的能力力 dfj关键词关键词的文档的文档频频率率(包含包含关键词关键词tj的文档数量的文档数量)Exampled1:土豆土豆的的美美容容功效功效d2:
15、土豆土豆的的栽培栽培d3:土豆土豆的的后期加后期加工工T=土豆、美土豆、美容容、栽培、加、栽培、加工工PDF 文件使用 pdfFactory Pro 试用版本创建 tf-idf(词(词频频-逆逆文档文档频频率率)公公式式wij=(tfij/maxjtfij)idfj idfj=log2(N/dfj)N 文档文档集中集中文档文档总总数数PDF 文件使用 pdfFactory Pro 试用版本创建 IdfIdf 计算示例计算示例PDF 文件使用 pdfFactory Pro 试用版本创建 查询式中关键词的权重查询式中关键词的权重如如果果词项词项出现出现在查询式中在查询式中,则则该该词项在查询式中词
16、项在查询式中的的权重权重为为1,否否则则为为0也可也可以以用用户用用户指指定定查询式中词项查询式中词项的的权重权重一一个个自自然然语言语言查询式查询式可可以以被被看看成成一一个个文档文档“有有没没有有周杰伦周杰伦的的歌歌?”“请帮我找请帮我找关关于于俄罗斯俄罗斯和和车臣车臣之之间的间的战争战争以及以及车臣车臣恐怖主恐怖主义义首首脑脑的的资料资料”PDF 文件使用 pdfFactory Pro 试用版本创建 2.3.2 2.3.2 常见相似度计算方法常见相似度计算方法 以以索索引项引项为为维维度度构构建建向量空间向量空间 2个个索索引项引项构构成成一一个二个二维维空间,一空间,一个个文档文档可可
17、能能包含包含0,1 或或2个个索索引项引项 di=0,0(一一个个索索引项引项也不也不包含包含)dj=0,0.7(包含包含其其中中一一个个索索引项引项)dk=1,2(包含包含两个两个索索引项引项)类类似似的,的,3个个索索引项引项构构成成一一个个三维三维空间,空间,n个个索索引项引项构构成成n维维空间空间 一一个个文档文档或查询式或查询式可可以表示以表示为为n个个元素元素的的线线性性组组合合PDF 文件使用 pdfFactory Pro 试用版本创建 文档文档集集一一般表示般表示 向量空间向量空间中中的的N个个文档文档可可以以用一用一个个矩阵矩阵表示表示 矩阵矩阵中中的一的一个个元素元素对应于
18、文档对应于文档中中一一个个词项词项的的权重权重。“0”意意味着味着该该词项在词项在文档文档中中没没有有意意义,义,或或该该词项词项不不在在文档文档中中出现。出现。t1t2.tnd111121nd221222n:dmm1m2mnPDF 文件使用 pdfFactory Pro 试用版本创建 d1=2T1+3T2+5T3d2=3T1+7T2+T3q=0T1+0T2+2T3T3T1T2d1=2T1+3T2+5T3d2=3T1+7T2+T3q=0T1+0T2+2T37325 d1比比d2更接更接近近q吗吗?怎样衡怎样衡量相量相似程度似程度?PDF 文件使用 pdfFactory Pro 试用版本创建 相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第02章 信息检索模型 02 信息 检索 模型
限制150内