第6章 信息检索与服务PPT讲稿.ppt
《第6章 信息检索与服务PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第6章 信息检索与服务PPT讲稿.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章 信息检索与服务第1页,共73页,编辑于2022年,星期一6.1 信息检索技术n6.1.1 检索模型概述n6.1.2 布尔模型n6.1.3 向量空间模型n6.1.4 概率模型n6.1.5 全文检索n6.1.6 语义检索第2页,共73页,编辑于2022年,星期一6.1 信息检索技术(续)n6.1.7 超文本模型n6.1.8 多媒体检索n6.1.9 跨语言检索n6.1.10分布式检索n6.1.11 P2P检索n6.1.12 网格信息检索第3页,共73页,编辑于2022年,星期一信息检索过程n信息检索过程实际上涉及到三个重要的处理:n文档集的逻辑表示n查询的表示n相似匹配及其排序n对上述因素和
2、检索过程建模(抽象描述),产生各种不同的信息检索模型第4页,共73页,编辑于2022年,星期一图6-1 信息检索系统的一般模型表达式构造表达式构造标引标引信息资源信息资源信息资源信息资源替代替代物物需求替代物需求替代物用户需求用户需求检索结果检索结果相关性判断相关性判断第5页,共73页,编辑于2022年,星期一6.1.2 布尔模型n布尔检索模型的理论基础是布尔逻辑和集合理论第6页,共73页,编辑于2022年,星期一6.1.2 布尔模型n布尔逻辑主要内容:命题逻辑与谓词逻辑n布尔逻辑是数理逻辑的基础部分n利用符号来表示逻辑中的各种概念n建立了一系列的运算法则,利用代数的方法研究逻辑问题第7页,共
3、73页,编辑于2022年,星期一布尔运算n布尔逻辑运算符:n“与(AND)”、“或(OR)”、“非(NOT)”运算的定义 第8页,共73页,编辑于2022年,星期一传统布尔检索模型 n文献表示n将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0”即“1”,表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中,则元素取值为1,反之则取0。n给定一个文献集合D,包含m篇文献,分别用d1,d2,d3dm表示。再给出一个标引词集合T,包含n个标引词t1,t2,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为(di1,di2,din)
4、第9页,共73页,编辑于2022年,星期一传统布尔检索模型 n查询表示 n在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式,也即相应的布尔表达式n例如:n1)“飞碟”n2)“飞碟”AND“美国”n3)“飞碟”AND(“中国”OR (NOT“科幻小说”)第10页,共73页,编辑于2022年,星期一传统布尔检索模型 n查询表示 n布尔提问式q=t1 and(t2 or not t3)nq的主析取范式(t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and
5、 not t3)nq的简化形式qdnf (1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3个合取子项(合取子项可用符号qcc表示)第11页,共73页,编辑于2022年,星期一传统布尔检索模型 n匹配函数n菊池敏典算法 第12页,共73页,编辑于2022年,星期一传统布尔检索模型 n文献D1=(t1,t2,not t3)n查询Q=t1 and t2 and not t3第13页,共73页,编辑于2022年,星期一布尔检索示例布尔检索示例第14页,共73页,编辑于2022年,星期一传统布尔查询的评价 n该模型结构简单、容易实现和快
6、速检索。第15页,共73页,编辑于2022年,星期一传统布尔查询的评价 n布尔模型在检索系统的开发与应用中表现出的主要问题有:n(1)准确匹配(exact matching)策略问题。布尔模型采用准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的”,要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。n(2)布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。第16页,共73页,编辑于2022年,星期一传统布尔查询的评价 n为了弥补这些缺陷
7、,发展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模型。第17页,共73页,编辑于2022年,星期一6.1.3 向量空间模型n向量空间模型(Vector space model)介绍n向量空间模型(VSM)的评价第18页,共73页,编辑于2022年,星期一向量空间模型介绍n1.文献空间n(1)文献空间的概念n文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”n在一个文献空间内,用向量D1来代表某一文献,则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重n文献与空间点n(2)标引词空间第19页,共73页,编辑于2022年,星期一向
8、量空间模型介绍T2T3T1D1=d11,d12,d13 D2=d21,d22,d23 D3=d31,d32,d33 图图 三维文献空间三维文献空间第20页,共73页,编辑于2022年,星期一向量空间模型介绍n2.项权重 n(1)词频 n越重要的项分配越高的权值n可以用词频来作为该项的权重(用tf表示)n(2)文献频率 n假设存在一个文献集合,其中大部分的文献都包含了某一项,则说明该项对某一主题的专指度较差,可能就不太重要 n在设计项权重时,要考虑逆文献频率(用idf表示)第21页,共73页,编辑于2022年,星期一向量空间模型介绍n2.项权重 n(3)权重的规范化处理 n为了抵消由篇幅带来的不
9、同影响,经常要对项权重进行规范化处理n在各种规范化方法中,余弦规范是一种常用、有效的方法:tfidf权重/文献向量的欧氏长度 第22页,共73页,编辑于2022年,星期一向量空间模型介绍n3.文献向量与查询向量的匹配 n匹配函数n利用向量的内积运算,得到文献向量Di与查询向量q之间的相似度 nSim(Di,q)=Diqn简单n存在的一个主要的不足是它忽略了项之间存在一些相互联系的事实。通常,需要引入一些特别的方法来改进这个相似度计算公式,使得其能够考虑到项的相互联系这一重要因素第23页,共73页,编辑于2022年,星期一相似度的计算n内积相似度运算n余弦相似度n“距离”相似度运算n等等第24页
10、,共73页,编辑于2022年,星期一向量空间模型的评价v优点v简单,功能却非常强大v能将非结构化的文献表示成向量的形式,使得各种数学处理成为可能 v模型的检索效果和布尔检索模型比起来,要好得多 v不足v忽略项之间存在的相互联系,必然使得检索效果产生极大的偏差 v传统向量处理模型不能处理布尔表达等结构化查询v改进v广义向量空间模型(GVSM)、潜在语义标引(LSI)、概率向量处理模型以及基于语义分析的向量空间模型(SVSM)第25页,共73页,编辑于2022年,星期一6.1.4 概率模型概率模型n概率论模型主要基于概率论原理来理解和解决信息检索问题n主要有早期的经典概率模型(又称为二值独立检索模
11、型,英文简称BIR)n基于贝叶斯网络的推理网络模型和信念网络模型等nINQUERY检索系统是基于概率模型的代表第26页,共73页,编辑于2022年,星期一6.1.4 概率模型概率模型n基本思路:n给定一个用户提问,则检索系统中存在着一个与该提问相关的理想命中结果集合R(该集合只包括与查询完全相关的文档而不包括其他不相关的文档)n在用户提出检索要求时,检索系统并不知道这个理想结果集合的特性n在检索开始之时就需要对R的特性进行某种猜测n根据初始的猜测,检索系统检索到一个初步的命中结果集合n基于相关反馈的原理,需要进行一个逐步求精的过程 第27页,共73页,编辑于2022年,星期一6.1.4 概率模
12、型概率模型检索问题转化为求条件概率问题If Prob(R|di,q)Prob(NR|di,q)then di是检索结果,否则不是检索结果第28页,共73页,编辑于2022年,星期一6.1.5 全文检索全文检索 n直接在全文中进行匹配检索n获得的也是全文信息而非文献线索 n全文检索技术以其较高的查准率和查全率被广泛应用于网络信息的检索中 n全文检索还提供位置检索功能第29页,共73页,编辑于2022年,星期一6.1.5 全文检索全文检索 n全文检索模型中信息资源的逻辑表示n全文索引 n目前常见的全文检索模型主要有n倒排表、署名文件、位图、Pat树和Pat数组等模型n从中文语言特点出发提出的互关联
13、后继树模型等第30页,共73页,编辑于2022年,星期一6.1.5 全文检索全文检索 n基于单汉字的全文索引n索引倒排结构 单汉字(主键字)记录号段落号位置号单汉字(主键字)记录数记录号1该记录位置集合记录号1该记录位置集合 第31页,共73页,编辑于2022年,星期一6.1.5 全文检索全文检索n以倒排表模型为基础的全文检索有检索速度快,与原文无关的特点n其缺点主要包括两个方面:n首先,空间和时间效率低;n其次,当文本集合不断变化时,需要不断重建全文索引n第一个问题通常采用压缩技术和更加高效的编码策略加以解决第32页,共73页,编辑于2022年,星期一6.1.5 全文检索全文检索n全文检索模
14、型中的查询表示n通常采用布尔模型的查询表示方式第33页,共73页,编辑于2022年,星期一6.1.5 全文检索全文检索n全文检索模型中的匹配方式n检索的匹配算法一般是根据索引结构而研制的n检索速度取决于匹配算法,一个优秀的全文检索算法,在百兆级的数据库中,检索速度应该在秒级水平,否则,不能算是一个好的全文检索算法nLucene第34页,共73页,编辑于2022年,星期一6.1.5 全文检索全文检索n全文检索技术指标n基本指标有:查全率、查准率、检索速度、索引膨胀率等n索引的膨胀系数是指针对全文所建的索引文件大小与全文文件大小之比,其中索引文件的大小取决于索引的结构n没有为全文创建索引的全文检索
15、系统,其膨胀系数为0第35页,共73页,编辑于2022年,星期一6.1.6 语义检索语义检索n基于关键词匹配的传统文本信息检索技术对语义匹配的支持能力较差,其性能取决于用户对方法的理解,具有很大的局限性n尽管基于关键词匹配的检索技术已经经过多次改进,但是由于没有添加语义处理方面的功能,检索性能没有得到本质的改善,那些没有被文字直接表述出来但隐含在文本内容中的一些重要的信息无法被检索n语义检索是对检索条件、信息组织以及检索结果显式赋予了一定语义成分的一种新的检索方式n与传统关键词检索相比,它更加强调语义,其性能明显改善第36页,共73页,编辑于2022年,星期一图图6-3 基于本体的文本信息检基
16、于本体的文本信息检索系统的一般模型索系统的一般模型 实体关系标引实体关系标引指导主题标引指导主题标引指导查询表达式的构造本体指导查询表达式的构造本体表达式构造表达式构造主题标引主题标引文档文档带所属领域标带所属领域标识的标引词序识的标引词序列列查询表达式查询表达式检索结果检索结果相关性判断相关性判断领域概念关系本体集领域概念关系本体集指导实体关系标引指导实体关系标引指导查询本体的构造本体指导查询本体的构造本体领域实体关系本体集领域实体关系本体集实体关系本体实体关系本体相关性匹配相关性匹配用户需用户需求求查询本体查询本体指导实体关系标引指导实体关系标引查询本体构造查询本体构造第37页,共73页,
17、编辑于2022年,星期一6.1.7 超文本模型超文本模型n所谓超文本,既是一种信息的组织形式,也是一种信息检索技术n超文本不是单纯以线性方式存储文本,而是附加了一种非线性结构来组织信息,即在文本中设置若干超级链接(简称超链)指向相关位置,以确保在顺序阅读文献的同时,还可以顺着超级链接的指引“跳跃”阅读信息n超文本组织强调了信息与对象之间的联系关系,符合人们联想式阅读和思维习惯 第38页,共73页,编辑于2022年,星期一6.1.7 超文本模型超文本模型n超文本技术的优点n1)非线性的组织结构n2)以信息单元为检索对象n3)体现了信息层次关系n4)交互更加友好n5)信息内容丰富多样n6)避免了检
18、索语言的复杂性第39页,共73页,编辑于2022年,星期一6.1.7 超文本模型超文本模型n超文本技术的缺陷n1)偶然发现 n2)失控 n3)迷航第40页,共73页,编辑于2022年,星期一6.1.8 多媒体检索多媒体检索 n多媒体信息的检索主要是研究如何快速有效地获取多媒体信息所涉及的相关技术,它包括多媒体信息的压缩、组织、检索和展示等n由于多媒体信息与文本信息的组织方式和表现形式完全不同,所涉及的检索技术也存在着较大差异 第41页,共73页,编辑于2022年,星期一6.1.8 多媒体检索多媒体检索 n基于文本的多媒体信息检索方法是多媒体信息检索最常用的方法 n基于内容的多媒体信息检索方法是
19、一种新型的检索技术,它融合了图像理解、模式识别、计算机视觉等技术,直接根据描述媒体对象内容的各种特征进行检索,从数据库中查找到具有指定特征或含有特定内容的声音、图像、视频等对象 第42页,共73页,编辑于2022年,星期一6.1.9 跨语言检索 n跨语言信息检索是指用户以一种语言提问,检出另一种语言或多种语言描述的相关信息n跨语言信息检索的主要实现方法有:提问式翻译法、文献翻译法、提问式文献翻译法、中间翻译法、不翻译法、提问式构造法和音译法等方法第43页,共73页,编辑于2022年,星期一6.1.10分布式检索分布式检索n分布式信息检索主要是指在分布式的环境中,利用分布式计算和移动代理等技术从
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第6章 信息检索与服务PPT讲稿 信息 检索 服务 PPT 讲稿
限制150内