信息组织检索二.ppt
《信息组织检索二.ppt》由会员分享,可在线阅读,更多相关《信息组织检索二.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2、7 信息检索(二)信息检索(二)v1、信息检索模型(原理)v2、信息检索方法1 1、信息检索模型、信息检索模型(information retrieval model)v实现信息检索,就是要实现用户查询和文档集文档相似性匹配。检索系统采用的查询和文档集内部表示、相似匹配的方式决定所采用的检索策略和模式,从而引出各种不同的信息检索模型(information retrieval model)。v一个信息检索模型是将文档表示、查询以及它们之间的关系进行建模的框架,它由一个三元组表示:F D,Q,R (q i d j)其中,D是文档的表示,Q是查询的表示。R(q i d j)是一个排序函数,该函
2、数输出一个与查询表示 q i Q 和 d j D 的有关实数。这样就在文档之间根据查询 q I 定义了一个顺序。按照相似匹配度模式的不同可以分为:全文(full-text)检索 内容(content-based)检索v全文检索以从文本中找出与查询表示的字符串完全一致的部分为目的,检索结果为包含查询字符串的文本及其位置。v内容检索不必像全文检索那样进行完全一致的匹配,而是着眼于找出与查询语义相似的文本。2、内容检索模型v提取一组描述文本内容的词汇,称为索引项提取一组描述文本内容的词汇,称为索引项(termterm),用索引项的出现次数等来表示文本和查),用索引项的出现次数等来表示文本和查询请求。
3、询请求。v计算文本和查询请求间的相似度并依据大小排序输计算文本和查询请求间的相似度并依据大小排序输出检索结果。出检索结果。内容检索的模型有:v向量空间模型(vector space model)概率模型(probabilistic model)网络模型(network model)向量空间模型:v向量空间模型是Gerard Stalton等人在SMART系统中采用的模型,在信息检索领域为人们所熟知的一种传统的检索模型。v向量空间模型的最大特点是用多维向量表示文档和查询,通过计算向量间的相似度实现文档的相似检索。v涉及向量、矩阵、向量空间等线性代数知识。v设矩阵D为索引项-文本矩阵。其中各列是表
4、示文本信息的文本向量,各行是表示索引项信息的索引项向量(其中索引项是经过权重处理的元素)d11 d12 d1n D=d1 d2 dn=d21 d22 d2n dm1 dm2 dmnv查询语句与文本相同也用索引项权重为元素的向量表示。查询向量 q 表示如下:v q1 q=q2 q3 qmv检索时,找出与给定的查询语句相似的文本,这是通过计算查询向量 q 与各个文本向量 d J 间的相似度实现的。v向量间相似度的计算方法有多种,文本检索中最常使用的是计算余弦和内积的相似度。计算两个向量夹角的余弦函数:其它信息检索数学模型其它信息检索数学模型v概率模型v网络检索模型推理网络模型信念网络模型v遗传算法
5、(Holland,1975):交叉、变异、选择v粗糙集(Pawlak,1980s):模糊性和不确定性3、其他信息检索的相关技术1)信息过滤:从大量的信息中提取有用的信息,去除无用的信息。当新的文档加入到系统中时,只提取符合用户需求的信息,去除不符合的信息。在信息过滤系统中,把检索需求称为用户描述,把不断产生的新信息成为信息流。过滤系统根据用户描述文件选择用户感兴趣的信息,删除用户不需要的信息。信息流 过 滤 系 统内部表示内部表示内部表示匹配内部表示新产生的文档用户描述1用户描述2用户描述N与用户描述1相关的文档与用户描述2相关的文档与用户描述3相关的文档2)文本自动分类:v为了对大规模的文档
6、进行分类,需要由计算机进行自动处理,称为文本自动分类。v大致分为两种:一种是按照预先设定文本内容的类别(如政治、经济、科学等),确定文本内容属于哪一类,将文本放到所属的类别中。v一种是通过将相似的文本归为一组(聚类)的方法,把全体文档集合分为若干类。v文本自动分类原理为计算两个文本间的相似度,或文本与文本类别间的相似度,所以基本上可以采取与信息检索相似的技术实现。如基于向量空间模型的方法;基于规律模型的方法;基建于规则和基于识别学习的方法等。3)信息抽取v信息抽取系统的重要功能是从文档中抽取出特定的事实信息。例如:从新闻报道中抽取恐怖时间的详细情况,如时间、地点、做案者、袭击目标等。v被抽取出
7、来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析。因此可以把信息抽取系统看做是把不同文档中的信息转换成数据库记录的系统。v近年来,信息抽取的处理对象已经扩展到图像、视频、音频等其他媒体类型的数据。v目前的研究侧重于:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理技术、Web信息抽取等。v信息抽取技术对搜索引擎、信息安全、企业智能信息系统等许多应用领域具有相当重要的作用。v至今,已有不少公司以信息抽取技术产品为主。四、信息检索的主要方法常规法回溯法循环检索法常规检索法v以主题、分类、作者等为检索点,利用检索工具获得信息的方法。利用此
8、法要熟悉主要的检索工具的编排体例和作用。根据检索要求常规法又分为v:顺查法、倒查法、抽查法。顺查法、倒查法、抽查法。回溯法v又称追溯法、引文法。以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。该法获得文献的针对性比较强,尤其在没有检索工具或检索工具不齐备的情况下较实用。循环检索法v又称交替法、综合法。即利用回溯法和常规法交替检索的方法。先利用检索工具查找,得出一批相关文献,再利用回溯法按所附参考文献扩大检索线索。2、文本信息检索技术对文本信息进行查询,主要技术包括:布尔检索 截词检索 短语检索 限制检索等。布尔检索“逻辑与逻辑与”v运算符为“AND”,常用来限定多义词,进行缩检,提
9、高查准率。v制定 A AND B 的检索式,只能检出同时含有A 和B的信息资源。即连接的两个检索词必须同时出现在结果中。v几乎所有的网检工具都允许使用AND运算符构筑检索式。AB布尔检索布尔检索“逻辑或逻辑或”v运算符“OR”、或“+”号表示。常用来限定同义词,扩大检索范围,提高查全率。v制定“A OR B”检索式,可以检出含有A或B以及同时含有A和B的资源。既连接的两个词只要其中的任何一个出现在检索结果中,就算满足检索要求。A OR BAB 布尔检索布尔检索“逻辑非”一般用“NOT”或“”表示,常用于排除词间的虚假联系,进行缩检。几乎所有网检工具都允许使用NOT运算符,而LookSmart站
10、点不允许使用。A NOT BAB布尔逻辑检索举例:v已有文件为:vD1 full text searchvD2 inverted index filevD3 sequential search algorithmvD4 index search algorithmvD5 information retrieval algorithmv当给出查询表达式“search AND algorithm”时,查找出的文本为:v当给出查询表达式为“search OR algorithm”时,可查出文本:v当给出查询表达式为“NOT sequential”时,可查找出文本:v对运算符做复合运算时,可以形成更加
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 组织 检索
限制150内