信息检索技术精选PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《信息检索技术精选PPT.ppt》由会员分享,可在线阅读,更多相关《信息检索技术精选PPT.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息检索技术信息检索技术1 1第1页,此课件共52页哦内容提要内容提要n n倒排文档检索倒排文档检索n n加权检索加权检索n n全文检索全文检索2 2第2页,此课件共52页哦4.1 4.1 倒排文档检索倒排文档检索3 3第3页,此课件共52页哦信息检索系统的体系结构文本文本数据库数据库数据库数据库管理管理建索引建索引索引索引提问处理提问处理搜索搜索排序排序排序后排序后的文档的文档用户用户反馈反馈文本处理文本处理用户界面用户界面检出的文档检出的文档用户用户需求需求文本文本提问提问逻辑视图逻辑视图倒排文档倒排文档4 4第4页,此课件共52页哦建立索引的目的建立索引的目的n n对文档或文档集合建立索
2、引,以加快检索速度对文档或文档集合建立索引,以加快检索速度n n倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制n n倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。5 5第5页,此课件共52页哦在关系数据库上建索引在关系数据库上建索引n n这种想法也被应用于数据库技术中,即对数据库中需要经常这种想法也被应用于数据库技术中,即对数据库
3、中需要经常这种想法也被应用于数据库技术中,即对数据库中需要经常这种想法也被应用于数据库技术中,即对数据库中需要经常进行检索的域建立索引结构,进行快速的查询。进行检索的域建立索引结构,进行快速的查询。进行检索的域建立索引结构,进行快速的查询。进行检索的域建立索引结构,进行快速的查询。n n索引结构索引结构索引结构索引结构:hashing,B+-tree:hashing,B+-tree:hashing,B+-tree:hashing,B+-treen n可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进
4、行搜索n n精确地快速地查找精确地快速地查找精确地快速地查找精确地快速地查找地址地址姓名姓名姓名索引姓名索引查询式查询式:姓名姓名 =“张三张三”张三张三哈尔滨工业大学哈尔滨工业大学哈尔滨工业大学哈尔滨工业大学张三张三张三张三6 6第6页,此课件共52页哦对文档进行索引对文档进行索引n n索引结构索引结构索引结构索引结构:hashing,B+-trees,trieshashing,B+-trees,tries.n n可以进行部分匹配可以进行部分匹配可以进行部分匹配可以进行部分匹配:%computcomputcomputcomput%n n可以进行短语搜索可以进行短语搜索可以进行短语搜索可以进行
5、短语搜索:查找包含查找包含查找包含查找包含“computer computer graphgraphicsicsicsics”的文档的文档的文档的文档文档索引文档索引D1D1D2D2D3D3computercomputerD1,23,97,104D1,23,97,104D3,43D3,43graphicsgraphicsD2,5D2,5D3,44D3,44“computer”“computer”在在D1D1中出现的位置中出现的位置7 7第7页,此课件共52页哦倒排文档组成倒排文档组成n n倒排文档一般由两部分组成:词汇表倒排文档一般由两部分组成:词汇表(vocabularyvocabulary
6、)和记录表()和记录表(posting listposting list)n n词汇表词汇表是文本或文本集合中所包含的所有不同单是文本或文本集合中所包含的所有不同单词的集合。词的集合。n n对于词汇表中的每一个单词,其在文本中出现的对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列表,所有位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为这些列表的集合就称为记录表记录表8 8第8页,此课件共52页哦一般的倒排索引一般的倒排索引n n索引文件可以用任何文件结构来实现索引文件可以用任何文件结构来实现n n索引文件中的词项是文档集合中的词表索引文件中的词项是文档
7、集合中的词表索引文件中的词项是文档集合中的词表索引文件中的词项是文档集合中的词表architecturearchitecturecomputercomputerdatabasedatabaseretrievalretrieval.D D1 1,a,a1 1D D1 1,a,a2 2D D1 1,a,a3 3索引项索引项索引项索引项/词表词表词表词表索引索引索引索引/索引文件索引文件索引文件索引文件/索引数据库索引数据库索引数据库索引数据库Postings Postings 列表列表列表列表Q=term1,term2,term3,.Q=term1,term2,term3,.附加信息附加信息附加信
8、息附加信息例如:词位置,出现例如:词位置,出现例如:词位置,出现例如:词位置,出现次数次数次数次数9 9第9页,此课件共52页哦例子例子1 12 23 34 45 56 67 78 89 91010111112121313141415151616这这这这是是是是一本一本一本一本 关于关于关于关于 信息信息信息信息 检检检检索索索索的的的的教材教材教材教材。介介介介绍绍绍绍了了了了检检检检索索索索的的的的基本基本基本基本 技技技技术术术术。技术技术教材教材检索检索信息信息 15,15,8,8,6,12,6,12,5,5,词汇表词汇表Posting listPosting list文本文本倒排文件
9、倒排文件1010第10页,此课件共52页哦以文本为记录表以文本为记录表 记录表既可以存储文本中记录表既可以存储文本中记录表既可以存储文本中记录表既可以存储文本中单词的编号位置单词的编号位置单词的编号位置单词的编号位置,也可以指向,也可以指向,也可以指向,也可以指向单词首字单词首字单词首字单词首字母的字符位置母的字符位置母的字符位置母的字符位置,还可以是其,还可以是其,还可以是其,还可以是其所在的文本编号所在的文本编号所在的文本编号所在的文本编号,下图是一个以文本,下图是一个以文本,下图是一个以文本,下图是一个以文本为记录表的情况为记录表的情况为记录表的情况为记录表的情况1111第11页,此课件
10、共52页哦距离约束:需要位置信息为记录表距离约束:需要位置信息为记录表n n常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:“databasedatabasedatabasedatabase”后面紧跟着后面紧跟着后面紧跟着后面紧跟着“systemssystemssystemssystems”n n例如:短语搜索例如:短语搜索例如:短语搜索例如:短语搜索 “database systemsdatabase systemsdatabase systemsdatabase systems”“databasedatabasedatabas
11、edatabase”和和和和“systemssystemssystemssystems”之间不能间隔超过之间不能间隔超过之间不能间隔超过之间不能间隔超过3 3 3 3个词个词个词个词“databasedatabasedatabasedatabase”和和和和“architecturearchitecturearchitecturearchitecture”在同一个句子里在同一个句子里在同一个句子里在同一个句子里n n需求扩展需求扩展需求扩展需求扩展:倒排索引中保存着关键词在文档中的位置,文档的组成单元倒排索引中保存着关键词在文档中的位置,文档的组成单元倒排索引中保存着关键词在文档中的位置,文档
12、的组成单元倒排索引中保存着关键词在文档中的位置,文档的组成单元(标题标题标题标题,小标题小标题小标题小标题,句子分割标记等句子分割标记等句子分割标记等句子分割标记等)检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元1212第12页,此课件共52页哦以位置信息为记录表以位置信息为记录表 保存段落、句子和词的位置:保存段落、句子和词的位置:保存段落、句子和词的位置:保存段落、句子和词的位置:databasedatabasefilefilesystemssy
13、stems.D D345345,25,25D D348348,37,37D D350350,8,8D D123123,5,5D D128128,25,25D D345345,25,25n n保存倒排表中的位置信息保存倒排表中的位置信息保存倒排表中的位置信息保存倒排表中的位置信息:保存句子位置保存句子位置保存句子位置保存句子位置:文档文档文档文档D D350350第第第第8 8句句句句databasedatabasefilefilesystemssystems.D D345345,2,3,5,2,3,5D D348348,37,5,9,37,5,9D D350350,8,12,1,8,12,1D
14、 D123123,5,4,3,5,4,3D D128128,25,1,12,25,1,12D D345345,2,3,6,2,3,6文档文档文档文档D D350350第第第第8 8段,第段,第段,第段,第1212句句句句第第第第1 1个词个词个词个词1313第13页,此课件共52页哦以权重信息为记录表以权重信息为记录表n n可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索:databasedatabasefilefilesystemssystems.D D345345,10,10D D348
15、348,20,20D D350350,1,1D D123123,82,82D D128128,8,8D D345345,12,12在在在在DD345345中中中中“systems”“systems”比比比比“database”“database”重要重要重要重要1.21.2倍倍倍倍n nPostingsPostingsPostingsPostings中的第二个单元可以是该中的第二个单元可以是该中的第二个单元可以是该中的第二个单元可以是该termtermtermterm的权重的权重的权重的权重(例如例如例如例如,可以被可以被可以被可以被归一化在归一化在归一化在归一化在0 0 0 0和和和和1 1
16、 1 1之间之间之间之间),或者是该,或者是该,或者是该,或者是该termtermtermterm的出现频率的出现频率的出现频率的出现频率1414第14页,此课件共52页哦同义词扩展词汇表同义词扩展词汇表n n同义词对于提高召回率很有意义同义词对于提高召回率很有意义同义词对于提高召回率很有意义同义词对于提高召回率很有意义n n同义词可以通过指针指向同一个同义词可以通过指针指向同一个postings list.postings list.postings list.postings list.databasedatabasedatabasesdatabasessystemssystemsD D3
17、45345,2,3,5,2,3,5D D348348,37,5,9,37,5,9D D350350,8,12,1,8,12,1D D123123,5,4,3,5,4,3D D128128,25,1,12,25,1,12D D345345,2,3,6,2,3,6datasetdataset1515第15页,此课件共52页哦建立索引的过程建立索引的过程1616第16页,此课件共52页哦建立索引的过程建立索引的过程n n识别文档中的词识别文档中的词识别文档中的词识别文档中的词n n删除停用词删除停用词删除停用词删除停用词(stop wordsstop wordsstop wordsstop word
18、s)n n提取词干提取词干提取词干提取词干(stemmingstemmingstemmingstemming)n n用索引项的标号代替词干用索引项的标号代替词干用索引项的标号代替词干用索引项的标号代替词干(stemsstemsstemsstems)n n统计词干的数量统计词干的数量统计词干的数量统计词干的数量(tf tf tf tf)n n(可选可选可选可选)对低频词项使用同义词词典对低频词项使用同义词词典对低频词项使用同义词词典对低频词项使用同义词词典(thesaurusthesaurusthesaurusthesaurus)n n(可选可选可选可选)对高频词项构成短语对高频词项构成短语对高
19、频词项构成短语对高频词项构成短语n n计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重1717第17页,此课件共52页哦英文词根还原英文词根还原(Stemming)(Stemming)n n进行词根还原:进行词根还原:stop/stops/stopping/stoppedstop/stops/stopping/stopped stopstop好处:减少词典量;坏处:按词形查不到,好处:减少词典量;坏处:按词形查不到,词根还原还可能出现错误词根还原还可能出现错误n n不进行词根还原:不进行词根还原:S
20、toppedStopped sto+ppe+dsto+ppe+d好处:支持词形查询;坏处:增加词典量好处:支持词形查询;坏处:增加词典量1818第18页,此课件共52页哦停用词消除停用词消除n n停用词(stop words)是指那些出现频率高但是无重要意义,通常不会作为查询词出现的词,如“的”、“地”、“得”、“都”、“是”等等消除:通常是通过查表的方式去除,去除的好处-大大较少索引量,坏处-有些平时的停用词在某些上下文可能有意义保留:索引空间很大1919第19页,此课件共52页哦建立索引的过程建立索引的过程 举例举例n n输入文本输入文本输入文本输入文本 The analysis of 2
21、5 indexing algorithms has not produced consistent retrieval The analysis of 25 indexing algorithms has not produced consistent retrieval performance.The best indexing technique for retrieving documents is not knownperformance.The best indexing technique for retrieving documents is not knownn n删除删除删除
22、删除stopwordsstopwordsstopwordsstopwords analysis indexing algorithms produced consistent retrieval performance best indexing analysis indexing algorithms produced consistent retrieval performance best indexing technique retrieving documents knowntechnique retrieving documents knownn nStemmingStemming
23、 analysis index algorithm produc consistent retriev perform best index technique retriev analysis index algorithm produc consistent retriev perform best index technique retriev document knowndocument knownn n转换为索引编号转换为索引编号转换为索引编号转换为索引编号 123 345 110 2234 432 3565 2302 566 345 4321 3565 755 1128123 34
24、5 110 2234 432 3565 2302 566 345 4321 3565 755 1128n n计算计算计算计算tf tf tf tf 110 1 123 1 345 2 1 432 1 566 1 755 1 1128 1 2302 1 2344 1 3565 2 110 1 123 1 345 2 1 432 1 566 1 755 1 1128 1 2302 1 2344 1 3565 2 4321 14321 1n n计算词项的权值计算词项的权值计算词项的权值计算词项的权值(依赖于使用的模型依赖于使用的模型依赖于使用的模型依赖于使用的模型)2020第20页,此课件共52页哦
25、检索过程检索过程n n给定给定给定给定queryqueryn n对对对对queryqueryqueryquery进行进行进行进行stemmingstemmingstemmingstemming,算法与对文档的处理相同,算法与对文档的处理相同,算法与对文档的处理相同,算法与对文档的处理相同n n用索引编号代替用索引编号代替用索引编号代替用索引编号代替stemsstemsstemsstemsn n计算所有计算所有计算所有计算所有query termsquery terms的权重的权重的权重的权重n n形成形成形成形成queryqueryqueryquery向量(对向量(对向量(对向量(对VSMVS
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 技术 精选 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内