计算机基础信息检索PPT.ppt
《计算机基础信息检索PPT.ppt》由会员分享,可在线阅读,更多相关《计算机基础信息检索PPT.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.1 7.1.1 信息检索的概念信息检索的概念信息检索的概念信息检索的概念信信息息检检索索(Information Information RetrievalRetrieval)是是指指信信息息按按一一定定的的方方式式组组织织和和存存储储起起来来,并并根根据据信信息息用用户户的的需需要要找找出出有有关关信信息息的的过过程程和和技技术术。信信息息检检索索的的全全称称是是信信息息存存储储与与检检索索(Information Information Storage Storage RetrievalRetr
2、ieval),其其过过程程如如图图7.17.1所所示示。2020世世纪纪5050年年代代以以前前,信信息息的的存存储储和和传传播播主主要要是是以以纸纸介介质质为为载载体体,信信息息检检索索活活动动主主要要围围绕绕着着相相关关文文献献的的获获取取和和利利用用展展开开,因因此此“文文献献检检索索”成成为为信信息息检检索索的的同同义义词词而而被被广广泛泛地地使使用用。2020世世纪纪5050年年代代以以后后,信信息息传传播播与与存存储储呈呈多多元元化化发发展展,人人们们不不再再拘拘泥泥于于载载体体研研究究信信息息检检索索,开开始始更更多多地地使使用用“情情报报检检索索”这这一一术术语语。近近年年来来
3、,由由于于英英文文词词汇汇“Information”Information”既既可可以以翻翻译译为为信信息息,又又可可以以翻翻译译为为情情报报,而而汉汉语语中中信信息息一一词词要要比比情情报报的的含含义义更更为为丰丰富富,因因此此人人们们更更倾倾向向于于使使用用信信息息检检索索这一术语。这一术语。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.1 信息检索的概念信息检索的概念7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.1 7.1.1 信息检索的概念信息检索
4、的概念信息检索的概念信息检索的概念信信息息检检索索包包括括两两个个层层次次的的含含义义:广广义义的的信信息息检检索索和和狭狭义义的的信信息息检检索索。广广义义的的信信息息检检索索包包括括信信息息的的存存储储和和查查找找两两个个过过程程,如如图图7.17.1所所示示的的全全部部过过程程就就是是广广义义的的信信息息检检索索。信信息息的的存存储储就就是是将将大大量量无无序序的的文文献献信信息息进进行行搜搜集集、整整理理、归归类类,采采用用规规范范的的方方法法进进行行编编排排,编编制制出出各各种种检检索索系系统统。信信息息查查找找必必须须先先有有信信息息存存储储,而而信信息息存存储储就就是是为为了了更
5、更快快捷捷地地查查找找信信息息。信信息息查查找找则则是是信信息息存存储储的的逆逆向向过过程程,是是人人们们根根据据特特定定需需要要,运运用用已已有有的的检检索索系系统统,有有序序查查询询并并找找出出符符合合要要求求的的信信息息。狭狭义义的的信信息息检检索索是是指指信信息息的的查查找找过过程程,只只包包括括图图7.17.1中中的的后后半半部部分分,本书中讨论的信息检索就是狭义的信息检索。本书中讨论的信息检索就是狭义的信息检索。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.2 7.1.2 信息检索的类型信息检索的类型信息检索的类
6、型信息检索的类型n n1.1.根据检索对象划分根据检索对象划分根据检索对象划分根据检索对象划分n n根据检索对象的不同,信息检索分为文献检索、事实检索和数根据检索对象的不同,信息检索分为文献检索、事实检索和数据检索三种。据检索三种。n n(1 1)文献检索。文献检索以文献为检索对象,查找含有用户)文献检索。文献检索以文献为检索对象,查找含有用户所需信息的文献。文献检索是一种相关性检索而非确定性检索,所需信息的文献。文献检索是一种相关性检索而非确定性检索,系统不直接回答用户所提出的问题本身,它提供的是与用户信系统不直接回答用户所提出的问题本身,它提供的是与用户信息需求相关文献的线索或原文。息需求
7、相关文献的线索或原文。n n(2 2)事实检索。事实检索以特定的事实为检索对象,是存储)事实检索。事实检索以特定的事实为检索对象,是存储有关课题(如机构、人物等)的指示性描述,或关于某一事件有关课题(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息,并将其查找出来的检索,属发生的时间、地点、经过等信息,并将其查找出来的检索,属于确定性检索。于确定性检索。n n(3 3)数据检索。数据检索以数据为检索对象,属于确定性检)数据检索。数据检索以数据为检索对象,属于确定性检索,它是将经过选择、整理、鉴定的数据存入数据库中,根据索,它是将经过选择、整理、鉴定的数据存入数据库中,根
8、据需要查出可回答某一问题的数据的检索。例如,查找公式、数需要查出可回答某一问题的数据的检索。例如,查找公式、数据、图表、成分、性能等都属于数据检索的范畴。据、图表、成分、性能等都属于数据检索的范畴。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.2 7.1.2 信息检索的类型信息检索的类型信息检索的类型信息检索的类型n n2.2.按检索方式划分按检索方式划分按检索方式划分按检索方式划分n n按检索方式的不同,信息检索可以分为手工检索、机械检索和计算机检索按检索方式的不同,信息检索可以分为手工检索、机械检索和计算机检索三种方式。
9、三种方式。n n(1 1)手工检索。手工检索就是以人工的方式直接查找所需的信息,多利用)手工检索。手工检索就是以人工的方式直接查找所需的信息,多利用各种检索工具的印刷版来实现,例如印刷的目录、题录、文摘、索引等。各种检索工具的印刷版来实现,例如印刷的目录、题录、文摘、索引等。手工检索直观,不需要辅助设备,但速度慢、漏检严重。手工检索直观,不需要辅助设备,但速度慢、漏检严重。n n(2 2)机械检索。机械检索也称机电式检索,是指运用打孔机、分类机及光)机械检索。机械检索也称机电式检索,是指运用打孔机、分类机及光电感应设备等进行的检索。机械检索过分依赖设备,成本较高,检索效果电感应设备等进行的检索
10、。机械检索过分依赖设备,成本较高,检索效果和质量都不太理想。和质量都不太理想。n n(3 3)计算机检索。计算机信息检索是将大量的文献资料或数据进行加工整)计算机检索。计算机信息检索是将大量的文献资料或数据进行加工整理,按一定格式存储在数据库中,利用计算机对数据库进行检索的信息检理,按一定格式存储在数据库中,利用计算机对数据库进行检索的信息检索方式。与手工检索相比,计算机检索速度快、效率高、查全率高、不受索方式。与手工检索相比,计算机检索速度快、效率高、查全率高、不受时空限制、检索结果输出方式多样。时空限制、检索结果输出方式多样。n n除上述两种主要的分类方式外,信息检索还有另外多种分类方式。
11、例如按除上述两种主要的分类方式外,信息检索还有另外多种分类方式。例如按照检索对象的信息组织方式可以分为全文检索、超文本检索和超媒体检索;照检索对象的信息组织方式可以分为全文检索、超文本检索和超媒体检索;按照检索对象的形式可分为文本检索和多媒体检索;按照检索要求可分为按照检索对象的形式可分为文本检索和多媒体检索;按照检索要求可分为强相关检索和弱相关检索;按检索的时间跨度可分为定题检索和回溯检索。强相关检索和弱相关检索;按检索的时间跨度可分为定题检索和回溯检索。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.3 7.1.3 信息检
12、索模型信息检索模型信息检索模型信息检索模型n n1.1.布尔检索模型布尔检索模型布尔检索模型布尔检索模型n n布尔检索模型是基于集合论和布尔代数的一种简单检索模型。布尔检索模型是基于集合论和布尔代数的一种简单检索模型。由于集合是一个相当直观的概念,所以布尔检索模型为信息检由于集合是一个相当直观的概念,所以布尔检索模型为信息检索系统的普通用户提供了一种易于掌握的框架。在布尔检索模索系统的普通用户提供了一种易于掌握的框架。在布尔检索模型中,查询被描述为具有精确语义的布尔表达式。因为该模型型中,查询被描述为具有精确语义的布尔表达式。因为该模型的简单性和易于表示的形式方法,在很长一段时间内都受到重的简
13、单性和易于表示的形式方法,在很长一段时间内都受到重视。视。n n然而,布尔检索模型的缺点也是相当明显的。首先,该模型的然而,布尔检索模型的缺点也是相当明显的。首先,该模型的检索策略是基于二值决策准则,即一个文档只被判别为相关的检索策略是基于二值决策准则,即一个文档只被判别为相关的或无关的,而没有任何等级变化,难以提高检索性能,因此布或无关的,而没有任何等级变化,难以提高检索性能,因此布尔检索模型主要用于实现数据检索模型,而不是信息检索模型;尔检索模型主要用于实现数据检索模型,而不是信息检索模型;其次,这种方法将构造一个合适的查询的责任推到用户身上,其次,这种方法将构造一个合适的查询的责任推到用
14、户身上,用户必须详细规划自己的查询,其复杂程度不亚于编写程序,用户必须详细规划自己的查询,其复杂程度不亚于编写程序,普通用户无法用布尔表达式描述他们的查询请求。于是一些研普通用户无法用布尔表达式描述他们的查询请求。于是一些研究人员改进了布尔模型,提出了向量空间模型。究人员改进了布尔模型,提出了向量空间模型。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.3 7.1.3 信息检索模型信息检索模型信息检索模型信息检索模型n n2.2.向量空间模型向量空间模型向量空间模型向量空间模型n n向量空间模型是一种基于代数理论的检索模型。在
15、向量空间模型中,一个向量空间模型是一种基于代数理论的检索模型。在向量空间模型中,一个文档被描述成由一系列关键词组成的向量,每一个关键词都是这个向量空文档被描述成由一系列关键词组成的向量,每一个关键词都是这个向量空间中的一维。同样道理,来自用户的查询也可以用向量来表示。当进行一间中的一维。同样道理,来自用户的查询也可以用向量来表示。当进行一个查询时,向量空间模型将计算查询和文档表示之间的相似度,例如可以个查询时,向量空间模型将计算查询和文档表示之间的相似度,例如可以用两个向量之间的欧氏距离或两个向量之间的余弦夹角表示二者之间的相用两个向量之间的欧氏距离或两个向量之间的余弦夹角表示二者之间的相似度
16、,然后对检出的文档按照相似度进行降序排列,以实现文档与查询项似度,然后对检出的文档按照相似度进行降序排列,以实现文档与查询项的部分匹配,于是查询结果集中文档的排列顺序要合理的多。的部分匹配,于是查询结果集中文档的排列顺序要合理的多。n n与布尔检索模型相比,向量空间模型改善了检索性能,其部分匹配的策略与布尔检索模型相比,向量空间模型改善了检索性能,其部分匹配的策略允许所检索的文档与查询条件相近似,同时还能够按照文档与查询的相似允许所检索的文档与查询条件相近似,同时还能够按照文档与查询的相似度对文档进行排序。但在向量空间模型中,各索引项之间是互相独立的,度对文档进行排序。但在向量空间模型中,各索
17、引项之间是互相独立的,无法对文档中的索引项提供相关性信息,而在实际中,需要考虑各索引项无法对文档中的索引项提供相关性信息,而在实际中,需要考虑各索引项之间的相关性才能得到满意的查询结果。之间的相关性才能得到满意的查询结果。n n向量空间模型适合一般的文档集的相似性排序,通过查询扩展或相关反馈,向量空间模型适合一般的文档集的相似性排序,通过查询扩展或相关反馈,可以改善模型产生的结果集。向量空间模型与其他检索模型相比较,即使可以改善模型产生的结果集。向量空间模型与其他检索模型相比较,即使不是最优的,其性能也相当好的,因此该模型是目前普遍采用的信息检索不是最优的,其性能也相当好的,因此该模型是目前普
18、遍采用的信息检索模型。模型。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.3 7.1.3 信息检索模型信息检索模型信息检索模型信息检索模型n n3.3.概率检索模型概率检索模型概率检索模型概率检索模型n n概率检索模型是一种基于概率论的检索模型,试图在一个概率框架内处理概率检索模型是一种基于概率论的检索模型,试图在一个概率框架内处理信息检索问题。概率检索模型假设给定一个用户的查询,则有一个只包含信息检索问题。概率检索模型假设给定一个用户的查询,则有一个只包含相关文档且不包含无关文档的理想结果集,如果能够给出这个理想结果集相关
19、文档且不包含无关文档的理想结果集,如果能够给出这个理想结果集的描述,检索文档时就十分方便了。最初我们并不能精确给出理想结果集,的描述,检索文档时就十分方便了。最初我们并不能精确给出理想结果集,但猜测允许我们产生一个初步的对理想结果集的概率描述,用于检索出初但猜测允许我们产生一个初步的对理想结果集的概率描述,用于检索出初始的文档集,然后引入用户的交互,以改善理想结果集的概率描述。始的文档集,然后引入用户的交互,以改善理想结果集的概率描述。n n用户浏览检索出文档,并决定哪些文档是相关的,哪些是无关的。然后信用户浏览检索出文档,并决定哪些文档是相关的,哪些是无关的。然后信息检索系统利用这个信息,修
20、改理想结果集的描述。通过多次重复这个过息检索系统利用这个信息,修改理想结果集的描述。通过多次重复这个过程,不断修改描述并逐步接近理想结果集的真实描述。程,不断修改描述并逐步接近理想结果集的真实描述。n n从理论上讲,概率检索模型检出的文档将按照相关的概率降序排列,这符从理论上讲,概率检索模型检出的文档将按照相关的概率降序排列,这符合我们的查询要求。但在该模型中,需要最初将文档分为相关的和无关的合我们的查询要求。但在该模型中,需要最初将文档分为相关的和无关的两个集合,并且与向量空间模型一样,各索引项之间是独立的,无法对文两个集合,并且与向量空间模型一样,各索引项之间是独立的,无法对文档中的索引项
21、提供相关性信息。档中的索引项提供相关性信息。7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.4 信息检索效果的评价信息检索效果的评价n n检索效果(检索效果(Retrieval EffectivenessRetrieval Effectiveness)是指用户利用检索系统实施)是指用户利用检索系统实施检索的有效程度,也是某次检索满足用户信息需求的程度,它检索的有效程度,也是某次检索满足用户信息需求的程度,它直接反映了检索系统的性能和本次检索的成败。判定信息检索直接反映了检索系统的性能和本次检索的成败。判定信息检索效果的主要标准
22、包括查全率、查准率、漏查率、误查率等。效果的主要标准包括查全率、查准率、漏查率、误查率等。n n1.1.查全率查全率查全率查全率n n查全率(查全率(Recall RatioRecall Ratio)又称检全率,是指用户进行某次检索时,)又称检全率,是指用户进行某次检索时,系统检索出的所有信息量与检索系统中相关信息总量的比率,系统检索出的所有信息量与检索系统中相关信息总量的比率,具体可用下面的公式表示:具体可用下面的公式表示:7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.4 信息检索效果的评价信息检索效果的评价n n2.2.
23、查准率查准率查准率查准率n n查准率(查准率(查准率(查准率(Precision RatioPrecision Ratio)又称检准率,是指用户进行某次检索时,系统检)又称检准率,是指用户进行某次检索时,系统检)又称检准率,是指用户进行某次检索时,系统检)又称检准率,是指用户进行某次检索时,系统检索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:下面的公式表示:下面的公式表示
24、:下面的公式表示:n n3.3.漏查率漏查率漏查率漏查率n n漏查率(漏查率(漏查率(漏查率(Omission RatioOmission Ratio)又称漏检率,是指用户进行某次检索时,系统)又称漏检率,是指用户进行某次检索时,系统)又称漏检率,是指用户进行某次检索时,系统)又称漏检率,是指用户进行某次检索时,系统未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面的公式表示:的公式表示:的
25、公式表示:的公式表示:7.1 信息检索概述青岛大学公共计算机基础教学中心第第第第7 7章章章章 信息检索信息检索信息检索信息检索 7.1.4 信息检索效果的评价信息检索效果的评价n n4.4.误查率误查率误查率误查率n n误查率(误查率(误查率(误查率(Miss RatioMiss Ratio)又称误检率,是指用户进行某次检索时,系统检索)又称误检率,是指用户进行某次检索时,系统检索)又称误检率,是指用户进行某次检索时,系统检索)又称误检率,是指用户进行某次检索时,系统检索出的不相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:出的不相关信息量与检索出的信息总量的比率,具体可用下面的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 基础 信息 检索 PPT
限制150内