《信息检索系统的评价ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息检索系统的评价ppt课件.ppt(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、n提 问 1 1 试解释试解释信息检索系统的内涵。信息检索系统的内涵。 2 2 什么是什么是”评价评价”?第十一章第十一章 信息检索系统评价信息检索系统评价 11.1 评价研究概述评价研究概述一、一、意义意义n评价评价(Evaluation):发现和收集关于某种活动的数据,发现和收集关于某种活动的数据,从中判断该项活动的质量及达到预期目标程度的行为从中判断该项活动的质量及达到预期目标程度的行为。 简单地说,评价就是对系统的价值和效率进行测评。简单地说,评价就是对系统的价值和效率进行测评。n信息检索系统评价信息检索系统评价:根据给定的根据给定的指标体系,采用一定的,采用一定的方法和程序,对信息检
2、索系统的,对信息检索系统的功能、特性和和运营状况进行进行评测评测,或对有关假设、预期效益、性能值进行,或对有关假设、预期效益、性能值进行验证验证,以确,以确定系统达到了何种水平、投入成本是否值得、是否可以改定系统达到了何种水平、投入成本是否值得、是否可以改进和如何进和如何改进,乃至系统是否应生存下去。,乃至系统是否应生存下去。第十一章第十一章 信息检索系统评价信息检索系统评价 11.1 评价研究概述评价研究概述一、一、意义意义 信息检索系统的评价研究,一直是信息检索领域的一项重要研究内容。多年来人们进行了大量的评价试验和多角度。多年来人们进行了大量的评价试验和多角度的探索。的探索。 原因在于,
3、检索系统评价工作在为研究者验证检索系统原因在于,检索系统评价工作在为研究者验证检索系统效益、比较各种检索技术的优劣、改进现有检索系统、开发效益、比较各种检索技术的优劣、改进现有检索系统、开发新的应用领域等方面,都具有不可替代的作用。新的应用领域等方面,都具有不可替代的作用。第十一章第十一章 信息检索系统评价信息检索系统评价 11.1 评价研究概述评价研究概述一、意义一、意义主要意义:n了解已有检索系统的功能,找出缺陷并改进;了解已有检索系统的功能,找出缺陷并改进;n比较各种检索系统的优劣;比较各种检索系统的优劣;n提高提高效率和效益;提高提高效率和效益;n有助于新的检索系统的设计;有助于新的检
4、索系统的设计;n丰富信息检索的理论。丰富信息检索的理论。 第十一章第十一章 信息检索系统评价信息检索系统评价 11.1 评价研究概述评价研究概述二、评价范围与类型二、评价范围与类型 信息检索系统是一个有众多功能模块组成的集合体。信息检索系统是一个有众多功能模块组成的集合体。 评价可以从不同角度、基于不同目的和方法来进行。评价可以从不同角度、基于不同目的和方法来进行。 评价范围评价范围:各种类型的检索系统及组成要素。:各种类型的检索系统及组成要素。 评价评价类型类型: 宏观评价宏观评价:着眼于检索系统的宏观方面,如情报源类型、系统:着眼于检索系统的宏观方面,如情报源类型、系统结构、收录范围、利用
5、率等。结构、收录范围、利用率等。 个别评价个别评价:仅对系统的某一性能、功能进行评价。:仅对系统的某一性能、功能进行评价。 性能评价性能评价(performance evaluation):面向用户的评价,测定检:面向用户的评价,测定检索系统的质量或服务效果。也称为检索效果评价索系统的质量或服务效果。也称为检索效果评价(effectiveness evaluation)。第十一章第十一章 信息检索系统评价信息检索系统评价 11.1 评价研究概述评价研究概述二、评价范围与类型二、评价范围与类型评价评价类型类型: 效益评价效益评价(benefits evaluation):测定系统或用户获得的的经
6、测定系统或用户获得的的经济效益和社会效益济效益和社会效益。 ( (有直接的、潜在的;难以直接计量有直接的、潜在的;难以直接计量) ) 费用费用/ /效果评价效果评价(cost effectiveness evaluation):考察系统考察系统达到的性能与费用消耗之间的关系达到的性能与费用消耗之间的关系。(用户、系统两方面)。(用户、系统两方面) 费用费用/ /效益评价效益评价(cost benefits evaluation):考察系统的服务考察系统的服务效益与费用消耗间的关系效益与费用消耗间的关系。(计量难度较大)。(计量难度较大) ( (详见详见P207P207的解释的解释) )第十一章
7、第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标 一、评价指标体系一、评价指标体系 要评价一个检索系统,必须有一套科学的评价标准。要评价一个检索系统,必须有一套科学的评价标准。 建立检索系统评价指标体系应遵循的原则:建立检索系统评价指标体系应遵循的原则:n各指标应定义单一、明确,具有可操作性。各指标应定义单一、明确,具有可操作性。n评价指标最好能够量化或计量。评价指标最好能够量化或计量。n指标要完善、细致、全面。指标要完善、细致、全面。 下面给出传统检索系统评价指标体系模型:(下面给出传统检索系统评价指标体系模型:(供参考供参考)第十一章第十一章 信息检索系统评价信息检索
8、系统评价 11.2 评价指标评价指标综合指标体系学习费用实验费用收录范围使用方便性检索结果形式查全率新颖性可存取性查准率存贮空间开销研制费用运行费用灵活性检索性能用户费用数据质量响应时间系统费用可靠性 逐一评价这些指标,可以判定检索系统的优劣。逐一评价这些指标,可以判定检索系统的优劣。 其中,比较重要的其中,比较重要的是检索性能指标。是检索性能指标。11.2 评价指标评价指标问 题:n什么是查全率、查准率什么是查全率、查准率? ?第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析1查全率和查准率查全率和查准率n查全率查全率
9、(Recall ratio,R):衡量一次检索中与提问相关的:衡量一次检索中与提问相关的文献有多少篇被检出。文献有多少篇被检出。(衡量检出相关文献的能力衡量检出相关文献的能力) 量数据库中的相关文献总检出的相关文献量R第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析1查全率和查准率查全率和查准率n查准率查准率(Precision ratio,P):衡量被检出的文献中有多少:衡量被检出的文献中有多少篇与提问相关。篇与提问相关。 (衡量检索的精确度衡量检索的精确度)检出文献总量检出的相关文献量P第十一章第十一章 信息检索系统
10、评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析 例: 设某检索系统的数据库中共有相关文献设某检索系统的数据库中共有相关文献20篇。针对某篇。针对某一个提问,检出文献总数为一个提问,检出文献总数为30篇,其中相关文献数为篇,其中相关文献数为15篇。求查全率篇。求查全率R、查准率、查准率P。%752015R%503015P第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析 为便于分析,我们给出数学语言描述:设某文献库所存储的文献总为便于分析,我们给出数学语言描述:设某文献库所存储的
11、文献总量为量为L。对某一给定提问,。对某一给定提问, a表示被检出的与提问相关的文献数;(表示被检出的与提问相关的文献数;(前例前例 a=15) b表示被检出的与提问无关的文献数;(误检,表示被检出的与提问无关的文献数;(误检,前例前例 b=15) c表示与提问相关,但未被检出的文献数(漏检,表示与提问相关,但未被检出的文献数(漏检,前例前例 c=5)caaR查全率baap查准率babE误检率cacQ漏检率显然,显然,p第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析1查全率和查准率查全率和查准率 下面讨论与查全率、查准
12、率有关的几个问题。下面讨论与查全率、查准率有关的几个问题。()查全率和查准率的相互关系()查全率和查准率的相互关系n一个理想的检索系统,应是、。一个理想的检索系统,应是、。 但实际上是不可能的。但实际上是不可能的。n一般说来,二者之间存在着一般说来,二者之间存在着反变关系反变关系,即:,即: 若要提高查全率,查准率往往就会下降;若要提高查全率,查准率往往就会下降; 若要提高查准率,查全率又就会下降。若要提高查准率,查全率又就会下降。 (二者相互制约)(二者相互制约)第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析()查全
13、率和查准率的相互关系()查全率和查准率的相互关系n与的关系可由下图描述:(与的关系可由下图描述:(称为称为图图)第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析1查全率和查准率查全率和查准率()影响查全率、查准率的相关因素()影响查全率、查准率的相关因素 文献库编制质量文献库编制质量 文献收集是否齐全,索引体系是否完善,检索途径的多少,文献收集是否齐全,索引体系是否完善,检索途径的多少,都会影响到查全率。都会影响到查全率。 对情报需求的理解对情报需求的理解 要达到较高的查全率和要达到较高的查全率和查准率查准率,应较好地理
14、解情报需,应较好地理解情报需求,制定好检索策略。求,制定好检索策略。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析()影响查全率、查准率的相关因素()影响查全率、查准率的相关因素 检索语言的一致性检索语言的一致性 检索的实质就是提问标识与文献标识的异同比较。检索的实质就是提问标识与文献标识的异同比较。 为此,需要不同人员表达文献主题的语言一致,更需要标识提问与为此,需要不同人员表达文献主题的语言一致,更需要标识提问与标识文献的语言一致。标识文献的语言一致。即,标引语言和检索语言的一致性,对查全和即,标引语言和检索语言的
15、一致性,对查全和查准起着支配作用。查准起着支配作用。 标引的网罗性标引的网罗性 对文献主题分析得越透彻,抽出的检索词越多,检索时可检出的相对文献主题分析得越透彻,抽出的检索词越多,检索时可检出的相关文献就越多,即查全率越高。但检出的文献并非全部适用,因而查关文献就越多,即查全率越高。但检出的文献并非全部适用,因而查准率降低。准率降低。 反之,如果标引时只标出中心主题,检出的文献必然比较适用,即反之,如果标引时只标出中心主题,检出的文献必然比较适用,即查准率较高。但漏检会增多,从而降低查全率。查准率较高。但漏检会增多,从而降低查全率。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2
16、评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析()影响查全率、查准率的相关因素()影响查全率、查准率的相关因素 检索词的专指性检索词的专指性 检索词选得词意越狭窄、越具体、越专深,检出的文献就会越对口,检索词选得词意越狭窄、越具体、越专深,检出的文献就会越对口,查准率就越高。但命中文献就越少,查全率就会降低。查准率就越高。但命中文献就越少,查全率就会降低。 相反,如果检索词定得较笼统、较宽泛,检出的文献就会增多,查相反,如果检索词定得较笼统、较宽泛,检出的文献就会增多,查全率会提高。但不相关的文献也会增多,查准率会降低。全率会提高。但不相关的文献也会增多,查准率会降低。 检索策略
17、和提问构造检索策略和提问构造 对检索词的选取,需恰当地确定网罗度和专指度。对检索词的选取,需恰当地确定网罗度和专指度。 当采用布尔组配时,若使用当采用布尔组配时,若使用AND较多,即限制严,则下降,而较多,即限制严,则下降,而上升;反之,若使用上升;反之,若使用OR较多,则上升,而下降。较多,则上升,而下降。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析()影响查全率、查准率的相关因素()影响查全率、查准率的相关因素 检索软件的功能检索软件的功能 检索软件功能是否完善,结构是否合理,影响到是否会漏检检索软件功能是否完善
18、,结构是否合理,影响到是否会漏检和误检。和误检。 检索者的熟练程度检索者的熟练程度 检索人员的专业知识水平、使用系统的熟练程度,对检索人员的专业知识水平、使用系统的熟练程度,对R和和P影影响很大。往往是响很大。往往是系统一方的检索者系统一方的检索者自拟定检索式时查准率高,自拟定检索式时查准率高,而而检索用户检索用户编制检索式时,因不熟悉系统和不善于使用系统,编制检索式时,因不熟悉系统和不善于使用系统,就容易造成误检、漏检。就容易造成误检、漏检。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析 1查全率和查准率查全率和查准
19、率()对查全率和查准率的要求()对查全率和查准率的要求 作为一个检索系统,应同时具备较强的查全能力和查准能力。作为一个检索系统,应同时具备较强的查全能力和查准能力。但并不是每个用户在任何时候都需要高查全率和高查准率,不但并不是每个用户在任何时候都需要高查全率和高查准率,不同用户有不同要求。同用户有不同要求。 通常,根据不同的情报需求,可分为四种要求:通常,根据不同的情报需求,可分为四种要求: a要求查全率要求查全率= 如申请专利、发明或评定某项成果,需要对世界范围的有关如申请专利、发明或评定某项成果,需要对世界范围的有关情报作全面了解,才能作出客观的评价。此时往往要求情报作全面了解,才能作出客
20、观的评价。此时往往要求=的检索。的检索。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析()对查全率和查准率的要求()对查全率和查准率的要求 b b要求较高查全率要求较高查全率 例如编写教材、综述某学科或技术领域的发展,往往需要较例如编写教材、综述某学科或技术领域的发展,往往需要较全面地获得有关文献或情报。此时对查全率有较高要求,但不全面地获得有关文献或情报。此时对查全率有较高要求,但不一定要求一定要求。 c c要求较高查准率要求较高查准率 例如要了解某种具体产品的有关信息,解决某一具体问题或例如要了解某种具体产品的有关
21、信息,解决某一具体问题或查新等,往往只需了解某一方面或某一时期的有关情报。此时查新等,往往只需了解某一方面或某一时期的有关情报。此时要求查准率较高要求查准率较高。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析()对查全率和查准率的要求()对查全率和查准率的要求 d d对查全率、查准率无具体要求对查全率、查准率无具体要求 有些情报需求,用户本身不能作出确切表达。因此,用户对有些情报需求,用户本身不能作出确切表达。因此,用户对查全率和查准率也无法提出具体要求。查全率和查准率也无法提出具体要求。 从上面的讨论可以看出,从上面
22、的讨论可以看出,在分析和评价某一检索的检索质量在分析和评价某一检索的检索质量时,不能千篇一律地追求查全率和查准率,而应具体问题具体时,不能千篇一律地追求查全率和查准率,而应具体问题具体分析。分析。二、主要性能指标及分析二、主要性能指标及分析2响应时间(响应时间(response time) 对任何计算机应用系统,响应时间都是一个重要指标。对任何计算机应用系统,响应时间都是一个重要指标。 信息检索的响应时间可分为两种情形:信息检索的响应时间可分为两种情形: (1)委托检索委托检索,表示从用户送交提问到收到检索结果所花的时间;,表示从用户送交提问到收到检索结果所花的时间; (2)非委托检索非委托检
23、索,表示用户实际的检索时间。,表示用户实际的检索时间。n计算响应时间一般都是针对某一个提问而言,不同的提问对应的响应计算响应时间一般都是针对某一个提问而言,不同的提问对应的响应时间不同。(时间不同。(因提问式长短、复杂程度而不同因提问式长短、复杂程度而不同) 有时给出平均响应时间有时给出平均响应时间T。ti表示对第表示对第i个提问的响应时间,个提问的响应时间,k为提问个数为提问个数kitikT11第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标问 题:n检索响应时间与哪些因素有关检索响应时间与哪些因素有关? ?第十一章第十一章 信息检索系统评价信息检索系统评价 1
24、1.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析 2响应时间响应时间 通过对检索响应时间的分析,我们可归纳出影响该指标的通过对检索响应时间的分析,我们可归纳出影响该指标的因素:因素: (1)(1)文献库规模文献库规模 规模越大,检索时间越长,响应时间值也就越大。规模越大,检索时间越长,响应时间值也就越大。 (2)(2)机器速度机器速度 主机运行速度越快,响应时间越短。主机运行速度越快,响应时间越短。 (3)(3)检索软件检索软件 检索软件是关键,其性能越好,检索时间就越短。检索软件是关键,其性能越好,检索时间就越短。第十一章第十一章 信息检索系统评价信息检索系统评价 11.
25、2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析2响应时间响应时间(4)(4)存储设备类型和数据的存贮结构存储设备类型和数据的存贮结构 存储设备的访问速度越快,数据的存贮结构(外存贮)存储设备的访问速度越快,数据的存贮结构(外存贮)越合理,检索越容易,响应时间也就越短。越合理,检索越容易,响应时间也就越短。(5)(5)提问组配形式提问组配形式 检索式的检索式的构造需要有一定的专业技能和检索经验,是一需要有一定的专业技能和检索经验,是一个不断修改和完善的过程。个不断修改和完善的过程。(6)(6)信息中心与检索者的距离信息中心与检索者的距离 通信传输时间与距离有关。通信传输时间与距
26、离有关。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析 存贮空间开销存贮空间开销 包括系统所占用的内存空间和外存空间。包括系统所占用的内存空间和外存空间。n对对内存空间内存空间,当检索系统采用大、中型计算机时,一般不必考,当检索系统采用大、中型计算机时,一般不必考虑;而当系统采用小型、微型机时,因内存空间有限,就需合虑;而当系统采用小型、微型机时,因内存空间有限,就需合理分配。理分配。n对对外存空间外存空间,不同的文档结构所需存储空间差别很大。例如,不同的文档结构所需存储空间差别很大。例如,顺排文档检索和倒排文档检索所
27、需空间不同;而对倒排检索,顺排文档检索和倒排文档检索所需空间不同;而对倒排检索,系统仅提供系统仅提供布尔检索布尔检索功能与提供功能与提供正文检索正文检索功能相比,所需的空功能相比,所需的空间也大不一样。间也大不一样。第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析 其它指标其它指标 (1)新颖率)新颖率(Novelty ratio,N):指一次检索中检出的相:指一次检索中检出的相关文献有多少篇是新文献。(关文献有多少篇是新文献。(反映文献库更新程度反映文献库更新程度) 检出的新的相关文献量检出的新的相关文献量n N = 检出的相关文献总量检出的相关文献总量第十一章第十一章 信息检索系统评价信息检索系统评价 11.2 评价指标评价指标二、主要性能指标及分析二、主要性能指标及分析其它指标其它指标(2)信息收录完备性)信息收录完备性(Coverage,C):也称收录范围,是:也称收录范围,是指文献库复盖的学科范围、信息类型、数量和时间跨度。指文献库复盖的学科范围、信息类型、数量和时间跨度。 给定时间内系统收录的文献总量给定时间内系统收录的文献总量 C = - 同期相关领域中的实际文献量同期相关领域中的实际文献量 谢谢 谢!谢!
限制150内