《信息检索系统的评价.ppt》由会员分享,可在线阅读,更多相关《信息检索系统的评价.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息检索系统的评价信息检索系统的评价现在学习的是第1页,共35页评价评价n评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等;n 竞技体育:世界记录 vs. 世界最好成绩n110米栏世界记录:梅里特,美国,1280n 男子马拉松世界最好成绩:保罗 特尔加特,肯尼亚,2小时4分55秒现在学习的是第2页,共35页为什么要对为什么要对IR进行评价?进行评价?n 信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动;n 从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量;现在学习的是第3页,共35
2、页IR的评价指标的评价指标n 针对一个检索系统,可以从功能和性能两个方面对其进行分析评价n功能评价n 可通过测试系统来判定是否支持某项功能,因此相对来说较容易n性能评价n 对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序现在学习的是第4页,共35页性能评价指标性能评价指标n 在评价和比较检索系统的检索性能需要以下条件:n 一个文档集合C;n 系统将从该集合中按照查询要求检出相关文档。n 一组用户查询要求q1, q2, , qn;n 每个查询要求qi描述了用户的信息需求。n 对应每个用户查询要求的标准相关文档集R1, R2, Rn;n 该集合可由人工方式构
3、造。n 一组评价指标;n 这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值。现在学习的是第5页,共35页评价任务示例评价任务示例系统&查询1234系统1,查询1d3d6d8d10系统1,查询2d1d4d7d11系统2,查询1d6d7d3d9系统2,查询2d1d2d4d13现在学习的是第6页,共35页整个文档集合的划分整个文档集合的划分Ra未检索出的不相关文档检索出的不相关文档检索出的相关文档未检索出的相关文档检索出(Retrieved)未检索出(Not Retrieved)不相关(Not Relevant)相关(Releva
4、nt)整个文档集合C现在学习的是第7页,共35页四种关系的表示四种关系的表示检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关相关文本相关文本检出相关文档相关文档检出文档检出不相关文档未检出相关文档现在学习的是第8页,共35页准确率和召回率准确率和召回率n 正确率正确率(Precision): 检出的检出的相关文档数相关文档数与与检出文档检出文档数数的比值,也称为的比值,也称为查准率查准率;n召回率召回率(Recall): 系统检出的相关文档数相关文档数与实际相实际相关文档数目关文档数目的比值,也称为查全率查全率。ARaPRRaR现在学习的是第9页,共35页示例示例n假设用户
5、查询q为一个给定的查询式,而包含q的相关文档集合Rq为下面的文档集合: Rq=d2,d5,d9,d12,d23 而针对q的检出相关文档集合为: Aq=d3,d4,d5,d6,d8,d10,d12,d19,d20,d23求检索的准确率和召回率。10现在学习的是第10页,共35页准确率和召回率的关系准确率和召回率的关系11101准确率召回率返回最相关的文本返回最相关的文本但是漏掉了很多但是漏掉了很多相关文本相关文本理想情况理想情况返回了大多数相关文档返回了大多数相关文档但是包含很多垃圾但是包含很多垃圾现在学习的是第11页,共35页准确率准确率/召回率曲线召回率曲线n假设用户查询q为一个给定的查询式
6、,而包含q的相关文档集合Rq为下面的文档集合: Rq=d2,d5,d9,d12,d23 检索系统对查询q返回的前10个文档Aq的排序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20现在学习的是第12页,共35页准确率准确率/召回率曲线召回率曲线准确率00.20.40.60.810.20.40.60.81召回率现在学习的是第13页,共35页11点标准召回率点标准召回率n计算召回率分别为0、10%、20%, 100%下的准确率准确率00.20.40.60.810.20.40.60.81召回率现在学习的是第14页,共35页平均准确
7、率平均准确率n 上述准确率召回率的值对应一个查询n 每个查询对应不同的准确/召回率曲线n 为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:1( )( )qNiiqP rP rNnNq: 是使用的查询总数nPi(r):是召回率为r时的第i个查询的准确率现在学习的是第15页,共35页单值评价方法单值评价方法n 已检出相关文档的已检出相关文档的平均准确率均值(平均准确率均值(MAP)n逐个考察检出新的相关文献,将准确率平均逐个考察检出新的相关文献,将准确率平均r为相关文档数。riirMAP11?第i个相关文档的位置现在学习的是第16页,共35页计算计算
8、MAP举例举例n假设有两个查询,查询假设有两个查询,查询1有有4个相关文档,查个相关文档,查询询2有有5个相关文档。某系统对于查询个相关文档。某系统对于查询1检索检索出出4个相关文档,其排序分别为个相关文档,其排序分别为1,2,4,7;对;对于查询于查询2检索出检索出3个相关文档,其排序分别为个相关文档,其排序分别为1,3,5。计算的值。计算的值。现在学习的是第17页,共35页单值评价方法单值评价方法nP10nP10是是系统对于查询返回的前系统对于查询返回的前10个结果的个结果的准确率。准确率。n例:检索系统对查询q返回的前10个文档Aq的排序为:1. d23 2. d3 3.d4 4.d5
9、5.d6 6.d8 7.d10 8.d12 9.d19 10.d20nP10=30%(共有10篇检出文档,其中3篇为相关文档)现在学习的是第18页,共35页单值评价方法单值评价方法nR准确率(准确率(R-Precision)n 单个查询的单个查询的R准确率是检索出篇相关文档时的准确准确率是检索出篇相关文档时的准确率;率;n查询集合中所有查询的准确率是每个查询的准查询集合中所有查询的准确率是每个查询的准确率的平均值。确率的平均值。nR-Precision前前R篇文档中相关文档数篇文档中相关文档数R现在学习的是第19页,共35页计算计算R准确率举例准确率举例n假设有两个查询,第1个查询有50个相关
10、文档,第2个查询有10个相关文档。某个系统对于第1个查询返回的前50个结果中有17个是相关的,对于第2个查询返回的前10个结果中有7个事相关的。分别计算查询1、查询2和查询集合的R准确率。现在学习的是第20页,共35页单值评价方法单值评价方法n 准确率直方图n 多个查询的R-Precision测度n 用来比较两个算法的检索纪录n RPA-B=0:对于第i个查询,两个算法有相同的性能nRPA-B0:对于第i个查询,算法A有较好的性能nRPA-B0:对于第i个查询,算法B有较好的性能)()()(iRPiRPiRPBABA现在学习的是第21页,共35页单值概括单值概括0.00.51.01.5-0.5
11、-1.0-1.512345678910Query Number28现在学习的是第22页,共35页作业作业n假设查询q为一个给定的用户查询,与q相关的文档集合Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果: 1. d123 6. d9 11. d382. d847. d511 12. d483. d56 8. d129 13. d2504. d69. d187 14. d1135. d8 10. d25 15. d3 要求1.分别计算检索到相关文档时的召回率和准确率,并绘制准确率/召回率曲线; 2.采用11点标准召回率方法计算召
12、回率和准确率,并绘制插补后的准确率/召回率曲线; 3.计算MAP值; 4.分别计算检索返回前10个结果和返回前15个结果时的R准确率。现在学习的是第23页,共35页测试集测试集 (Test Collections)n 组成要素n 文件集 (Document Set; Document Collection)n 查询问题 (Query; Topic)n 相关判断 (Relevant Judgment)n 用途n 设计与发展: 系统测试n 评估: 系统效能(Effectiveness)之测量n 比较: 不同系统与不同技术间之比较n 评比n 根据不同的目的而有不同的评比项目n 量化的测量准则,如Pr
13、ecision与Recall现在学习的是第24页,共35页国外的评测国外的评测n TREC评测评测 n 文本检索会议(文本检索会议(Text Retrieval Conference,TREC)是信息检索)是信息检索( IR) 界为进行检界为进行检索系统和用户评价而举行的活动索系统和用户评价而举行的活动, 它由美国国家标准技术协会它由美国国家标准技术协会(NIST) 和美国高级和美国高级研究计划局研究计划局(DARPA)(美国国防部)(美国国防部) 共同资助,开始于共同资助,开始于1992年。年。 n NTCIR评测n NTCIR(NACSIS Test Collection for IR S
14、ystems)始于1998年,是由日本国立信息学研究所(National Institute of Informatics,简称NII)主办的搜索引擎评价型国际会议 n CLEF评测n CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展, n CLEF的目标只在于跨语言信息检索以及多语言信息检索方面 现在学习的是第25页,共35页TREC评测评测n TREC: Text REtrieval Conference (http:/trec.nist.gov/)n 1992年开始,每年一次n 由美国
15、国防部Defense Advanced Research Projects Agency (DARPA)和美国国家标准技术研究所National Institute of Standards and Technology (NIST)联合发起n 参加者免费获得标准训练和开发数据n 参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者n 组织者对各参赛者的结果进行评价n 包括检索、过滤、问答等多个主题现在学习的是第26页,共35页TREC测试集测试集n文档集合n英语文档集合n非英语文档集合n 文档内容:主要来自报纸、新闻及政府文档n 文档格式:采用SGML标记语言进行标记n
16、主题n 对检索系统用户的信息需求进行仿真,称为主题对检索系统用户的信息需求进行仿真,称为主题n相关性判断现在学习的是第27页,共35页文档格式文档格式WSJ880406-0090AT&T Unveils Services to Upgrade Phone Networks Under Global Plan Janet Guyon (WSJ staff) American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad implications for
17、 computer and communications . .现在学习的是第28页,共35页TREC评测的评价方法评测的评价方法n概括表统计n准确率-召回率平均值n文献级别平均值n 平均准确率现在学习的是第29页,共35页TREC评测的任务(评测的任务(Tracks)n 2013 TREC Tracks(8个)nContextual Suggestion Trackn Microblog TracknWeb TracknTemporal Summarization Trackn 30现在学习的是第30页,共35页国内国内863评测介绍评测介绍n 全名:n 863计划中文信息处理与智能人机接口
18、技术评测n 组织者:国家高技术研究发展计划(863计划)n 方式n 通过网络进行n 各单位在自己的环境中运行参评系统n 2005年11月召开研讨会n 2005年度评测内容n 机器翻译n 信息检索n 语音识别现在学习的是第31页,共35页863评测介绍评测介绍信息检索评测信息检索评测n项目:相关网页检索n任务定义:给定主题,返回数据中与该主题相关的网页。 n数据:CWT100g (中文Web测试集100g)n 根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页(有效网页:5,
19、594,521)n包括网页内容和Web服务器返回的信息n真实容量为90GB。现在学习的是第32页,共35页主题主题n 主题主题(Topic)模拟了用户需求,由若干字段组成,描述了用户所希望检索的信息。主题和查询的区别在于:主题是对信息需求的陈述,查询则是信息检索系统的实际输入。n 主题由4个字段组成:n 编号编号(num)n 标题标题(title)n 描述描述(desc)n 叙述叙述(narr)。现在学习的是第33页,共35页主题实例主题实例n 下载香奈儿n 描述:mp3格式歌曲“香奈儿”的下载地址n 叙述:仅检索具有歌曲“香奈儿”下载地址的网页。有关“香奈儿”的介绍不在检索范围内。提供非mp3格式下载地址的页面不在检索之列。现在学习的是第34页,共35页查询的构造查询的构造n 自动方式自动方式和人工方式人工方式n 自动方式是指在没有任何人为因素的影响下根据主题构造查询的方式n除此之外的方式均为人工方式。 n只允许以人工方式构造查询,不允许在检索过程中加入任何人为因素。 现在学习的是第35页,共35页
限制150内