《信息检索评价》PPT课件.ppt
《《信息检索评价》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索评价》PPT课件.ppt(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息检索实验室信息检索实验室信息检索实验室信息检索实验室1信息检索的评价哈工大计算机学院信息检索研究室2007信息检索实验室信息检索实验室信息检索实验室信息检索实验室2评价n评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等n信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动n从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量信息检索实验室信息检索实验室信息检索实验室信息检索实验室信息检索的评价n针对一个检索系统,可以从功能和性能两个方面对其进行分析评价n功能评价l可通过测试系统来判定是
2、否支持某项功能,因此相对来说较容易n性能评价l对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序3信息检索实验室信息检索实验室信息检索实验室信息检索实验室相关度n相关度理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合n检索系统的目标就在于检出相关文档而排除不相关文档4信息检索实验室信息检索实验室信息检索实验室信息检索实验室5相关性n相关性是一种主观评价l是不是正确的主题n输入:“和服”;输出:“咨询和服务”n由于分词错误,导致检索结果偏离主题l是否满足用户特定的信息需求(information need)l时效性,是
3、不是新的信息n输入:“美国总统是谁”;输出:“克林顿”n信息已经过时l权威性,是否来自可靠的信息源信息检索实验室信息检索实验室信息检索实验室信息检索实验室6评价IR系统的困难n相关性不是二值评价,而是一个连续的量n即使进行二值评价,很多时候也很难n从人的立场上看,相关性是:l主观的,依赖于特定用户的判断l和情景相关的,依赖于用户的需求l认知的,依赖于人的认知和行为能力l时变的,随着时间而变化信息检索实验室信息检索实验室信息检索实验室信息检索实验室7检索的评价n检索性能的评价l检索结果的准确度n检索任务l批处理查询l交互式查询n实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性信息检索实
4、验室信息检索实验室信息检索实验室信息检索实验室在评价和比较检索系统的检索性能需要以下条件:n一个文档集合C。系统将从该集合中按照查询要求检出相关文档n一组用户查询要求q1,q2,qn。每个查询要求qi描述了用户的信息需求n对应每个用户查询要求的标准相关文档集R1,R2,Rn。该集合可由人工方式构造n一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值8信息检索实验室信息检索实验室信息检索实验室信息检索实验室相关性判断n在早期的检索实验集合中,相关性判断是全方位的,就是说,由专家事先对集合中每一篇文献与每一个主题的相
5、关性做出判断。n由于TREC 的文献集合如此庞大,全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。9信息检索实验室信息检索实验室信息检索实验室信息检索实验室“pooling”方法有以下两个假设n假设绝大多数的相关文档都收录在这个文档池中n没有进行判断的文档即未被认为是不相关的n“pooling”技术的具体操作方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool”n由检索评价专家进行人工判断,最终评判出每一文档的相
6、关性10信息检索实验室信息检索实验室信息检索实验室信息检索实验室11相关文本相关文本检索出的检索出的文本文本全部文本集合全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关准确率和召回率召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设:文本集中所有文献已进行了检查信息检索实验室信息检索实验室信息检索实验室信息检索实验室12准确率和召回率的关系101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾信息检索实验室信息检索实验室信息检索实验室信息检索实验室13举
7、例nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d382.d847.d51112.d483.d56 8.d12913.d2504.d69.d18714.d1135.d8 10.d25 15.d3 (precision,recall)(100%,10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)信息检索实验室信息检索实验室信息检索实验室信息检索实验室14一个查询的11个标准查准率n11个标准查全率水平所对应的查准率:0%,10%,20%,100%020
8、40608010012020406080100120interpolationprecision信息检索实验室信息检索实验室信息检索实验室信息检索实验室15平均准确率n上述准确率召回率的值对应一个查询n每个查询对应不同的准确/召回率曲线n为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:Nq:the number of queries usedPi(r):the precision at recall level r for the i-th query信息检索实验室信息检索实验室信息检索实验室信息检索实验室多个查询下进行检索算法的比较n对多个查询
9、,进行平均,有时该曲线也称为:查准率/查全率的值。n如下为两个检索算法在多个查询下的查准率/查全率的值。l第一个检索算法在低查全率下,其查准率较高。l另一个检索算法在高查全率下,其查准率较高信息检索实验室信息检索实验室信息检索实验室信息检索实验室17适应性n合理估计需要了解集合的所有文献n这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适n测的是批处理模式下查询集合性能,对现代信息检索系统,交互式是重要特征,对量化检索过程的性指标可能会更合适信息检索实验室信息检索实验室信息检索实验室信息检索实验室新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新
10、评价指标逐渐出现n单值概括 信息检索实验室信息检索实验室信息检索实验室信息检索实验室19单值概括(1)n已检出的相关文献的平均准确率l逐个考察检出新的相关文献,将准确率平均lExample1.d123(1)6.d9 (0.5)11.d382.d84 7.d51112.d483.d56 (0.66)8.d12913.d2504.d6 9.d18714.d1135.d8 10.d25 (0.4)15.d3 (0.3)信息检索实验室信息检索实验室信息检索实验室信息检索实验室20单值概括(2)nR-Precisionl计算序列中前R个位置文献的准确率lR指与当前查询相关的文献总数1.d123 6.d9
11、 2.d847.d5113.d56 8.d1294.d69.d1875.d8 10.d25 R=10 and#relevant=42.1.d1232.d843.56 R=3 and#relevant=1信息检索实验室信息检索实验室信息检索实验室信息检索实验室21单值概括(3)n准确率直方图l多个查询的R-Precision测度l用来比较两个算法的检索纪录lRPA/B=0:对于第i个查询,两个算法有相同的性能lRPA/B0:对于第i个查询,算法A有较好的性能lRPA/B0:对于第i个查询,算法B有较好的性能信息检索实验室信息检索实验室信息检索实验室信息检索实验室22单值概括(3-1)123456
12、78910Query Number28信息检索实验室信息检索实验室信息检索实验室信息检索实验室23单值概括(4)n概括统计表l查询数l检出的所有文献数量l相关文献数l应检出的相关文献数l信息检索实验室信息检索实验室信息检索实验室信息检索实验室评价指标的不足n前面提到的一些评价指标,如R-准确率,MAP,P10等,都只考虑经过pooling技术之后判断的相关文档的排序n对判断不相关文档与未经判断的文档的差别并没有考虑n而目前随着互联网的发展,测试集越来越大,由于相关性判断还基本上是人工判断,因此建立完整的相关性判断变得越来越难24信息检索实验室信息检索实验室信息检索实验室信息检索实验室Bpref
13、指标n只考虑对返回结果列表中的经过判断后的文档进行评价n在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果n在测试集相关性判断不完全的情况下,bpref依然具有很好的应用n这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:25信息检索实验室信息检索实验室信息检索实验室信息检索实验室举例n下面举个例子来说明bpref的性能,假设检索结果集S为:nS=D1,D2,D3*,D4*,D5,D6,D7,D8,D9,D10 n其中D2、D5 和D7是相关文档,D3 和D4为未经判断的文档。n对这个例子来说,nR=3;bpref=1/3(1-1/3)+(1-1/3)+(1-2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息检索评价 信息 检索 评价 PPT 课件
限制150内