适用于搜索引擎长尾查询评价的方法,搜索引擎论文.docx
《适用于搜索引擎长尾查询评价的方法,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《适用于搜索引擎长尾查询评价的方法,搜索引擎论文.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、适用于搜索引擎长尾查询评价的方法,搜索引擎论文搜索引擎已经成为了人们获取信息的必不可少的工具。根据CNNIC发布的2018年年度报告,截至2018年底,中国网民规模已经到达了5.13亿人,华而不实搜索引擎的使用率到达了79.4%,在互联网应用中排名第二。与此同时,网络资源也在迅速膨胀,怎样准确理解用户的检索需求并快速而有效的帮助用户找到信息目的仍然是搜索引擎面临的挑战,而搜索性能的评价也就遭到越来越多的重视。当前,作为一种主流发展方向,基于用户行为分析的方式方法已经开场被应用到搜索引擎查询性能的评价上。然而,当前已有的搜索引擎性能评价的研究还只是主要集中于查询频度比拟高的查询词上,对于长尾查询
2、来讲,缺少大量的用户检索行为的数据,因而简单照搬用户行为分析的方式方法并不可靠,这也是长尾查询性能评价的难度所在。实际上,由于高频查询词随着时间的变化不大,很多商业搜索引擎通过人工标注的方式方法对高频查询词进行了优化,或者通过用户反应不断调整高频查询的结果排序,在高频查询上各个搜索引擎已经做得非常好了。因而,真正影响用户的体验很大程度上取决于低频查询的搜索性能。我们知道,搜索引擎的查询的分布遵循幂律分布,而同时其也遵循齐普夫定律。据前人的统计发现,几乎所有搜索引擎用户都有长尾查询的需求。因而,长尾查询的搜索性能的评价也逐步被搜索引擎重视起来。本文工作就是在长尾查询的评价这一挑战性问题方面的一个
3、探寻求索和尝试。我们通过大规模的数据分析,结合内容和用户行为两个方面的信息,提出包括来自搜索引擎排序、结果呈现、以及用户点击行为等多种类型的、适用于搜索引擎长尾查询评价的特征,并将它们用于搜索引擎结果的自动评价,获得了令人鼓舞的效果。1.2相关研究在19世纪五六十年代,英国的Cranfield工程建立了Cranfield的评价体系,应用于信息检索等相关的领域。该评价体系的一项重要工作是标注人员需要在语料库中标注出查询样例对应的答案:集合。标注人员能够根据需要进行不同等级的标注(比方5级标注)。针对搜索引擎的性能评价,人们又提出了用户满意度的概念。然而,到当前为止,仍然没有一个明确的用户满意度的
4、定义和标准。一方面,用户满意度仍然是基于结果的相关性,使用NDCG等指标进行评价;另一方面,也有研究提出用户满意度是一个主观变量,要综合考虑检索系统的各种指标以及用户个性化的因从来进行衡量,但是在实际的实验中,仍然是通过对用户检索出的结果分别评价来进行最终评判。然而,由于搜索引擎具有海量数据,同时数据资源还在不断爆炸式增长,人工标注有着明显的缺点:消耗损费时间、人力、财力。鉴于人工标注有着宏大的困难,人们开场研究自动标注以替代人工标注。华而不实用户行为分析起到了重要的作用,主要包括用户查询需求分析和用户点击行为分析。当下一些基于用户行为分析的方式方法已经能够实现搜索引擎的自动 性能评价,例如,
5、Liu等在2007年的 工 作等。但是在这些工作中,均首先排除了长尾查询,而只关注查询频度较高的热门或常见查询。在长尾查询方面,由于被人们关注的时间不长,在这方面的研究并不多。当前主要相关研究工作具体表现出在三个方面,广告搜索,查询推荐,以及长尾查询的用户行为分析。在长尾查询的用户行为分析方面,Yao等人对长尾查询及热门查询的用户行为进行了较全面的比照分析,得到了一些有意义的结论,这对本文工作也有一定的启发。分析以上的相关工作能够发现,在搜索引擎的高频查询性能评价方面,前人已经做了很多工作,相应的评价技术已经较为成熟。而对长尾查询的研究也只是具体表现出在查询推荐和广告搜索的扩展上,在长尾查询性
6、能评价方面的工作还非常缺乏。长尾查询与高频查询相比,在特征方面存在着很大的差异。例如,长尾查询的查询词长度会更长,长尾查询返回的结果数目会相对较少,长尾查询返回的结果列表上的用户初次点击位置会更偏下等等。由于存在着这些差异,评价高频查询的特征也很难直接用来评价长尾查询,因而,我们的工作首先要通过对长尾查询的数据进行分析和调研,找到影响长尾查询搜索性能的因素,提取出相应的特征,进而建立起对长尾查询搜索性能的评价体系。2、数据集我们在某公司的协助下获得了2018年3月至2020年3月的部分查询结果的标注数据,以及相应时间段内的用户点击日志。华而不实每个月有约1 000个查询词,每个查询词对约15个
7、文档进行5级相关度人工标注,标注分值为0,2,3,4,5,华而不实分值越高相关度越高,标注为0的表示不相关。这些查询既包括了长尾查询,也包括了中频查询和高频查询(按照惯例,将半年内查询频度大于100的分为高频查询,查询频度在20100之间的分为中频查询,查询频度小于20的分为长尾查询。假如没有特殊讲明,在后续实验中我们对于不同频度查询的定义均根据此标准)。同时,我们也抓取了这些查询词的搜索引擎结果展示页面以及搜索引擎排序值结果页面,作为特征分析的候选集合。3、搜索引擎长尾查询评价方式方法对于查询结果的评价主要能够从两个方面进行,一个是查询粒度结果满意度评价,另一个是查询-文档对粒度的文档相关度
8、评价。在当前的搜索引擎性能评价方式方法,主要是基于查询-文档对粒度的相关度评价。长尾查询在查询粒度上并没有十分突出的特征,因而,我们的工作也是从查询-文档对的相关度评价展开的,这也是查询粒度满意度评价的基础。3.1特征提取3.1.1点击特征用户点击行为在高频查询的评价中是非常有效的。对于长尾查询,固然其点击数据非常稀疏,但是我们还是希望能够从华而不实获取一些有效信息。我们提出使用如表1所示的两个点击特征,并统计了两个点击特征在不同相关度文档上的分布情况,给出了点击特征1(Click_Attr1)的箱形图。从图1中能够看出,相关度为5的特征值明显要高于其他相关度的特征值,这应该和相关度为5的文档
9、的质量明显非常好有关。从整体趋势来看,随着相关度的升高,特征值的均值和中位数都有升高的趋势。不过相关度为0的文档的特征值固然是最低的,但是其与相关度为2和3的文档差异并不是特别明显,这讲明,我们的特征固然能具体表现出相关度,但是特征的区分度并不是很大。3.1.2标红特征在以前的工作中发现,搜索引擎结果列表的展示对用户体验是有影响的,而标红部分覆盖查询词的比例有比拟明显的影响。为此,我们从标红部分这一指标中进行了特征提取。搜索引擎给出结果的同时,标题和内容摘要中与查询词重叠的部分会标红。为此,我们提取了具体表现出标红部分覆盖比例的三个特征,在提取经过中,这些标红信息都进行了去重处理。同时,也发现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内