搜索引擎的信息覆盖率.ppt
《搜索引擎的信息覆盖率.ppt》由会员分享,可在线阅读,更多相关《搜索引擎的信息覆盖率.ppt(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、搜索引擎的信息覆盖率评测模型研究孟涛 09808049指导教师:李晓明教授2002年6月引言n互联网信息资源数量的指数级增长、网络信息博物馆对网页资源的要求n需要一套有效的办法评测搜集系统的搜集性能,本文的工作由此展开网页搜集的不完全性nWWW有向图结构n结构本身所致(入度为0或不存在路径)n优先排序、搜集系统资源所限导致n不断出现的新网页无法搜集三类重要的信息覆盖率n数量覆盖率n质量覆盖率n可视信息覆盖率模型建立n覆盖率=搜集网页数/实际WWW网页数n覆盖率=样本覆盖数/样本容量n模型图示数量覆盖率:随机IP法模型修正与误差分析n结果:5.72%n缺点:无法区别该IP地址的网站大小,存在大量
2、的无效IP地址n改进方法:利用链接关系作链接扩展,减小上述的不利影响n修正结果:23.5%数量覆盖率:广度优先法试验结果与误差分析n局部角度,利用网页间链接关系n结果:选取5组样本求覆盖率均值41.6%n误差修正:大约10%的网页无法通过链接到达,对结果乘以90%处理得37.4%误差修正原理网页重要性评价因素n网页URL属性:域名长短,目录深度n网页作为有向图的节点:链接表示着认可度的传递,通常入度越大越重要n网页本身的内容:与查询用户宽主题查询词的匹配程度两类重要的权值算法之一:PageRankn学术论文引用统计原理在WWW上的扩展nPR(A)=两类重要的权值算法之二:HITS(Hyperl
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 信息 覆盖率
限制150内