2022年RSS搜索引擎中的订阅服务搜索研究教程.docx
-
资源ID:63034443
资源大小:11.71KB
全文页数:3页
- 资源格式: DOCX
下载积分:9.9金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
2022年RSS搜索引擎中的订阅服务搜索研究教程.docx
2022年RSS搜索引擎中的订阅服务搜索研究教程Keso那里介绍过RSS供应的RSS带宽问题解决方案。好些RSS内容搜寻服务站都供应有对关键字搜寻结果的XML订阅。想想可能有不少关键字被好多人订阅,而在时间上又极为常见的查看是否有更新,这些对于RSS搜寻服务的站点来说,是个很大的负担。检查了几个RSS搜寻服务站这方面的状况(以blog关键字为例):feedster:search.php?q=blogsort=content=fulltype=rsslimit=15blogdigger:rss.jsp?q=blogsortby=datebooso: (搜寻是在中进行)bulkfeeds:daypop:Grassland:search?dir=blogq=blog10index=FullIndexoutputFormat=RSS可以看出,booso对于关键词供应有搜寻结果的Cache,不知道是不是静态的。细致看了一下,好像和搜寻的结果上不一样,有延迟。blogdigger、bulkfeeds的订阅程序和搜寻程序也不一样。其他几个都是干脆运用搜寻程序供应rss的结果。解决这个问题的初步想法:记录被订阅的关键词,组成一张表,在爬虫每次抓取完RSS内容后,利用这张表的关键词生成静态的xml订阅文档进入缓存中。这样可以削减资源的压力。关于RSS带来的带宽问题的解决,除了服务器方面的改进之外,还须要客户端也就是RSS订阅软件的合作,比如更加智能的推断某个blog的更新特征,自动设置更新的频率和更新的时段。比如我的blog,每天一篇,那么可以设置为一天的周期,更新的时间多在午夜前后、早晨或者中午,那么可以选择这个时段更新。这样可以很大程度上削减无用的探寻。当然,发展Web方式的阅读,例如Bloglines也是个途径。S22正在开发中文这方面的服务,希望早日胜利。(出处: