2022年RSS搜索引擎中的订阅服务搜索研究教程.docx
《2022年RSS搜索引擎中的订阅服务搜索研究教程.docx》由会员分享,可在线阅读,更多相关《2022年RSS搜索引擎中的订阅服务搜索研究教程.docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022年RSS搜索引擎中的订阅服务搜索研究教程Keso那里介绍过RSS供应的RSS带宽问题解决方案。好些RSS内容搜寻服务站都供应有对关键字搜寻结果的XML订阅。想想可能有不少关键字被好多人订阅,而在时间上又极为常见的查看是否有更新,这些对于RSS搜寻服务的站点来说,是个很大的负担。检查了几个RSS搜寻服务站这方面的状况(以blog关键字为例):feedster:search.php?q=blogsort=content=fulltype=rsslimit=15blogdigger:rss.jsp?q=blogsortby=datebooso: (搜寻是在中进行)bulkfeeds:dayp
2、op:Grassland:search?dir=blogq=blog10index=FullIndexoutputFormat=RSS可以看出,booso对于关键词供应有搜寻结果的Cache,不知道是不是静态的。细致看了一下,好像和搜寻的结果上不一样,有延迟。blogdigger、bulkfeeds的订阅程序和搜寻程序也不一样。其他几个都是干脆运用搜寻程序供应rss的结果。解决这个问题的初步想法:记录被订阅的关键词,组成一张表,在爬虫每次抓取完RSS内容后,利用这张表的关键词生成静态的xml订阅文档进入缓存中。这样可以削减资源的压力。关于RSS带来的带宽问题的解决,除了服务器方面的改进之外,还须要客户端也就是RSS订阅软件的合作,比如更加智能的推断某个blog的更新特征,自动设置更新的频率和更新的时段。比如我的blog,每天一篇,那么可以设置为一天的周期,更新的时间多在午夜前后、早晨或者中午,那么可以选择这个时段更新。这样可以很大程度上削减无用的探寻。当然,发展Web方式的阅读,例如Bloglines也是个途径。S22正在开发中文这方面的服务,希望早日胜利。(出处:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 RSS 搜索引擎 中的 订阅 服务 搜索 研究 教程
限制150内