2022年搜索引擎蜘蛛爬行统计分析 3.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年搜索引擎蜘蛛爬行统计分析 3.pdf》由会员分享,可在线阅读,更多相关《2022年搜索引擎蜘蛛爬行统计分析 3.pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、搜索引擎蜘蛛爬行统计分析一、搜索引擎蜘蛛爬行统计分析的必要性:蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些页面以及返回哪些信息给蜘蛛,掌握了这些情况我们才能对网站进行有针对性的优化改良,因此查看蜘蛛爬行日志是一件非常重要但却非常痛苦的工作,尤其是SEOER及新站站长来说。比如从网上看到蜘蛛爬行某个页面后如果返回200 0 64 ,则表示此网页极有可能要被搜索引擎删除,HEAD 请求返回404 也表示要删除网页,如果我们能根据日志及时发现此现象就能根据实际情况及时做出调整。又如,蜘蛛爬行返回的301,302 重定向及404错误等信息,也是网站管理员需要关心
2、的问题。因此可以看出分析蜘蛛爬行日志的必要性。二、蜘蛛爬行统计的方法:由于蜘蛛机器人在网站爬行时是不会爬行JS( 多次爬行只执行0 次或者一次 ),flash,img等标签的,因此,目前第三方统计软件(如阿江、中国站长站、雅虎、google 等统计系统 )还无法统计到蜘蛛爬行记录。因此目前分析蜘蛛爬行主要通过以下方法:1、利用 PHP ,ASP根据浏览器返回的USER_AGENT 来动态进行跟踪记录,这样的确可以实现目的,但其缺点很明显:a)加重服务器负担,对于内容多及权重高的网站,蜘蛛抓取是非常频繁的。在网页中插入的代码会额外加重服务器的负担。b)由于搜索引擎相对来说比较喜欢静态页面,很多网
3、站都利用CMS 把内容生成静态文件,这样就无法统计了。湖南某seo公司介绍使用img 标签或者script 方式,即在静态文件中将统计脚本利用img 或者 script 标签调用的方式, 此方法经过我一个月的试验,无法实现,蜘蛛不抓取页面。2、利用第三方日志分析工具:如linux 下 awstats 及 windows 下的 Webalizer,其缺点也很明显。 比如如果您是虚拟主机用户的话,由于每天产生的日志非常多,每次分析时下载日志文件是一件非常痛苦的事。同时这些软件太专业了,不适合一般站长使用。3、如果您有更好的蜘蛛爬行分析方法请您和广大站长一起分享。三、专门针对搜索引擎蜘蛛爬行统计的日
4、志分析工具开发总结:1、我们分析日志中需要关心蜘蛛爬行相关资料:a)蜘蛛爬行日期:根据此来查找蜘蛛爬行的规律。b)蜘蛛 IP 地址:不同来源的IP 地址的蜘蛛的作用是不同,可以结合爬行日期及下面要讲到的请求方式HEAD,GET来进行更详细的规律总结。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - c)请求方式:主要有HEAD和 GET方式,其作用是不同的。HEAD方式一般是上次蜘蛛来访问时发生一次或多次404 错误, 因此蜘蛛发
5、送HEAD请求确认此网页是否存在,一旦发送此请求如果返回依然是404 的话,那么您的网页就要被搜索引擎从数据库中删除了。GET方式大家都很明白就不说明了。d)爬行页面:蜘蛛爬行了哪些页面。e)状态码: 服务器给蜘蛛返回的状态码,我们一般关心的是200,301,304,302,404,尤其是 404 及 301, 302。404 表示死链,极大影响网站优化,301,302 目前还是不能被搜索引擎友好识别,有作弊的嫌疑。f)流量:在落伍上看到很多个人站长反应自己的服务器被蜘蛛拖跨,虽然这种说法有点夸张, 但对服务器产生的压力绝对不容忽视,尤其是某些太疯狂的蜘蛛,每天产生很大的流量,因此我们需要统计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年搜索引擎蜘蛛爬行统计分析 2022 搜索引擎 蜘蛛 爬行 统计分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内