最新robots文件禁止蜘蛛-方法大全.doc
《最新robots文件禁止蜘蛛-方法大全.doc》由会员分享,可在线阅读,更多相关《最新robots文件禁止蜘蛛-方法大全.doc(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-daterobots文件禁止蜘蛛-方法大全robots文件禁止蜘蛛 方法大全robots文件禁止蜘蛛 方法大全 有些时候我们会遇到这样的困难:我们原本不想被搜索引擎收录的网站后台地址却被搜索引擎“无情”的收录,这样只要在Google里输入一个“后台、管理site:”,自己的后台地址就会显露无疑,因此网站安全性也无从谈起。遇到这样的情况时,我们如何阻止搜索引擎收录我们不想被收录
2、的文件呢?一般在这个时候,我们常用的办法有两个,一个是编辑robots.txt文件,另外一个是在不想被收录的页面头部放置META NAME=ROBOTS标签。所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。在很多网站中,站长们都忽略了使用robots.txt文件。因为很多站长都认为,自己的网站没有什么秘密可言,而且自己也不太会使用robots.txt的语法,因此一旦写错了会带来更多的麻烦,还不如
3、干脆不用。其实这样的做法是不对的。在前面的文章中我们知道,如果一个网站有大量文件找不到的时候(404),搜索引擎就会降低网站的权重。而robots.txt作为蜘蛛访问网站的第一个文件,一旦搜索引擎要是找不到这个文件,也会在他的索引服务器上记录下一条404信息。虽然在百度的帮助文件中,有这样的一句话“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。”但是我个人还是认为建立robots.txt还是必须的,哪怕这个robots.txt文件是一个空白的文本文档都可以。因为我们的网站毕竟不是
4、仅仅会被百度收录,同时也会被其他搜索引擎收录的,所以,上传一个robots.txt文件还是没有什么坏处的。如何写一个合理的robots.txt文件?首先我们需要了解robots.txt文件的一些基本语法。 语法作用写法允许所有搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为robots.txtUser-agent: *Disallow:或者User-agent: *Allow: /禁止所有搜索引擎访问网站的所有部分User-agent: *Disallow: /禁止百度索引你的网站User-agent: BaiduspiderDisallow: /禁止Google索引你的网站Use
5、r-agent: GooglebotDisallow: /禁止除Google外的一切搜索引擎索引你的网站User-agent: GooglebotDisallow:User-agent: *Disallow: /禁止除百度外的一切搜索引擎索引你的网站User-agent: BaiduspiderDisallow:User-agent: *Disallow: /禁止蜘蛛访问某个目录(例如禁止admincssimages被索引)User-agent: *Disallow: /css/Disallow: /admin/Disallow: /images/允许访问某个目录中的某些特定网址User-ag
6、ent: *Allow: /css/myAllow: /admin/htmlAllow: /images/indexDisallow: /css/Disallow: /admin/Disallow: /images/使用“*”,限制访问某个后缀的域名例如索引访问admin目录下所有ASP的文件User-agent: *Disallow: /admin/*.htm使用“$”仅允许访问某目录下某个后缀的文件User-agent: *Allow: .asp$Disallow: /禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,例如index.asp?id=1)User-agent: *Di
7、sallow: /*?*有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片后缀名的方式。具体办法如下。语法作用写法禁止Google搜索引擎抓取你网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)User-agent: GooglebotDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$禁止百度搜索引擎抓取你网站上的所有图片User
8、-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$除了百度之外和Google之外,禁止其他搜索引擎抓取你网站的图片(注意,在这里为了让各位看的更明白,因此使用一个比较笨的办法对于单个搜索引擎单独定义。)User-agent: BaiduspiderAllow: .jpeg$Allow: .gif$Allow: .png$Allow: .bmp$User-agent: GooglebotAllow: .jpeg$Allow: .gif$Allow: .png
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 robots 文件 禁止 蜘蛛 方法 大全
限制150内