一 。什么是robots
1. robot是指定spider在网站抓取范围的协议。
2. spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,有的话就会根据里面的协议进行抓取,否则全部抓取。

二 。robots.txt 放置的位置
放在网站的根目录下面。
robots.txt放在网站的根目录。根目录根据空间商提供的默认的目录。常见的根目录有/www/、Web/、web、wwwroot等。比如华夏名网的根目录是www/

三 。常用的语法

三个语法:

Disallow: / (空格、斜杠)  Disallow:抓取空白内容。

Allow: / 允许抓取目录。

*:匹配0或多个任意字符    $: 匹配行结束符   #:不匹配

写法举例: User-agent: Baiduspider
              Disallow: /dede
              Allow: /dede/abc
注意斜杠:  Disallow: /dede   目录或者路径
           Disallow: /dede/  目录

禁止百度抓取任何内容,允许其他搜索引擎抓取   
User-agent: Baiduspider
Disallow: /


禁止google抓取任何内容,允许其他搜索引擎抓取
User-agent: Googleboot
Disallow: /


禁止所有的搜索引擎抓取。
User-agent: *
Disallow: /


禁止多个搜索引擎抓取:
User-agent: Googleboot
Disallow: /

User-agent: Baiduspider
Disallow: /

放置一个robots.txt文件里面没有写任何内容与没有放置robots.txt文件是一样的,没有禁止抓取。

以下2种写法的区别:
User-agent: Baiduspider
Disallow:                 (语句不成立,等于没有写)

User-agent: Baiduspider
Allow: /                  (定义了百度蜘蛛,允许抓取所有的,与上面的效果是一样的)


以下2种写法的区别:运行所有的搜索引擎抓取,两者写法一样。没有写屏蔽某个蜘蛛等于是默认运行了。
User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /



又一种写法:禁止所有的搜索引擎抓取以下的目录。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/


案例:允许所有搜索引擎抓取/cgi-bin/see ,只允许所有搜索引擎抓取/tmp下面的hi,只允许所有搜索引擎抓取/~joe/下的look
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /tmp/
Disallow: /~joe/



案例:运行所有的搜索引擎抓取以htm为后缀的路径。
User-agent: *
Allow: /*.htm$
比如:
User-agent: *
Disallow: /cgi-bin/*.htm$
这个目录cgi-bin/abcde.html是允许所有的搜索引擎抓取的。



允许抓取gif格式的动态图片,不允许抓取jpg格式的图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$




路径格式Disallow: /info-id-169.html
Disallow: /info-id-*.html  可以禁止上面的169.html
Disallow: /info-id-*?*.html  不可以禁止,因为这是禁止抓取的路径是带有?.html的路径。



如果禁止抓取我们的域名:
Disallow: /  后面不要带任何东西,因为/就是所有的。



Disallow: /*?* 禁止抓取所有的动态参数,就是动态路径。
Disallow: /*#more-*  禁止抓取所有的more标签。



蜘蛛的产品名称:

产品名称
对应user-agent
无线搜索
Baiduspider
图片搜索
Baiduspider-image
视频搜索
Baiduspider-video
新闻搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度联盟
Baiduspider-cpro


Baiduspider常见问题解答:http://www.baidu.com/search/spider.html