一 。什么是robots
1. robot是指定spider在网站抓取范围的协议。
2. spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,有的话就会根据里面的协议进行抓取,否则全部抓取。
二 。robots.txt 放置的位置
放在网站的根目录下面。
robots.txt放在网站的根目录。根目录根据空间商提供的默认的目录。常见的根目录有/www/、Web/、web、wwwroot等。比如华夏名网的根目录是www/
三 。常用的语法
三个语法:
Disallow: / (空格、斜杠) Disallow:抓取空白内容。
Allow: / 允许抓取目录。
*:匹配0或多个任意字符 $: 匹配行结束符 #:不匹配
写法举例: User-agent: Baiduspider
Disallow: /dede
Allow: /dede/abc
注意斜杠: Disallow: /dede 目录或者路径
Disallow: /dede/ 目录
禁止百度抓取任何内容,允许其他搜索引擎抓取
User-agent: Baiduspider
Disallow: /
禁止google抓取任何内容,允许其他搜索引擎抓取
User-agent: Googleboot
Disallow: /
禁止所有的搜索引擎抓取。
User-agent: *
Disallow: /
禁止多个搜索引擎抓取:
User-agent: Googleboot
Disallow: /
User-agent: Baiduspider
Disallow: /
放置一个robots.txt文件里面没有写任何内容与没有放置robots.txt文件是一样的,没有禁止抓取。
以下2种写法的区别:
User-agent: Baiduspider
Disallow: (语句不成立,等于没有写)
User-agent: Baiduspider
Allow: / (定义了百度蜘蛛,允许抓取所有的,与上面的效果是一样的)
以下2种写法的区别:运行所有的搜索引擎抓取,两者写法一样。没有写屏蔽某个蜘蛛等于是默认运行了。
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
又一种写法:禁止所有的搜索引擎抓取以下的目录。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
案例:允许所有搜索引擎抓取/cgi-bin/see ,只允许所有搜索引擎抓取/tmp下面的hi,只允许所有搜索引擎抓取/~joe/下的look
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /tmp/
Disallow: /~joe/
案例:运行所有的搜索引擎抓取以htm为后缀的路径。
User-agent: *
Allow: /*.htm$
比如:
User-agent: *
Disallow: /cgi-bin/*.htm$
这个目录cgi-bin/abcde.html是允许所有的搜索引擎抓取的。
允许抓取gif格式的动态图片,不允许抓取jpg格式的图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
路径格式Disallow: /info-id-169.html
Disallow: /info-id-*.html 可以禁止上面的169.html
Disallow: /info-id-*?*.html 不可以禁止,因为这是禁止抓取的路径是带有?.html的路径。
如果禁止抓取我们的域名:
Disallow: / 后面不要带任何东西,因为/就是所有的。
Disallow: /*?* 禁止抓取所有的动态参数,就是动态路径。
Disallow: /*#more-* 禁止抓取所有的more标签。
蜘蛛的产品名称:
产品名称
对应user-agent
无线搜索
Baiduspider
图片搜索
Baiduspider-image
视频搜索
Baiduspider-video
新闻搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度联盟
Baiduspider-cpro
Baiduspider常见问题解答:http://www.baidu.com/search/spider.html
网站优化服务
云优化专注搜索引擎优化推广服务。