【Etianer分享】详尽的网站robots协议书写方法--SEO必知_搜索引擎

一。什么是robots
1. robot是指定spider在网站抓取范围的协议。
2. spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，有的话就会根据里面的协议进行抓取，否则全部抓取。

二。robots.txt 放置的位置
放在网站的根目录下面。
robots.txt放在网站的根目录。根目录根据空间商提供的默认的目录。常见的根目录有/www/、Web/、web、wwwroot等。比如华夏名网的根目录是www/

三。常用的语法

三个语法：

Disallow： / （空格、斜杠）  Disallow:抓取空白内容。

Allow: / 允许抓取目录。

*:匹配0或多个任意字符 $: 匹配行结束符 #：不匹配

写法举例： User-agent: Baiduspider
            Disallow: /dede
            Allow: /dede/abc
注意斜杠：  Disallow: /dede 目录或者路径
         Disallow: /dede/  目录

禁止百度抓取任何内容，允许其他搜索引擎抓取
User-agent: Baiduspider
Disallow: /

禁止google抓取任何内容，允许其他搜索引擎抓取
User-agent: Googleboot
Disallow: /

禁止所有的搜索引擎抓取。
User-agent: *
Disallow: /

禁止多个搜索引擎抓取：
User-agent: Googleboot
Disallow: /

User-agent: Baiduspider
Disallow: /

放置一个robots.txt文件里面没有写任何内容与没有放置robots.txt文件是一样的，没有禁止抓取。

以下2种写法的区别：
User-agent: Baiduspider
Disallow:                （语句不成立，等于没有写）

User-agent: Baiduspider
Allow: /                （定义了百度蜘蛛，允许抓取所有的，与上面的效果是一样的）

以下2种写法的区别：运行所有的搜索引擎抓取，两者写法一样。没有写屏蔽某个蜘蛛等于是默认运行了。
User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /

又一种写法：禁止所有的搜索引擎抓取以下的目录。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

案例：允许所有搜索引擎抓取/cgi-bin/see ，只允许所有搜索引擎抓取/tmp下面的hi，只允许所有搜索引擎抓取/~joe/下的look
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /tmp/
Disallow: /~joe/

案例：运行所有的搜索引擎抓取以htm为后缀的路径。
User-agent: *
Allow: /*.htm$
比如：
User-agent: *
Disallow: /cgi-bin/*.htm$
这个目录cgi-bin/abcde.html是允许所有的搜索引擎抓取的。

允许抓取gif格式的动态图片，不允许抓取jpg格式的图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$

路径格式Disallow: /info-id-169.html
Disallow: /info-id-*.html  可以禁止上面的169.html
Disallow: /info-id-*？*.html  不可以禁止，因为这是禁止抓取的路径是带有？.html的路径。

如果禁止抓取我们的域名：
Disallow: /  后面不要带任何东西，因为/就是所有的。

Disallow: /*?* 禁止抓取所有的动态参数，就是动态路径。
Disallow: /*#more-*  禁止抓取所有的more标签。

蜘蛛的产品名称：

产品名称
对应user-agent
无线搜索
Baiduspider
图片搜索
Baiduspider-image
视频搜索
Baiduspider-video
新闻搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度联盟
Baiduspider-cpro

Baiduspider常见问题解答：http://www.baidu.com/search/spider.html

网站SEO优化

SEO操作			SEO类型

网站定位
明确网站定位、用户定位,根据产品属性结合用户搜索习惯进行关键词研究和建立。
站内优化
网站结构及HTML代码优化、标题、描述、关键词定义；
图片ALT优化、快照缩略图优化、H\STRONG\FONT\P\DIV\LI标签优化
链接A标签设置、URL优化、死链、空链、#号链等处理
文本匹配与关键字设置、导航优化、目录优化、详情页优化
站外优化
百度收录主动请求代码、网站Sitemap.xml索引设置
高质量外链和友情链接建设、URL引导收录提交
搜索体验及缩略图优化、网页快照优化、权重评级提升
文章发布技巧
标题醒目、准确传递文章思想，标题具备高度的总结性和概括性
关键字设置从文章标题里提炼，必修按词组提炼有指数的关键词
文章摘匹配关键字并统揽全局，摘要必须准确表达文章的观点
文章配图必须121x75的倍数，文章发布后必做URL收录提交
SEO策略与技巧
确保链接被收录形成快照，确保网页快照参与权重评级
标题用部分匹配原则，描述用完整匹配原则
排名靠前的内链引导靠后的，提高搜索展现率和有效点击
内容用完整匹配、关键字加粗，内链锚文本与导出链接相关
链接层级扁平化、目录简短，合理使用网站导航和分类
重要链接放到第一屏，文案内容匹配长尾词而非主词
快速排名
单个键词是否进入搜索首页或前三
关键字必须在搜索引擎结果有排名
网站不需要过多调整、局部优化
排名速度快、一般2周左右
按约定验收客户指定的关键词
整站优化
整个网站从搜索引擎过来的流量
只要网站收录大于100条即可
网站每级都要做站内调整优化
整站优化初期相对较慢
根据主词持续扩展长尾词