搜索引擎是怎么处理内容的?_百度优化

　　搜索引擎是怎么处理内容的?

　　内容处理一直是一个比较神秘的工作，很多SEO人员都好奇搜索引擎是怎么处理内容的，处理内容的算法是怎样的，具体的搜索算法及公式，这里无从谈起，只能从内容处理逻辑方面给大家一块了解下。

　　1、判断目标页面的类型

　　抓取到的内容，首先要对内容所属的类型进行归类，是普通的网页文件，还是pdf、word等特殊文件文档。如果是普通网页还要判断网页的类型是普通文本内容，还是视频内容等类型。甚至还会对网页是普通文章页还是论坛帖子页进行判断，然后有针对性的进行内容处理。这里李现龙(微信号：李现龙)提示一点，论坛性的帖子权重不及普通文章页。

　　2、提取网页中的文本信息

　　当下主流的搜索引擎虽然都声称可以读取JS等非普通网页文件中的内容，但是索引的还是以文本为主。还是会重点提取title、keywords和description标签中的内容。虽然有传言说是description和keywords中的内容已经被搜索引擎抛弃了，对排名没有什么作用了，但是，有很多人经过自己的测试，至少百度还是会参考下keywords中的关键词的。所以，这一块布局关键词的地方还是不要放弃的为好。

　　3、去除页面噪声

　　如果当前页面是普通网页，搜索引擎会把与当前网页无关的广告，导航，链接，图片，登入窗口，网站版权等信息内容全部剔除掉，只是提取网页中的主体内容。

　　在剔除过程中，百度并不会把主体之外的其他东西全部抛掉，比如相关推荐，关联阅读的内容在一定程度也会被算作是本页的内容，或者是对本页内容的补充，也会对搜索排名有一定的影响。

　　4、去除停止词

　　所谓的停止词，其实就是文章中出现的“的、地、得、哎、呀、却、但”等之类的词。这些词在文章中出现的频率极高，而且没有什么实际的意义，除掉这些词不影响搜索引擎内容进行分词和理解，还可以减少搜索引擎的计算量。

　　需要指出的是，搜索引擎并不是严格遵守去除规则的，毕竟中国的文字博大精深，同一个词出现在不同的位置意思可能就大不一样，所以适当的放松规则也是可以理解的。

　　经过上述4点对内容的处理，spider抓进来的内容几乎就可以认为是洗干净了，再经过后续的分词及去重处理后，内容就可以进行正向所以和倒排索引处理了。

网站SEO优化

SEO操作			SEO类型

网站定位
明确网站定位、用户定位,根据产品属性结合用户搜索习惯进行关键词研究和建立。
站内优化
网站结构及HTML代码优化、标题、描述、关键词定义；
图片ALT优化、快照缩略图优化、H\STRONG\FONT\P\DIV\LI标签优化
链接A标签设置、URL优化、死链、空链、#号链等处理
文本匹配与关键字设置、导航优化、目录优化、详情页优化
站外优化
百度收录主动请求代码、网站Sitemap.xml索引设置
高质量外链和友情链接建设、URL引导收录提交
搜索体验及缩略图优化、网页快照优化、权重评级提升
文章发布技巧
标题醒目、准确传递文章思想，标题具备高度的总结性和概括性
关键字设置从文章标题里提炼，必修按词组提炼有指数的关键词
文章摘匹配关键字并统揽全局，摘要必须准确表达文章的观点
文章配图必须121x75的倍数，文章发布后必做URL收录提交
SEO策略与技巧
确保链接被收录形成快照，确保网页快照参与权重评级
标题用部分匹配原则，描述用完整匹配原则
排名靠前的内链引导靠后的，提高搜索展现率和有效点击
内容用完整匹配、关键字加粗，内链锚文本与导出链接相关
链接层级扁平化、目录简短，合理使用网站导航和分类
重要链接放到第一屏，文案内容匹配长尾词而非主词
快速排名
单个键词是否进入搜索首页或前三
关键字必须在搜索引擎结果有排名
网站不需要过多调整、局部优化
排名速度快、一般2周左右
按约定验收客户指定的关键词
整站优化
整个网站从搜索引擎过来的流量
只要网站收录大于100条即可
网站每级都要做站内调整优化
整站优化初期相对较慢
根据主词持续扩展长尾词