搜索引擎是怎么处理内容的?

  内容处理一直是一个比较神秘的工作,很多SEO人员都好奇搜索引擎是怎么处理内容的,处理内容的算法是怎样的,具体的搜索算法及公式,这里无从谈起,只能从内容处理逻辑方面给大家一块了解下。

  1、 判断目标页面的类型

  抓取到的内容,首先要对内容所属的类型进行归类,是普通的网页文件,还是pdf、word等特殊文件文档。如果是普通网页还要判断网页的类型是普通文本内容,还是视频内容等类型。甚至还会对网页是普通文章页还是论坛帖子页进行判断,然后有针对性的进行内容处理。这里李现龙(微信号:李现龙)提示一点,论坛性的帖子权重不及普通文章页。

  2、 提取网页中的文本信息

  当下主流的搜索引擎虽然都声称可以读取JS等非普通网页文件中的内容 ,但是索引的还是以文本为主。还是会重点提取title、keywords和description标签中的内容。虽然有传言说是description和keywords中的内容已经被搜索引擎抛弃了,对排名没有什么作用了,但是,有很多人经过自己的测试,至少百度还是会参考下keywords中的关键词的。所以,这一块布局关键词的地方还是不要放弃的为好。

  3、 去除页面噪声

  如果当前页面是普通网页,搜索引擎会把与当前网页无关的广告,导航,链接,图片,登入窗口,网站版权等信息内容全部剔除掉,只是提取网页中的主体内容。

  在剔除过程中,百度并不会把主体之外的其他东西全部抛掉,比如相关推荐,关联阅读的内容在一定程度也会被算作是本页的内容,或者是对本页内容的补充,也会对搜索排名有一定的影响。

  4、 去除停止词

  所谓的停止词,其实就是文章中出现的“的、地、得、哎、呀、却、但”等之类的词。这些词在文章中出现的频率极高,而且没有什么实际的意义,除掉这些词不影响搜索引擎内容进行分词和理解,还可以减少搜索引擎的计算量。

  需要指出的是,搜索引擎并不是严格遵守去除规则的,毕竟中国的文字博大精深,同一个词出现在不同的位置意思可能就大不一样,所以适当的放松规则也是可以理解的。

  经过上述4点对内容的处理,spider抓进来的内容几乎就可以认为是洗干净了,再经过后续的分词及去重处理后,内容就可以进行正向所以和倒排索引处理了。