1.网页类型
淄博网站优化不同的网页类型有不同的更新频率。在同一个站点内网站首页、目录页、专题页和文章页 的更新频率肯定是不同的。所以对于同一站点内的网页,搜索引擎蜘蛛对不同类型的网页抓取频率是不 同的。首页和目录页是搜索引擎蜘蛛经常光顾的页面;根据专题页面的时效性或者其他特征,搜索引擎蜘蛛 可能会在某一时间段内进行频繁抓取,时效性过期后就会降低对其的抓取频率;对于文章页, 搜索引擎蜘蛛很有可能第一次来过之后就不再来了。虽然整个互联网中网页很多,但是网页类型并不多, 每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置 合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站 点内同类网页会有相同的更新频率,这也会方便搜索引擎蜘蛛对网页更新频率的判断。
2.网页权重
除了以上再次抓取策略外,网页权重也是决定抓取频率的重要因素。用户体验策略在一 定程度上也反映了网页权重的影响。在网页类型相同、历史更新频率也差不多的情况下,肯 定是权重越高的页面被抓取的频率越高。比如百度首页、好123首页、chinaz站长工具首页 和普通企业站首页都可以简单归为网站首页,并且前三个“首页”长期都不会有什么更新, 普通企业站首页可能偶尔还会有更新,但是前三个“首页”的百度快照一般都是最新的,而 普通企业站的首页快照可能是一周前甚至一个月前的。这就反映出了网页权重在抓取频率中 的作用。
在搜索引擎搜索引擎蜘蛛的实际作业中,不会单独使用某一种再次抓取策略,而是会综合参 考网页的用户体验、更新频率、网页类型和网页权重。并且对于不同类型的页面,着重参 考的更新内容主体也是不同的。比如,列表页只有一篇新的文章进入可能就算更新了;文 章页主体内容没有变,主体内容周围的所有推荐链接、广告、内容都变了,可能也不会算 是有更新。
在网站优化工作中为了提高某一网站的抓取频率,一般会重点为该页面的导入链接提高权重, 努力加大该页面的更新频率。其实在用户体验和网页类型方面也是有工作可做的,用标题和描 述吸引点击不仅可以提升排名,也能够间接增加页面被搜索引擎蜘蛛抓取的频率;同时对于不同定 位的关键词可以使用不同的网页类型(列表页、专题页、内容页等),这在设计页面内容和网 站架构时就应该仔细地考虑,并且网页类型这部分有很多工作值得做。比如,有不少网站把整 站都做成了列表页,全站没有普通意义上的内容页,内容页主体内容下方或周围也有大量和主 题相关的文本内容,一般是类列表形式。不过这种手法有效时间不长,或者损害用户体验后会 降低被抓取的频率。不论怎样,优秀的网站架构设计应该合理地利用搜索引擎蜘蛛抓取策略的各种 特性。
以上讨论的是搜索引擎蜘蛛正常的抓取策略。有抓取并不代表一定有更新,当页面内容的变化值 得搜索引擎更新索引时才会更新,比如,上面提到的文章页主体内容不变但是推荐链接全变了, 一般搜索引擎也不会浪费资源做无意义的更新。当搜索引擎蜘蛛发现己经索引的页面突然被删除,也 就是服务器突然返回404状态码时,也会在短时间内增加对该页面的抓取频率。有的网站优化人员 就利用这一点增加搜索引擎蜘蛛对自己网站的抓取,并做一些其他的“手脚”,不过这是一个走钢丝的 小聪明行为,不见得长期有效,不值得冒险使用。
另外,有不少门户网站习惯对即时新闻先发布一个标题,然后再让编辑补充内容,甚至还 会修改标题。但是这种网页一般都是文章页,不论从用户体验、更新频率、网页类型和网站权 重哪方面来看都不会得到比较高的抓取频率,也就造成这些网站不断在报怨百度不更新如此操 作的新闻网页。百度搜索官方已经表示希望以后通过百度站长平台来解决一下这个问题,但是 作为网站优化人员不能只是指望搜索引擎官方做出什么样的动作。仔细研究搜索引擎蜘蛛的抓取和更新策 略,虽然或许不能将问题解决得那么完美,但是一般都会找到比较适合自己的方法。当然最终 还是期望百度官方尽快推出相应的机制或工具来解决这个问题。