可以说基本上所有的网站都会存在“死链”,信任许多做百度优化的人都关怀的一个问题。百度主要将死链分为三种:协议死链、内容死链、和跳转死链。
协议死链是经过HTTP协议百度优化状况码明确标明该页面已无阅览价值。百度协议死链首推404,即未找到文件。
跳转死链百度优化是指网站将无阅览价值的页面跳转到某一个页面,如前一级目录面、主页,跳转前后的两个网页主体内容不同,不存在可替代的关系。
内容死链主要是由网站自身变化引起的,百度优化网页正常翻开但未发生跳转,但页面内容对爬虫来说没有录入价值,对用户来说也没有参考价值。估计现在许多网站追求个性化和用户体验,在页面内容失效后并未做协议死链处理,也就是说回来状况码依然是200。