百度搜索引擎优化指南 - SEO论坛 - SEO博客

站点抓取异常查询工具

发布日期:2014年11月28日
一、站点抓取异常存在的几种情况
1、典型的抓取异常情况
情况一:404页面
\
协议死链,用户已无法访问该页面内容,建议通过百度站长平台--死链工具提交死链的方式进行处理,以便搜索引擎更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。
情况二:IP禁封
限制网络出口IP地址,禁止该IP段的使用者进行内容访问,即为IP禁封。请检查系统服务器是否设置了针对百度spider的IP禁封规则。
情况三:UA禁封
UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份,当网站针对指定UA的访问返回异常页面(如403,500)或跳转到其他页面的情况,即为UA禁封。请检查系统服务器是否设置了针对百度spider的UA禁封规则。
情况四:异常重定向
将网络请求重新指向其他位置即为重定向。异常重定向指的是以下几种情况:
1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉
2)重定向到出错或者无效页面
3)重定向的跳转超过3次,也为异常
注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。
情况五:其他
JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。
针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
压力过大引起的偶然禁封:百度会根据站点的规模,访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样百度spider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。
2、抓取异常对站点的影响
1)您明确地封禁了百度
由于您的站点承受压力问题或者其他原因您选择了禁止百度蜘蛛的抓取。
如果您的配置正确,并且DNS更新以后即可生效,百度的蜘蛛就不会对该页面进行抓取,您的网页也不会被收录。
2)您不知道页面出现抓取异常
这是很危险的!出现抓取异常若不及时解决,不仅仅会对您的站点带来流量损失,严重的情况下蜘蛛还可能降低您的站点的评价,在抓取、索引、排序上都可能会受到一定程度的负面影响。
通过百度站长平台的站点抓取异常查询工具,可以明确的知道站点页面的封禁情况!
继续阅读:站点索引量查询工具