什么是站点抓取压力？

clz柏豪 98 字体：放大缩小

什么是站点抓取压力？
站点抓取压力即搜索引擎在单位时间内对一个网站服务器访问的频率和总次数。
什么是抓取压力反馈工具：
1. 此工具主要是为了让站长在网站抓取压力出现问题时，可以向百度及时反馈网站抓取压力问题，同时还提供给站长近一个月的站点抓取量趋势图，站长可以了解站点抓取压力是否存在异常并符合预期。
2. 为保证您网站的正常抓取，百度会将您的调整压力和网站实际情况综合考虑，因此并不能保证完全按照您的反馈进行调整。这个反馈是个参考值，我们会根据实际情况综合调整，避免因压力调整造成不必要的抓取异常。
在网站robots里限制百度蜘蛛的抓去频率！
如：
User-agent:Baiduspider
crawl-delay: 3600
意思是限制百度蜘蛛抓去网站频率间隔为3600秒。
楼主也可以根据日志，分析出蜘蛛爬去时间频率最高和抓去哪些页面是否具有价值，在robots.txt进一步限制

如下可以限制蜘蛛的访问时间：
Visit-time:0930-1630
意思：制定百度蜘蛛每天开始访问和结束访问网站的时间。
国内的搜索引擎蜘蛛
百度蜘蛛：baiduspider
搜狗蜘蛛：sogou spider
有道蜘蛛：YodaoBot和OutfoxBot
搜搜蜘蛛： Sosospider
国外的搜索引擎蜘蛛
google蜘蛛： googlebot
yahoo蜘蛛：Yahoo！ Slurp
alexa蜘蛛：ia_archiver
bing蜘蛛（MSN）：msnbot
bing蜘蛛（MSN）：msnbot
robots.txt内容格式非常简单，用文本文件的每一行代表一条规则。
? User-Agent：适用下列规则的漫游器
? Allow：充许被抓取的网页
? Disallow：要拦截的网页
Robots.txt的两个常用符号
“*”：匹配0或多个任意字符（也有所有的意思）
“$”：匹配行结束符。
禁止某一蜘蛛抓取：
User-agent：蜘蛛名（上面介绍得有）
Disallow： /
只充许某一蜘蛛抓取：
User-agent：蜘蛛名（上面介绍得有）
Disallow：
User-agent： *
Disallow： /
robots.txt扩展协议
robots协议中除allow，disallow外，其扩展协议中还有Request-rate，Crawl-delay，Visit-time等，可以通过率这些协议来限制蜘蛛访问的频率，访问的时间等。
一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。
语法：Crawl-delay:XX
“XX”，是指两间抓取的间隔时间，，单位为秒。如果蜘蛛的抓取频率太高可以指定这个值，来减轻服务器的负担。
二、Visit-time 指定蜘蛛的访问时间。
语法：Visit-time:0930-1630
开头的文本行指定每天允许网络蜘蛛采集的时间段，格式为mmss-mmss，例如0930-1630
三、Request-rate 指定采集的频率
语法：Request-rate:1/5 0600-0845
指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段，例如1/5 0600-0845。
四、禁止指定类型后缀的文件抓取
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
另外，在网页中增加名字为“robots”的meta标签，也可以让某些网络蜘蛛不采集这一页。不过，这也只是某些网络蜘蛛认同，不是大家都认同的标准。
实例
例1.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2.允许所有的robot访问（或者也可以建一个空文件 “/robots.txt”）
User-agent: *
Allow: /
另一种写法是
User-agent: *
Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /
例5. 禁止spider访问特定目录
在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 “Disallow: /cgi-bin/ /tmp/”。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
例7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL（包含子目录）。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow:/ .htm$
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页，禁止抓取任何图片。
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: / .jpeg$
Disallow:/ .gif$
Disallow:/ .png$
Disallow: /.bmp$
例11. 仅允许Baiduspider抓取网页和。gif格式图片
允许抓取网页和gif格式图片，不允许抓取其他格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: /.jpg$
Disallow:/ .jpeg$
Disallow:/ .png$
Disallow: /.bmp$
例12. 仅禁止Baiduspider抓取。jpg格式图片
User-agent: /Baiduspider
Disallow:/ .jpg$

「点点赞赏，手留余香」

赞赏

5人赞过

98人看过

反馈

返回列表

上一篇：百度图片搜索展现的3个维度

下一篇：一篇软文优化如何获得免费流量？

评论 0 条请文明上网，理性发言

一起来了解一下如何增加百度收录

一、如何让自己的网站快速被百度收录建立了自己的网站，就需要快速的让自己的网站被搜索引擎网站收录，如...

爸爸在哪里呀 121 7 0 条评论
你知道百度指数是什么吗，让我来告诉你吧

一、百度指数是什么百度指数(BaiduIndex)是以百度海量网民行为数据为基础的数据分享平台，是当前互联网...

粉红娇嫩的少女 213 5 0 条评论
什么是搜索引擎优化常用的方法有哪些

搜索引擎优化是什么意思呢?可能对于很多人来说都不是很了解，那么搜索引擎优化的方法有哪些呢?下面给大...

袁宗才 62 9 0 条评论
如何提高百度排名页面外链排名因素

一、提升百度排名的因素如何提高百度排名?就要做好以下操作了。1、关键词因素网页标题：标题中出现关键...

蓟晾勇吓松峭锚 235 10 0 条评论
百度网站安全检测项目网站安全检测工具该如何使用

百度是我们使用频率比较高的一个搜索引擎，想要网站避免出现问题可以使用一些安全检测工具，百度网站安全...

选我所选gao 231 8 0 条评论
站长忽略的观点具体有哪些问题容易被忽略

现在网上建网站是越来越容易了，网上有很多开源代码，那么大家知道站长忽略的观点有哪些吗?下面给大家介...

Memoryy_y 49 10 0 条评论
如何提高百度权重百度权重的作用

很多人在网站上发信息的时候，都会看哪个网站的百度权重高就发哪个，这样收视率就会大大的提高，那么大家知...

阿哥发送到GG 233 10 0 条评论
网站每天更新多少票文章更适合

进入从事SEO行业也都五六年的时间了，总是会听见很多人询问一个网站究竟每天发布更新多少票文章更适合...

陌路人m源 97 7 0 条评论
友情链接的作用需要注意的事项有哪些

友情链接也叫网站交换链接，可能对于很多人来说不了解，那么大家知道友情链接的作用是什么吗?在网站交换...

哦吼哟 120 7 0 条评论
如何检查网站死链网站死链的处理方法

产生网站死链的方式有很多，很多时候都是能检查出来的，那么大家知道网站死链的方法有哪些吗？死链检查工具...

徐怒安 218 8 0 条评论