做SEO怎么用好scrapy

b发哥66 101 字体：放大缩小

　　做SEO怎么用好scrapy？python的爬虫框架，scrapy，收集效率相当高，一只蜘蛛跑一万url收集题目之类的10分钟不到就搞定了，当然了，不妨同时跑多只蜘蛛。

　　首先是scrapy的安装教程，就不搬砖了，直接贴上位置：

　　http://blog.csdn.net/pleasecallmewhy/article/details/19354723

　　而后是新建名目标教程：

　　http://blog.csdn.net/pleasecallmewhy/article/details/19642329

　　之后就不妨收集了。

SEO

　　在Scrapy里，运用的是叫做 XPath selectors的机制，它基于 XPath表明式。所以，假如要收集仍然要了解下Xpath(正则也行)。之后的事情就简单多了。底下融合自身写的一只爬虫来吧，这个应当是属于scrapy简单的爬虫了：

　　baidu_spider.py 取排名，题目，快照，和url(暂未引入其余模块获得真切url)，当然，想取描述相同的，再写一个xpath法则，并在items.py中对应的肋下增添dec=Field()能够(拜见新建名目标教程)。

　　from scrapy.spider import Spider

　　from scrapy.selector import Selector

　　from tutorial.items import BaiduItem

　　class BaiduSpider(Spider):

　　name = "baidu"

　　allowed_domains = ["baidu.com"]

　　start_urls = ["http://www.baidu.com/s?q1=%BD%F0%B8%D5%C9%B0"]

　　def parse(self,response):

　　sel = Selector(response)

　　sites = sel.xpath('//div[@class="result c-container "]')

　　items = []

　　for site in sites:

　　item = BaiduItem()

　　item['num'] = site.re('(id="d{1,3}")')

　　item['title'] = site.xpath('h3/a/text()').extract()

　　item['link'] = site.xpath('h3/a/@href').extract()

　　item['date'] = site.re('�(d{4}-d{2}-d{2})�')

　　items.append(item)

　　return items

　　复制代码

　　运转号令：

　　json数据：

　　上边是一个简单的使用，在此基本上，咱们将以上代码改进，批量获得一些内容：

　　以爬某站的spider为例：

SEO

　　1、url.txt存储url，一行一个。读取后作为参数传给start_urls。

　　2、咱们要取的是他的全部h1，那么修正xpath表明式。

　　3、url.txt需求放在根目次下，蜘蛛也是在根目次下号令行运转。运转的号令为scrapy crawl mouzhan -o items.json -t json.(这里咱们保存成功了json格式，文件名叫做items.json)

　　from scrapy.spider import Spider

　　from scrapy.selector import Selector

　　from tutorial.items import MouzhanItem

　　class MouzhanSpider(Spider):

　　name = "mouzhan"

　　allowed_domains = ["mouzhan.com"]

　　start_urls = open('url.txt','r').readlines()

　　def parse(self,response):

　　sel = Selector(response)

　　sites = sel.xpath('//h1/text()').extract()

　　items = []

　　for site in sites:

　　item = MouzhanItem()

　　item['h1'] = site

　　items.append(item)

　　return items

　　复制代码

　　收集到的数据：

　　后输送的文件是json格式(也不妨存储为csv等格式)，编码是unicode，收集的中文在读取时处理下能够。测试的是一只蜘蛛10分钟1万url。不妨同时运转多只蜘蛛。这里没有研究ip代理，ua那些器材，不晓得是收集的网站没有限制仍然scrapy内部有处理，不过查了下，scrapy不妨自行配置代理的。

　　scrapy也只是刚接触，并未有更深的研讨，可是相对而言收集的速度相当快，我用beautifulsoup分析html收集的脚本要运转2个半小时才能收集1万数据，应当是不用给定url，在写的过程中制订法则就不妨让蜘蛛去爬的。

　　至于scrapy在seo上的使用，我也说不走出多少，起码用这个器材用来查排名应当不慢(杀鸡焉用牛刀)，批量查收录之类的，收集效率也高，至于收集谁，收集回来的器材怎么用，看你自身了。ps(轻喷：原本我也不晓得学这器材做什么，反正我是小企业站，暂且不晓得用来做什么。)

「点点赞赏，手留余香」

赞赏

6人赞过

101人看过

反馈

返回列表

上一篇：新手入门必备SEO优化基础知识

下一篇：品牌策划挑选关键词的方法

评论 0 条请文明上网，理性发言

一起来了解一下如何增加百度收录

一、如何让自己的网站快速被百度收录建立了自己的网站，就需要快速的让自己的网站被搜索引擎网站收录，如...

爸爸在哪里呀 121 7 0 条评论
你知道百度指数是什么吗，让我来告诉你吧

一、百度指数是什么百度指数(BaiduIndex)是以百度海量网民行为数据为基础的数据分享平台，是当前互联网...

粉红娇嫩的少女 213 5 0 条评论
什么是搜索引擎优化常用的方法有哪些

搜索引擎优化是什么意思呢?可能对于很多人来说都不是很了解，那么搜索引擎优化的方法有哪些呢?下面给大...

袁宗才 62 9 0 条评论
如何提高百度排名页面外链排名因素

一、提升百度排名的因素如何提高百度排名?就要做好以下操作了。1、关键词因素网页标题：标题中出现关键...

蓟晾勇吓松峭锚 235 10 0 条评论
百度网站安全检测项目网站安全检测工具该如何使用

百度是我们使用频率比较高的一个搜索引擎，想要网站避免出现问题可以使用一些安全检测工具，百度网站安全...

选我所选gao 231 8 0 条评论
站长忽略的观点具体有哪些问题容易被忽略

现在网上建网站是越来越容易了，网上有很多开源代码，那么大家知道站长忽略的观点有哪些吗?下面给大家介...

Memoryy_y 49 10 0 条评论
如何提高百度权重百度权重的作用

很多人在网站上发信息的时候，都会看哪个网站的百度权重高就发哪个，这样收视率就会大大的提高，那么大家知...

阿哥发送到GG 233 10 0 条评论
网站每天更新多少票文章更适合

进入从事SEO行业也都五六年的时间了，总是会听见很多人询问一个网站究竟每天发布更新多少票文章更适合...

陌路人m源 97 7 0 条评论
友情链接的作用需要注意的事项有哪些

友情链接也叫网站交换链接，可能对于很多人来说不了解，那么大家知道友情链接的作用是什么吗?在网站交换...

哦吼哟 120 7 0 条评论
如何检查网站死链网站死链的处理方法

产生网站死链的方式有很多，很多时候都是能检查出来的，那么大家知道网站死链的方法有哪些吗？死链检查工具...

徐怒安 218 8 0 条评论