Scrapy持久化存储-爬取数据转义

Scrapy持久化存储

爬虫爬取数据转义问题

使用这种格式，会自动帮我们转义

'insert into wen values(%s,%s)',(item['title'],item['content']）

基于终端的指令:

只可以将parse方法的返回值存储到本地的文本文件中，支持（json,jsonlines,jl,csv,xml,marshal,pickle)

保存指令

scrapy crawl name -o xxx.csv

好处：简介高效便捷

缺点：局限性比较大（只能保存到本地文件，不能保存到数据库）

# -*- coding: utf-8 -*-

import scrapy

class DuanziSpider(scrapy.Spider):

    name = 'duanzi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://duanziwang.com/']

    def parse(self, response):

        div_list=response.xpath('//main/article')

        data=[]

        for i in div_list:

            title=i.xpath('.//h1/a/text()').extract_first()

            #xpath返回的是存放selector对象的列表，想要拿到数据需要调用extract()函数取出内容，如果列表长度为1可以使用extract_first()

            content=i.xpath('./div[@class="post-content"]/p/text()').extract_first()

            da={

                'title':title,

                'content':content

            }

            data.append(da)

        return data

基于管道的持久化存储操作

编码流程

1.数据解析

# -*- coding: utf-8 -*-

import scrapy

from zx_spider.items import ZxSpiderItem

class Duanzi2Spider(scrapy.Spider):

    name = 'duanzi2'

    start_urls = ['https://ishuo.cn']

    def parse(self, response):

        data_list=response.xpath('//div[@id="list"]/ul/li')

        for i in data_list:

            title=i.xpath('./div[2]/a/text()').extract_first()

            content=i.xpath('./div[1]/text()').extract_first()

            print(title)

            print(content)

            #创建item对象将内容填入

            item=ZxSpiderItem()

            item['title']=title

            item['content']=content

            #将item提交给管道

            yield item

2.解析的数据封装存储到item对象（在item中定义相关的属性）

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class ZxSpiderItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    content = scrapy.Field()

    # pass

3.将item类型对象提交给管道持久化存储操作，在管道类的process_item中要将其接受到的item对象中的数据进行持久化操作

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

class ZxSpiderPipeline(object):

    fw=None

    #该方法只在开始爬虫的时候调用一次

    def open_spider(self,spider):

        print("开始写入爬虫数据")

        self.fw=open('./zx/duanzi2.csv',"w",encoding='utf8')

    #该方法可以接受到爬虫文件提交过来的item对象

    def process_item(self, item, spider):

        title=item['title']

        content=item['content']

        self.fw.write(title+"\n"+content+'\n')

        return item

    def close_spider(self,spider):

        print("爬虫数据写入完成")

        self.fw.close()

4.在配置文件中开启管道

ITEM_PIPELINES = {

   'zx_spider.pipelines.ZxSpiderPipeline': 300,

    #300表示优先级，数字越小优先级越高

}

将爬取的数据存储到多个平台（文件，mysql）

ZxSpiderPipeline中的return不是没有用处的，是讲item传入下一个优先级的管道进行处理（前提要在setting里面配置）

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

class ZxSpiderPipeline(object):

    fw=None

    #该方法只在开始爬虫的时候调用一次

    def open_spider(self,spider):

        print("开始写入爬虫数据")

        self.fw=open('./zx/duanzi2.csv',"w",encoding='utf8')

    #该方法可以接受到爬虫文件提交过来的item对象

    def process_item(self, item, spider):

        title=item['title']

        content=item['content']

        self.fw.write(title+"\n"+content+'\n')

        return item

    def close_spider(self,spider):

        print("爬虫数据写入完成")

        self.fw.close()

class MysqlSpiderPipeline(object):

    conn=None

    cursor=None

    def open_spider(self,spider):

        print("爬虫数据库写入完成")

        self.conn=pymysql.Connect(host='127.0.0.1',port=3306,user="root",password='zx125',db="zx",charset='utf8')

    def process_item(self, item, spider):

        self.cursor=self.conn.cursor()

        try:

            self.cursor.execute('insert into wen values(%s,%s)',(item['title'],item['content']))

            self.conn.commit()

        except Exception as e:

            print(e)

            self.conn.rollback()

        return item

    def close_spider(self,spider):

        print("爬虫数据库写入完成")

        self.cursor.close()

        self.conn.close()

配置

ITEM_PIPELINES = {

   'zx_spider.pipelines.ZxSpiderPipeline': 300,

   'zx_spider.pipelines.MysqlSpiderPipeline': 301,

    #300表示优先级，数字越小优先级越高

}

Scrapy持久化存储-爬取数据转义的更多相关文章

scrapy使用PhantomJS爬取数据
环境:python2.7+scrapy+selenium+PhantomJS 内容:测试scrapy+PhantomJS 爬去内容:涉及到js加载更多的页面原理:配置文件打开中间件+修改proces ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
如何提升scrapy爬取数据的效率
在配置文件中修改相关参数: 增加并发默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. ...
安居客scrapy房产信息爬取到数据可视化(下)-可视化代码
接上篇:安居客scrapy房产信息爬取到数据可视化(下)-可视化代码,可视化的实现~ 先看看保存的数据吧~ 本人之前都是习惯把爬到的数据保存到本地json文件, 这次保存到数据库后发现使用mongod ...
安居客scrapy房产信息爬取到数据可视化(上)-scrapy爬虫
出发点想做一个地图热力图,发现安居客房产数据有我要的特性.emmm,那就尝试一次好了~ 老规矩,从爬虫,从拿到数据开始... scrapy的配置创建一个项目(在命令行下敲~): scrapy st ...
爬虫必知必会（6）_提升scrapy框架爬取数据的效率之配置篇
如何提升scrapy爬取数据的效率:只需要将如下五个步骤配置在配置文件中即可增加并发:默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_ ...
【Spider】使用CrawlSpider进行爬虫时，无法爬取数据，运行后很快结束，但没有报错
在学习<python爬虫开发与项目实践>的时候有一个关于CrawlSpider的例子,当我在运行时发现,没有爬取到任何数据,以下是我敲的源代码:import scrapyfrom UseS ...
scrapy框架 + selenium 爬取豆瓣电影top250......
废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...

随机推荐

UiPath之DataTable转换为List和Array
今天给大家分享一下,如何将DataTable转为List和Array,为此小U也花了不少时间研究,最后发现没有那么复杂. 先来说说List和Array的区别: List:就像一个链条,存储数据的空间可 ...
基于 JavaFX 开发的聊天客户端 OIM-即时通讯
OIM 详细介绍一.简介 OIM是一套即时通讯的聊天系统,在这里献给大家,一方面希望能够帮助对即时通讯有兴趣研究的朋友,希望我们能够共同进步,另一个就是希望能够帮助到需要即时通讯系统的朋友或者企业, ...
Java操作数栈
- 与局部变量表一样,均以字长为单位的数组.不过局部变量表用的是索引,操作数栈是弹栈/压栈来访问.操作数栈可理解为java虚拟机栈中的一个用于计算的临时数据存储区.- 存储的数据与局部变量表一致含in ...
php sublime常用插件
php sublime常用插件 1 Sublime Text的默认设置是不开启显示编码的,如果想开启,可通过菜单Perference → Settings – User,在打开的配置文件里 ,在大括号 ...
python—mariadb自动部署主从
import configparser import os def config_mariadb_yum(): exists = os.path.exists('/etc/yum.repos.d/ma ...
【html css js】实现一个简易日历
——[效果预览] 实现了日历最基础的功能,当前日期红色显示,可通过上方的左右按钮查看上一月或下一月的日期. ——[代码部分] 1. HTML <body> <div class=&q ...
C++程序员学Python
目录 C++程序员学Python 第二章.变量和数据类型 1.注释语句前用#: 2.常用于大小写函数: 第三章.列表 1.列表简述 2.修改,增加,插入,删除列表元素第四章操作列表 1.遍历 2.创 ...
一个excel(20M)就能干趴你的poi，你信吗？
自从上一篇:一个普通类就能干趴你的springboot,你信吗?后,很巧的是这次又发现一个问题,所以有了这篇文章,还是想沿用上篇的”流水帐“的方式查找问题和解决问题.这篇文章主要是因为使用POI导入一 ...
03-MyBatis拦截器机制
目录 MyBatis拦截器介绍拦截器的使用拦截器介绍及配置源码分析总结本文转载自MyBatis拦截器原理探究 MyBatis拦截器介绍 MyBatis提供了一种插件(plugin)的功能,虽 ...
PHP Openssl 生成公钥私钥
<?php //配置信息 $dn = array( "countryName" => "GB", "stateOrProvinceName ...