pandas.read_sql_query()读取数据库数据用chunksize的坑

最近一项工作需要读取数据库中1500万条数据，考虑到数据量太大，不方便直接一次性读取，不然会内存爆炸。想到用pandas.read_sql_query()里有一个chunksize可以分批返回chunksize个数据，于是用pandas试了下，代码如下：

import pandas as pd

from sqlalchemy import create_engine

import psycopg2

import json

class DB_connection(object):

    def __init__(self):

        with open('config_db.json', 'r') as load_f:

            db_config = json.load(load_f)

        self.db_engine = create_engine(''.join(['postgresql+psycopg2://', db_config['USER'], ':', db_config['PASSWORD'], '@', db_config['HOST'], ':', str(db_config['PORT']), '/', db_config['DATABASE']]))

        self.db_conn = self.db_engine.connect()

        self.database = db_config['DATABASE']

    def read_from_table(self):

        data_gen = pd.read_sql_query(

            'SELECT case_id, text FROM first_case',

            self.db_conn, chunksize=2000

        )

        return data_gen

因为pandas.read_sql_query()加上chunksize后返回的是一个iterator。但运行程序时一直卡在那不动，看pandas.read_sql_query()源码才知道它不是真正的分批次读取，而是根据SQL语句全部读取出来后，再把它按chunksize个一批一批地转为iterator然后再返回。

    def read_query(self, sql, index_col=None, coerce_float=True,

                   parse_dates=None, params=None, chunksize=None):

        """Read SQL query into a DataFrame.

        Parameters

        ----------

        sql : string

            SQL query to be executed.

        index_col : string, optional, default: None

            Column name to use as index for the returned DataFrame object.

        coerce_float : boolean, default True

            Attempt to convert values of non-string, non-numeric objects (like

            decimal.Decimal) to floating point, useful for SQL result sets.

        params : list, tuple or dict, optional, default: None

            List of parameters to pass to execute method.  The syntax used

            to pass parameters is database driver dependent. Check your

            database driver documentation for which of the five syntax styles,

            described in PEP 249's paramstyle, is supported.

            Eg. for psycopg2, uses %(name)s so use params={'name' : 'value'}

        parse_dates : list or dict, default: None

            - List of column names to parse as dates.

            - Dict of ``{column_name: format string}`` where format string is

              strftime compatible in case of parsing string times, or is one of

              (D, s, ns, ms, us) in case of parsing integer timestamps.

            - Dict of ``{column_name: arg dict}``, where the arg dict

              corresponds to the keyword arguments of

              :func:`pandas.to_datetime` Especially useful with databases

              without native Datetime support, such as SQLite.

        chunksize : int, default None

            If specified, return an iterator where `chunksize` is the number

            of rows to include in each chunk.

        Returns

        -------

        DataFrame

        See also

        --------

        read_sql_table : Read SQL database table into a DataFrame

        read_sql

        """

        args = _convert_params(sql, params)

        result = self.execute(*args)

        columns = result.keys()

        if chunksize is not None:

            return self._query_iterator(result, chunksize, columns,

                                        index_col=index_col,

                                        coerce_float=coerce_float,

                                        parse_dates=parse_dates)

        else:

            data = result.fetchall()

            frame = _wrap_result(data, columns, index_col=index_col,

                                 coerce_float=coerce_float,

                                 parse_dates=parse_dates)

            return frame

上面源码可以看到，它先用execute执行sql语句，然后在判断是否有chunksize，没有就直接返回所有数据，有的话根据chunksize返回一个iterator。所以这不是一个真正的分批次读取，如果数据量大，还是会导致内存爆炸直至卡死。

最好的分批次方式是在SQL语句直接执行，比如加limit和offset。

SELECT case_id, text FROM first_case order by case_id limit 1000 offset 0

limit a offset b，表示跳过b个数据，读取出a个数据，这样可以固定a, 更新b就可实现一批一批地读取到所有数据。

pandas.read_sql_query()读取数据库数据用chunksize的坑的更多相关文章

读取数据库数据，并将数据整合成3D饼图在jsp中显示
首先我将生成饼图的方法独立写成一个PieChar.java类,详细代码如下:(数据库需要自己建,如有需要的话) import java.io.IOException; import java.sql. ...
Pandas：读取数据库read_sql
学习自:pandas.read_sql - pandas 1.2.4 documentation (10条消息) pd.read_sql()参数详解_pandas.read_csv()参数详解-CSD ...
C#使用SqlDataReader读取数据库数据时CommandBehavior.CloseConnection参数的作用
主要用在ExecuteReader(c)中,如果想要返回对象前不关闭数据库连接,须要用CommandBehavior.CloseConnection: CloseConnection解决了流读取数据模 ...
利用nodejs读取数据库数据生成树结构的json数据
在做后台管理界面的时候,几乎少不了的一个结构就是树形结构,用来做菜单导航: 那么,最希望的就是树结构的所有数据都是读取的数据库,而不是直接代码当中写死,那我们就一步一步来看: 一,建表字段通常包括: ...
在ASP.NET Core 中怎样使用 EF 框架读取数据库数据
添加测试数据我们首先使用 SQLite Studio 添加三条数据 ID Name 1 李白 2 杜甫 3 白居易使用 SQLite Studio 打开我们的 blogging.db 数据库,双击 ...
python读取数据库数据，读取出的中文乱码问题
conn = pymysql.connect( host='127.0.0.1', port=3302, user='username', passwd='password', db=database ...
ThinkPHP：读取数据库数据 (2)
项目配置文件Conf/config.php中添加数据库连接信息: // 添加数据库配置信息 'DB_TYPE' => 'mysql', // 数据库类型 'DB_HOST' => 'loc ...
通过mybatis读取数据库数据并提供rest接口访问
1 mysql 创建数据库脚本 -- phpMyAdmin SQL Dump -- version 4.2.11 -- http://www.phpmyadmin.net -- -- Host: lo ...
java 读取数据库数据转化输出XML输出在jsp页面
因为老师实验报告要求,搭建服务端解析XML 下面代码实现转化XML格式也是在网上找的转化代码输出在jsp页面以便于客户端解析是自己写的一个类就解决了Test package tests; //三只 ...

随机推荐

【oracle】ORA-00947: 没有足够的值
insert 时对应NOT NULL 的列必须有值
PHP 核心特性 - 错误处理
错误与异常错误,可以理解程序本身的错误,例如语法错误.而异常则更偏向于程序运行不符合预期或者不符合正常流程:对于 PHP 语言而言,处理错误和处理异常使用的机制完全不同,因此很容易让人产生困惑. 例 ...
stars-one的原创工具——APK签名验证破解工具
ASCTool APk签名验证破解工具 APK Signature Crack Tool 本工具只对那些仅通过 PackageManager.getPackageInfo().signatures 来 ...
Unix 开发中的 Make 三连
Unix 开发过程中,经常性的操作是从源码编译安装相应库文件,所以下面三个命令便是家常便饭,俗称三连: ./configure make make install 下面来看看这三步分别做了什么. co ...
.NET Core 数据结构与算法 1-1
.NET Core 数据结构与算法 1-1 本节内容为顺序表简介线性表是简单.基本.常用的数据结构.线性表是线性结构的抽象 (Abstract),线性结构的特点是结构中的数据元素之间存在一对一的线 ...
[WPF 自定义控件]使用WindowChrome自定义RibbonWindow
1. 为什么要自定义RibbonWindow 自定义Window有可能是设计或功能上的要求,可以是非必要的,而自定义RibbonWindow则不一样: 如果程序使用了自定义样式的Window,为了统一 ...
使用策略模式重构switch case 代码
目录 1.背景 2.案例 3.switch…case…方式实现 4.switch…case…带来的问题 5.使用策略模式重构switch…case…代码 6.总结 1.背景之前在看<重构 ...
Loading class `com.mysql.jdbc.Driver'. This is deprecated. The driver is automatically registered via the SPI and manual loading of the driver class is generally unnecessary.
简单介绍声明:使用JDK9.MYSQL8.idea 报错处理报错信息如下原因提示信息表明数据库驱动com.mysql.jdbc.Driver已经被弃用了.应当使用新的驱动com.mysql.c ...
Taro自定义Modal对话框组件|taro仿微信、android弹窗
基于Taro多端实践TaroPop:自定义模态框|dialog对话框|msg消息框|Toast提示 taro自定义弹出框支持编译到多端H5/小程序/ReactNative,还可以自定义弹窗类型/弹窗样 ...
你以为的Jquery选择器是什么样子的？
$("#myELement") 选择id值等于myElement的元素,id值不能重复在文档中只能有一个id值是myElement所以得到的是唯一的元素 $("d ...

pandas.read_sql_query()读取数据库数据用chunksize的坑

pandas.read_sql_query()读取数据库数据用chunksize的坑的更多相关文章

随机推荐

热门专题