pandas处理较大数据量级的方法

前情提要:

工作原因需要处理一批约30G左右的CSV数据，数据量级不需要hadoop的使用，同时由于办公的本本内存较低的缘故，需要解读取数据时内存不足的原因。

操作流程：

方法与方式:首先是读取数据，常见的csv格式读取时一次性全部读取进来，面对数据量较大(本次3亿条实车数据)时，需要分批并且有 选择性 的读取后提取有效信息删除冗余信息并清理内存。

同时，为了使处理数据时效率更高，将整理好的数据实时读取进来以后，保存成快速且可读的数据形式另行存储。然后释放内存并读取下一批数据直到整个流程结束

下面是操作代码:

#import pickle # pkl存储与 hdf5存储

import pandas as pd

# 释放内存

import gc

reader = pd.read_csv(r'E:\VEH_GBK_2019-01-01.csv', encoding='gbk',iterator=True,low_memory=False,usecols=[0,1,2,4])

title_mc=['location','vid','上报时间','充电状态']

loop = True

chunkSize = 1000000

ans_vid={}

location_list=['上海','重庆','广东','北京']

for i in location_list:

    ans_vid[i]=[]

while loop:

    try:

        chunk = reader.get_chunk(chunkSize)

        chunk.columns=title_mc;

        chunk['充电状态']=chunk['充电状态'].astype(str)

        chunk['location']=chunk['location'].astype(str)

        for i in location_list:

            temp=chunk[chunk['location'].str.contains(i)]

            if temp[(temp['充电状态']=='1.0') | (temp['充电状态']=='4.0')].empty==False:

                ans_vid[i].append(temp[(temp['充电状态']=='1.0') | (temp['充电状态']=='4.0')])

                del temp

                gc.collect()

        del chunk

        gc.collect()

    except StopIteration:

        loop = False

        print ("Iteration is stopped.")

for i in location_list:

    ans_vid[i]=pd.concat(ans_vid[i])

location_list=['shanghai','chongqing','guangdong','beijing']

for i in location_list:

    ans_vid[i].to_hdf(i+'_charging.h5',key=ans_vid[i],encoding='gbk')

gc.collect()放在del 参数的后面用以及时释放内存。

读取的核心代码是:

reader = pd.read_csv(r'E:\VEH_GBK_2019-01-01.csv', encoding='gbk',iterator=True,low_memory=False,usecols=[0,1,2,4]) # usecols是读取原数据的某几列  chunkSize是分批读取的量级

chunk = reader.get_chunk(chunkSize)

本次读取的存储格式采用的是h5格式即hdf，该种格式易于读取较大数据量级，同时也有一些数据格式可以保存较大的数据量级: pkl ,npy等

推荐h5（保存dataframe）与pkl（保存字典格式），其读取速度更快.易于使用

h5格式调用pandas内置对dataframe的保存即可: 例 df是一个需要保存的较大的dataframe。代码为

 df.to_hdf('123.h5',encoding='gbk'，key='df')

pkl 保存需要先导入pickle ，所需保存的字典为ans_vid，代码如下

# 导出

output = open('usage_top2veh.pkl', 'wb')

pickle.dump(ans_vid, output)

output.close()

# 导入

pkl_file = open('usage_top2veh.pkl', 'rb')

data2 = pickle.load(pkl_file)

pkl_file.close()

pandas处理较大数据量级的方法 - chunk,hdf,pkl的更多相关文章

.NET MVC Json()处理大数据异常解决方法
[1-部分原文]: .NET MVC Json()处理大数据异常解决方法整个项目采用微软的ASP.NET MVC3进行开发,前端显示采用EasyUI框架,图表的显示用的是Highcharts,主要进 ...
MySQL分页查询大数据量优化方法
方法1: 直接使用数据库提供的SQL语句语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N适应场景: 适用于数据量较少的情况(元组百/千级)原因/缺点: ...
分享MSSQL、MySql、Oracle的大数据批量导入方法及编程手法细节
1:MSSQL SQL语法篇: BULK INSERT [ database_name . [ schema_name ] . | schema_name . ] [ table_name | vie ...
IIS大数据请求设置方法
大并发大数据量请求一般会分为几种情况: 1.大量的用户同时对系统的不同功能页面进行查找,更新操作 2.大量的用户同时对系统的同一个页面,同一个表的大数据量进行查询操作 3.大量的用户同时对系统的同一个 ...
elasticsearch5.0集群大数据量迁移方法及注意事项
当es集群的数据量较小的情况下elasticdump这个工具比较方便,但是当数据量达到一定级别比如上百G的时候,elasticdump速度就很慢了,此时我们可以使用快照的方法进行备份 elasticd ...
PHP处理大数据导出Excel方法
在日常的工作中,很多时候都需要导出各种各样的报表,但是如果导出的数据一旦比较大,很容易就导致超时,对于这种问题,有很多的解决方法,例如网上说的分批导出.采用CSV.还有就采用JAVA.甚至是C++和C ...
[转]ASP.NET MVC Json()处理大数据异常解决方法 json maxjsonlength
本文转自:http://blog.csdn.net/blacksource/article/details/18797055 先对项目做个简单介绍: 整个项目采用微软的ASP.NET MVC3进行开发 ...
ASP.NET MVC Json()处理大数据异常解决方法，字符串的长度超过了为 maxJsonLength
问题: 使用 JSON JavaScriptSerializer 进行序列化或反序列化时出错.字符串的长度超过了为 maxJsonLength 属性设置的值. <system.web.exten ...
ASP.NET MVC Json() 处理大数据异常解决方法 json MaxJsonLength
网上很多解决方案,在webconfig中添加,但是实践证明无效 <system.web.extensions> <scripting> <webServices> ...

随机推荐

[Android]Android开发艺术探索第13章笔记
13.1 使用CrashHandler来获取应用的Crash信息 (1)应用发生Crash在所难免,但是如何采集crash信息以供后续开发处理这类问题呢? 利用Thread类的setDefaultUn ...
Codeforces Round #561 (Div. 2) A. Silent Classroom
链接:https://codeforces.com/contest/1166/problem/A 题意: There are nn students in the first grade of Nlo ...
51nod1244 欧拉函数之和杜教筛
和上一题差不多,一个是μ*I=e,一个是φ*I=Id 稍改就得到了这题的代码 (我会告诉你我一开始逆元算错了吗) #include <bits/stdc++.h> #define MAX ...
Ubuntu系统修改服务器的静态ip地址
Ubuntu 16.04 #vi /etc/network/interfaces auto lo iface lo inet loopback auto ens3 iface ens3 inet st ...
dtexec命令执行SSIS包
默认情况下,同时安装了 64 位和 32 位版本的 Integration Services 命令提示实用工具的 64 位计算机将在命令提示符处运行 32 位版本.运行 32 位版本的原因是:在 PA ...
SSAS 部署之创建部署脚本
1.获取多维数据库的结构脚本: 当你的SSAS项目完成后,在Bin目录下会有一个SSAS.asdatabase文件. 2.打开“开始” ->Microsoft SQL Server 2008 R ...
webpack.config.js====entry入口文件的配置
1. 一般是采用对象语法: entry: { index: './src/default/js/index.js' }, https://webpack.css88.com/concepts/ent ...
DatabaseMetaData类
DatabaseMetaData类是java.sql包中的类,利用它可以获取我们连接到的数据库的结构.存储等很多信息.如: 1.数据库与用户,数据库标识符以及函数与存储过程. 2.数据 ...
swift 基础-4
函数:完成特定任务的代码块,通过名字来表示函数做什么 func 函数名(形参:形参类型)->返回类型 command +option+0 隐藏右边的框 //定义函数 func sayHello( ...
洛谷 P1202 [USACO1.1]黑色星期五Friday the Thirteenth
黑色星期五难度:☆ Code: #include <iostream> #include <cstdio> #include <cstring> using na ...

pandas处理较大数据量级的方法 - chunk,hdf,pkl

pandas处理较大数据量级的方法 - chunk,hdf,pkl的更多相关文章

随机推荐

热门专题