使用Pandas和NumPy实现数据获取

公众号本文地址：https://mp.weixin.qq.com/s/Uc4sUwhjLTpOo85ubj0-QA

以某城市地铁数据为例，通过提取每个站三个月15分钟粒度的上下客量数据，展示Pandas和Numpy的案例应用。

数据：http://u6v.cn/5W2i8H

http://u6v.cn/6hUVjk

初步发现数据有三个特点：：1、地铁数据的前五行是无效的，第七行给出了每个站点的名字；2、每个车站是按照15分钟粒度统计客流，给出了进站、出战、进出站客流；3、运营时间是从2：00-23：59，与地铁实际运营时间5：30-23：00不同，需要调整。

# 导入模块

import os

from pathlib import Path

import pandas as pd

import numpy as np

导入成功后，先获取目标文件夹下（data）的文件名，存入filenames变量中。

# 获取文件名

path = "./data"

filenames = os.listdir(path)

filenames

获取每个车站所对应的列号，确定pdd.read_excel(usecols)中usecols的参数

# 筛选掉 “合计”无用项，并设置target_col存储目标项

name = filenames[0]

f = "./data/" + name

# 前五行是无用数据

file = pd.read_excel(f, skiprows = 5, skipfooter = 3)

tarr = file.values

print(tarr[3])

test = tarr[0]

target_col = []

for i in range(len(test)):

    tmp = test[i]

    if tmp != '合计':

        target_col.append(i)

print(target_col)

获取车站名和车站编号：

# 获取车站名和车站编号

nfile = pd.read_excel(f, skiprows = 5, skipfooter = 3, usecols = target_col)

arrt = nfile.values

stations_name = []

stations_index = []

for i in range(2,len(arrt[0])):

    stations_index.append(i)

    stations_name.append(arrt[0][i])

print(stations_name)

print(stations_index)

接下来定义两个函数，我们希望把所有的数据都写入两个文件夹，一个是”in.csv”存储每个站的进站数据，一个是”out.csv”存储每个站的出站数据。如果目标文件不存在，代码如下：

def process_not_exists(f):

    # 前五行是无用数据

    file = pd.read_excel(f, skiprows = 5, skipfooter = 3, usecols = target_col)

    arr = file.values

    # 构造一个字典先存储数据

    d_in = {}

    d_out = {}

    for i in stations_index:

    # 存储第i个车站的上下客流数据

        d_in[i] = []

        d_out[i] = []

    # 5:30 之后的数据是从excel的50行开始，处理后的数据应从43行开始

    for i in range(43,len(arr)):

        l = arr[i] # 获取第i行的数据

        # 通过条件直接筛选掉“进出站”

        if l[1] == '进站':

            # 进站处理

            for j in range(2,len(l)):

                d_in[j].append(l[j])

        if l[1] == '出站':

            # 出站处理

            for j in range(2,len(l)):

                d_out[j].append(l[j])

    in_list = [] # 存储进站数据

    out_list = [] # 存储出站数据

    for key in d_in:

        # d_in 与 d_out 的key均为车站的index

        in_list.append(d_in[key])

        out_list.append(d_out[key])

    df_in = pd.DataFrame(in_list)

    df_in.to_csv("./data/in.csv", header = True, index = None)

    df_out = pd.DataFrame(out_list)

    df_out.to_csv("./data/out.csv", header = True, index = None)

如果目标文件存在，读取部分与目标文件不存在时相同，在处理输出时要进行修改，代码如下：

# 目标文件存在时

def process_exists(f,target_file_in,target_file_out):

    infile = pd.read_csv(target_file_in)

    outfile = pd.read_csv(target_file_out)

    in_arr = infile.values.tolist()

    out_arr = outfile.values.tolist()

    # 前五行是无用数据

    file = pd.read_excel(f, skiprows = 5, skipfooter = 3, usecols = target_col)

    arr = file.values

    # 构造一个字典先存储数据

    d_in = {}

    d_out = {}

    for i in stations_index:

    # 存储第i个车站的上下客流数据

        d_in[i] = []

        d_out[i] = []

    # 5:30 之后的数据是从excel的50行开始，处理后的数据应从43行开始

    for i in range(43,len(arr)):

        l = arr[i] # 获取第i行的数据

        # 通过条件直接筛选掉“进出站”

        if l[1] == '进站':

            # 进站处理

            for j in range(2,len(l)):

                d_in[j].append(l[j])

        if l[1] == '出站':

            # 出站处理

            for j in range(2,len(l)):

                d_out[j].append(l[j])

    in_list = [] # 存储进站数据

    out_list = [] # 存储出站数据

    for key in d_in:

        # d_in 与 d_out 的key均为车站的index

        in_list.append(d_in[key])

        out_list.append(d_out[key])

    #合并原有数据

    for i in range(len(in_arr)):

        in_arr[i] += in_list[i]

        out_arr[i] += out_list[i]

    # in_file

    df_in = pd.DataFrame(in_arr)

    df_in.to_csv("./data/in_test.csv",mode = 'r+', header = True, index = None)

    # out_file

    df_out = pd.DataFrame(out_arr)

    df_out.to_csv("./data/out_test.csv",mode = 'r+', header = True, index = None)

对于DataFrame中的数据获取方法有两种：第一种为通过file.iloc[i,j]的方式定位第i行第j列的数据；第二种为通过file.values将file转换为ndarray的数据格式，由于可以事先知道数据每一列的具体含义，直接通过整数下标的方式访问数据。

代码中使用的是第二种方式，这是由于DataFrame的iloc[]函数访问效率低，当数据体量很大时，遍历整个表格的速度会非常慢，而将DataFrame转换为ndarray后，遍历整个表格的数据效率会有显著提升。

下面是主函数，即可完成所有数据的提取。

for name in filenames:

    f = "./data/" + name

    target_file_in = "./data/in_test.csv"

    target_file_out = "./data/out_test.csv"

    # 若文件已存在

    if Path(target_file_in).exists() and Path(target_file_out).exists():

        print("exist")

        process_exists(f,target_file_in,target_file_out)

        #break

    else:

        print("not exist")

        process_not_exists(f)

print("done")

公众号本文地址：https://mp.weixin.qq.com/s/Uc4sUwhjLTpOo85ubj0-QA

使用Pandas和NumPy实现数据获取的更多相关文章

数据分析之Pandas和Numpy学习笔记(持续更新)<1>
pandas and numpy notebook 最近工作交接,整理电脑资料时看到了之前的基于Jupyter学习数据分析相关模块学习笔记.想着拿出来分享一下,可是Jupyter导出来h ...
Python Pandas与Numpy中axis参数的二义性
Stackoverflow.com是程序员的好去处,本公众号将以pandas为主题,开始一个系列,争取做到每周一篇,翻译并帮助pandas学习者一起理解一些有代表性的案例.今天的主题就是Pandas与 ...
用豆瓣加速安装pandas、numpy、matplotlib(画图)
安装pandas.numpy会同时被安装 #pthony2.x,用豆瓣加速安装pandas pip install -i https://pypi.doubanio.com/simple/ panda ...
Pandas和Numpy的一些金融相关的操作(一)
Pandas和Numpy的一些金融相关的操作给定一个净值序列,求出最大回撤 # arr是一个净值的np.ndarray i = np.argmax( (np.maximum.acumulate(ar ...
【强化学习】用pandas 与 numpy 分别实现 q-learning, saras, saras(lambda)算法
本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢:本文的三幅图皆来自莫凡的教程 https://morvan ...
利用pandas对numpy数组进行简单的科学计算
二维数组转换为DataFrame pandas可直接进行科学计算形式: import numpy as np import pandas as pd a = [1,2,3] b = [4,5,6] # ...
利用pandas将numpy数组导出生成excel
代码 # -*- coding: utf- -*- """ Created on Sun Jun :: @author: Bruce Lau ""&q ...
ubuntu下python安装pandas和numpy等依赖库版本不兼容的问题RuntimeWarning: numpy.dtype size changed
习惯了linux下用pip install numpy及pip install pandas命令了.折腾了好久了. 上来先在python3中pip3 install numpy装了numpy,然后再p ...
利用pandas和numpy计算表中每一列的均值
import numpy as np import pandas as pd df = pd.DataFrame({'var1':np.random.rand(100), #生成100个0到1之间的随 ...
Pandas 与 Numpy 常用方法总结
Lambda 函数实现简单的说,lambda 就是一个函数,但是这个函数没有名字,所以我们介绍一下这个函数的调用形式,参数与返回值的实现. lambda 的格式如下: lambda [arg1 [, ...

随机推荐

redis 乱码：\xac\xed\x00\x05t\x00\x02
前言学习 spring-boot 的 redis 相关部分,测试时,发现使用redisTemplate.opsForValue().set("name","tst&q ...
SpringBoot集成MQTT
MQTT介绍 MQTT 是基于 Publish/Subscribe(发布/订阅) 模式的物联网通信协议,凭借简单易实现.支持 QoS.报文小等特点. 其具有协议简洁.⼩巧.可扩展性强.省流量.省电等优 ...
kafka3.0创建topic出现zookeeper is not a recognized option
在linux云服务器上搭建了一套kafka3.0集群,然后安装以前的创建topic指令,例如这样-- ./kafka-topics.sh --bootstrap-server master:2181, ...
oeasy教您玩转vim - 16 - # 行内贴靠
行头行尾回忆上节课内容跳跃向前跳跃是 f 向后跳跃是 F 继续保持方向是 ; 改变方向是 , 可以加上 [count] 来加速还有什么好玩的吗? 动手 #这次还是用无配置的方式启动 vi - ...
[oeasy]python0014_二进制_binary_bin
二进制(binary) 回忆上次内容上次我们了解了ASCII码表 ASCII 码表就是 American Standard Code for Inf ...
Python 基于win32com客户端实现Excel操作
测试环境 Python 3.6.2 代码实现非多线程场景下使用新建并保存EXCEL import win32com.client from win32api import RGB def save ...
ElementUI 基于vue+sortable.js实现表格行拖拽
基于vue+sortable.js实现表格行拖拽 By:授客 QQ:1033553122 实践环境 sortablejs@1.13.0 vue@2.6.11 element-ui@2.13.2 安装s ...
Maven创建Web项目（idea）
web项目创建 Web项目开发需要导入许多的第三方jar包,用Maven创建web项目就可以将这一操作免去. 本项目是在idea下创建的,idea自带Maven,如果还未了解Maven的同学可以看上一 ...
Windows10 myeclipse 本地部署javaweb项目
Windows10 myeclipse 本地部署javaweb项目一,先在网上寻找相关的项目,自己研究学习之后,进行二次开发原文地址https://www.cnblogs.com/wydyzcnc ...
FP分数规划在无线通信中的应用
更多精彩内容请关注微信公众号 '优化与算法' 前言在数学优化中,分数规划是线性分式规划的推广.分数规划中的目标函数是两个函数的比值,这两个函数通常是非线性的.要优化的比值通常描述系统的某种效率. 1 ...

使用Pandas和NumPy实现数据获取

使用Pandas和NumPy实现数据获取的更多相关文章

随机推荐

热门专题