在家为国家做贡献太无聊,不如跟我一起学点 Python

人生苦短,我用 Python

前文传送门:

小白学 Python 数据分析(1):数据分析基础

小白学 Python 数据分析(2):Pandas (一)概述

小白学 Python 数据分析(3):Pandas (二)数据结构 Series

引言

DataFrame 是由多种类型的列构成的二维标签数据结构。

简单理解是类似于 Excel 、 SQL 表的结构。

DataFrame 是最常用的 Pandas 对象,与 Series 一样,DataFrame 支持多种类型的输入数据:

  • 一维 ndarray、列表、字典、Series 字典
  • 二维 numpy.ndarray
  • 结构多维数组或记录多维数组
  • Series
  • DataFrame

构建 DataFrame

同 Excel 一样, DataFrame 拥有行标签( index )和列标签( columns ),可以理解为 Excel 的行和列。

在构建 DataFrame 的时候,可以有选择的传递 index 和 columns 参数。

这样可以确保生成的 DataFrame 里包含索引或列。

注意: Python > = 3.6,且 Pandas > = 0.23,数据是字典,且未指定 columns 参数时,DataFrame 的列按字典的插入顺序排序。

Python < 3.6 或 Pandas < 0.23,且未指定 columns 参数时,DataFrame 的列按字典键的字母排序。

Series 字典或字典构建 DataFrame

先看一个简单的示例:

d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])} df = pd.DataFrame(d)
print(df)

结果如下:

   one  two
a 1.0 1.0
b 2.0 2.0
c 3.0 3.0
d NaN 4.0

在通过 Series 构建 DataFrame 的时候,生成的 index (索引)是每个 Series 索引的并集。

先把嵌套字典转换为 Series 。如果没有指定列, DataFrame 的列就是字典键的有序列表。

这里我们在字典中使用两个字符串 onetwo 作为字典的 key ,在构造 DataFrame 时会自动的使用我们的字典的 key 作为自己的 columns (列)。

如果我们在构造 DataFrame 手动指定索引,那么将会使用我们自行指定的索引,示例如下:

df1 = pd.DataFrame(d, index=['d', 'b', 'a'])
print(df1)

结果如下:

   one  two
d NaN 4.0
b 2.0 2.0
a 1.0 1.0

如果我们同时指定 index 和 column ,那么 DataFrame 也将会使用我们指定的索引和列,如果我们指定的 index 或者 column 不存在,将会使用 NaN 进行默认值填充,示例如下:

df2 = pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])
print(df2)

结果如下:

   two three
d 4.0 NaN
b 2.0 NaN
a 1.0 NaN

注意: 这里有一点需要注意,指定列与数据字典一起传递时,传递的列会覆盖字典的键。

在使用 Series 构建 DataFrame 时, DataFrame 会自动继承 Series 的索引,如果没有指定列名,默认列名是输入 Series 的名称。

多维数组字典构建 DataFrame

首先,多维数组的长度必须相同。

如果传递了索引参数,index 的长度必须与数组一致。

如果没有传递索引参数,那么将会按照序列从 0 开始,自动生成,示例如下:

d1 = {'one': [1., 2., 3., 4.],
'two': [4., 3., 2., 1.]} df3 = pd.DataFrame(d1)
print(df3) df4 = pd.DataFrame(d1, index=['a', 'b', 'c', 'd'])
print(df4)

结果如下:

   one  two
0 1.0 4.0
1 2.0 3.0
2 3.0 2.0
3 4.0 1.0 one two
a 1.0 4.0
b 2.0 3.0
c 3.0 2.0
d 4.0 1.0

列表字典构建 DataFrame

d2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

df5 = pd.DataFrame(d2)
print(df5) df6 = pd.DataFrame(d2, index=['first', 'second'], columns=['a', 'b'])
print(df6)

结果如下:

   a   b     c
0 1 2 NaN
1 5 10 20.0 a b
first 1 2
second 5 10

元组字典构建 DataFrame

元组字典可以自动创建多层索引 DataFrame。

d3 = ({('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}}) df7 = pd.DataFrame(d3)
print(df7)

结果如下:

       a              b
b a c a b
A B 1.0 4.0 5.0 8.0 10.0
C 2.0 3.0 6.0 7.0 NaN
D NaN NaN NaN NaN 9.0

提取、添加、删除

创建好了 DataFrame 以后,我们自然是希望可以动态的操作它,那么标准的 CRUD 操作必不可少。

获取数据示例如下,这里我们使用 df4 做演示:

提取

# 获取数据
print(df4)
# 按列获取
print(df4['one'])
# 按行获取
print(df4.loc['a'])
print(df4.iloc[0]) df4['three'] = df4['one'] * df4['two']
df4['flag'] = df4['one'] > 2
print(df4)

结果如下:

   one  two
a 1.0 4.0
b 2.0 3.0
c 3.0 2.0
d 4.0 1.0 a 1.0
b 2.0
c 3.0
d 4.0
Name: one, dtype: float64 one 1.0
two 4.0
Name: a, dtype: float64 one 1.0
two 4.0
Name: a, dtype: float64 one two three flag
a 1.0 4.0 4.0 False
b 2.0 3.0 6.0 False
c 3.0 2.0 6.0 True
d 4.0 1.0 4.0 True

删除

# 删除数据
del df4['two']
df4.pop('three')
print(df4)

结果如下:

   one   flag
a 1.0 False
b 2.0 False
c 3.0 True
d 4.0 True

增加

插入标量值,将会全部的列都插入,如下:

# 插入数据
df4['foo'] = 'bar'
print(df4)

结果如下

   one   flag  foo
a 1.0 False bar
b 2.0 False bar
c 3.0 True bar
d 4.0 True bar

插入与 DataFrame 索引不同的 Series 时,以 DataFrame 的索引为准:

df4['one_trunc'] = df4['one'][:2]
print(df4)

结果如下:

   one   flag  foo  one_trunc
a 1.0 False bar 1.0
b 2.0 False bar 2.0
c 3.0 True bar NaN
d 4.0 True bar NaN

可以插入原生多维数组,但长度必须与 DataFrame 索引长度一致。

可以使用 insert 方法插入数据,默认在 DataFrame 尾部插入列,但是可以手动指定插入列的位置,从 0 起算,示例如下:

df4.insert(1, 'bar', df4['one'])
print(df4)

结果如下:

   one  bar   flag  foo  one_trunc
a 1.0 1.0 False bar 1.0
b 2.0 2.0 False bar 2.0
c 3.0 3.0 True bar NaN
d 4.0 4.0 True bar NaN

示例代码

老规矩,所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上,方便大家取用。

示例代码-Github

示例代码-Gitee

参考

https://www.pypandas.cn/docs/getting_started/dsintro.html

小白学 Python 数据分析(4):Pandas (三)数据结构 DataFrame的更多相关文章

  1. 小白学 Python 数据分析(3):Pandas (二)数据结构 Series

    在家为国家做贡献太无聊,不如跟我一起学点 Python 顺便问一下,你们都喜欢什么什么样的文章封面图,老用这一张感觉有点丑 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析( ...

  2. 小白学 Python 数据分析(5):Pandas (四)基础操作(1)查看数据

    在家为国家做贡献太无聊,不如跟我一起学点 Python 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Panda ...

  3. 小白学 Python 数据分析(6):Pandas (五)基础操作(2)数据选择

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  4. 小白学 Python 数据分析(7):Pandas (六)数据导入

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  5. 小白学 Python 数据分析(8):Pandas (七)数据预处理

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  6. 小白学 Python 数据分析(9):Pandas (八)数据预处理(2)

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  7. 小白学 Python 数据分析(10):Pandas (九)数据运算

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  8. 小白学 Python 数据分析(11):Pandas (十)数据分组

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  9. 小白学 Python 数据分析(12):Pandas (十一)数据透视表(pivot_table)

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

随机推荐

  1. 变量内容的删除、取代与替换(optional)

    这部分内容非常繁琐且不易记忆且枯燥,用到来查询即可. 1.变量内容的删除 这一部分比较细枝末节,就不再一一手打了,贴范例图片 #:符合取代文字的最短的一个 ##:符合取代文字的最长的一个 2.变量内容 ...

  2. Cannot access org.springframework.context.ConfigurableApplicationContext

    Cannot access org.springframework.context.ConfigurableApplicationContext 需要将有问题的模块  删除 后重新导入 即可 IDEA ...

  3. Navicat10.1.11使用记录

    设计表的时候有个允许空值(null),如果不勾选,则无法插入null(但是可以插入‘null’),且默认值不能为null: 如果某个字段没有设置默认值,而插入时又没有给此字段赋值,则会提示warnin ...

  4. 编写SQL查询范围分区类型,MAX分区范围

    需求 对于分区表,对于范围分区类型来说,查询MAX分区及对应的分区范围. ==查询分区表对应的最大分区信息 ==排除了自扩展分区(如果是自扩展分区,但是最大的分区不是自扩展的并未排除在外) ==排除了 ...

  5. 微信小程序--百度地图坐标转换成腾讯地图坐标

    最近开发小程序时出现一个问题,后台程序坐标采用的时百度地图的坐标,因为小程序地图时采用的腾讯地图的坐标系,两种坐标有一定的误差,导致位置信息显示不正确.现在需要一个可以转换两种坐标的方法,经过查询发现 ...

  6. 递推预处理 + Manacher

    链接:https://www.nowcoder.com/acm/contest/131/D来源:牛客网 字符串 S 只包含小写英文字母.有四种操作,每次操作你可以选择其中一种: 删除字符串的第一个字母 ...

  7. Docker学习(九)Volumn容器间共享数据

    Docker学习(九)Volumn容器间共享数据 volume是什么 volume在英文中是容量的意思, 在docker中是数据卷的意思,是用来保存数据的容器 为什么要进行数据共享 在集群中有多台to ...

  8. 全网最全RabbitMQ总结,别再说你不会RabbitMQ

    RabbitMQ入门教程 当初我学RabbitMQ的时候,第一时间就上GitHub找相应的教程,但是令我很失望的是没有找到,Spring,Mybatis之类的教程很多,而RabbitMQ的教程几乎找不 ...

  9. mysql本地连接远程连接不上

    首先测试linux下的端口有没有开通 /etc/init.d/iptables status 查看3306端口没有开通 使用以下命令开通 /sbin/iptables -I INPUT -p tcp ...

  10. 【Java并发基础】使用“等待—通知”机制优化死锁中占用且等待解决方案

    前言 在前篇介绍死锁的文章中,我们破坏等待占用且等待条件时,用了一个死循环来获取两个账本对象. // 一次性申请转出账户和转入账户,直到成功 while(!actr.apply(this, targe ...