Python：23种Pandas核心操作

Pandas 是一个 Python 软件库，它提供了大量能使我们快速便捷地处理数据的函数和方法。一般而言，Pandas 是使 Python 成为强大而高效的数据分析环境的重要因素之一。在本文中，作者从基本数据集读写、数据处理和 DataFrame 操作三个角度展示了 23 个 Pandas 核心方法。

Pandas 是基于 NumPy 构建的库，在数据处理方面可以把它理解为 NumPy 加强版，同时 Pandas 也是一项开源项目。它基于 Cython，因此读取与处理数据非常快，并且还能轻松处理浮点数据中的缺失数据（表示为 NaN）以及非浮点数据。在本文中，基本数据集操作主要介绍了 CSV 与 Excel 的读写方法，基本数据处理主要介绍了缺失值及特征抽取，最后的 DataFrame 操作则主要介绍了函数和排序等方法。

基本数据集操作

（1）读取 CSV 格式的数据集

pd.DataFrame.from_csv(“csv_file”)

或者：

pd.read_csv(“csv_file”)

（2）读取 Excel 数据集

pd.read_excel("excel_file")

（3）将 DataFrame 直接写入 CSV 文件

如下采用逗号作为分隔符，且不带索引：

df.to_csv("data.csv", sep=",", index=False)

（4）基本的数据集特征信息

df.info()

（5）基本的数据集统计信息

print(df.describe())

(6) Print data frame in a table

将 DataFrame 输出到一张表：

print(tabulate(print_table, headers=headers))

当「print_table」是一个列表，其中列表元素还是新的列表，「headers」为表头字符串组成的列表。

（7）列出所有列的名字

df.columns

基本数据处理

（8）删除缺失数据

df.dropna(axis=0, how='any')

返回一个 DataFrame，其中删除了包含任何 NaN 值的给定轴，选择 how=「all」会删除所有元素都是 NaN 的给定轴。

（9）替换缺失数据

df.replace(to_replace=None, value=None)

使用 value 值代替 DataFrame 中的 to_replace 值，其中 value 和 to_replace 都需要我们赋予不同的值。

（10）检查空值 NaN

pd.isnull(object)

检查缺失值，即数值数组中的 NaN 和目标数组中的 None/NaN。

（11）删除特征

df.drop('feature_variable_name', axis=1)

axis 选择 0 表示行，选择表示列。

（12）将目标类型转换为浮点型

pd.to_numeric(df["feature_name"], errors='coerce')

将目标类型转化为数值从而进一步执行计算，在这个案例中为字符串。

（13）将 DataFrame 转换为 NumPy 数组

df.as_matrix()

（14）取 DataFrame 的前面「n」行

df.head(n)

（15）通过特征名取数据

df.loc[feature_name]

DataFrame 操作

（16）对 DataFrame 使用函数

该函数将令 DataFrame 中「height」行的所有值乘上 2：

df["height"].apply(*lambda* height: 2 * height)

或：

def multiply(x):

 return x * 2

df["height"].apply(multiply)

（17）重命名行

下面代码会重命名 DataFrame 的第三行为「size」：

df.rename(columns = {df.columns[2]:'size'}, inplace=True)

（18）取某一行的唯一实体

下面代码将取「name」行的唯一实体：

df["name"].unique()

（19）访问子 DataFrame

以下代码将从 DataFrame 中抽取选定了的行「name」和「size」：

new_df = df[["name", "size"]]

（20）总结数据信息

# Sum of values in a data frame

df.sum()

# Lowest value of a data frame

df.min()

# Highest value

df.max()

# Index of the lowest value

df.idxmin()

# Index of the highest value

df.idxmax()

# Statistical summary of the data frame, with quartiles, median, etc.

df.describe()

# Average values

df.mean()

# Median values

df.median()

# Correlation between columns

df.corr()

# To get these values for only one column, just select it like this#

df["size"].median()

（21）给数据排序

df.sort_values(ascending = False)

（22）布尔型索引

以下代码将过滤名为「size」的行，并仅显示值等于 5 的行：

df[df["size"] == 5]

（23）选定特定的值

以下代码将选定「size」列、第一行的值：

df.loc([0], ['size'])

原文链接：https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38

Python：23种Pandas核心操作的更多相关文章

《手把手教你》系列进阶篇之4-python+ selenium自动化测试 - python几种超神操作你都知道吗？（详细教程）
1. 简介今天分享和讲解的超神操作,对于菜鸟来说是超神的操作,对于大佬来说也就是几个简单方法的封装和调用.这里讲解和分享这部分主要是为了培养小伙伴们和童鞋们的面向对象的开发思维,对比这样做的好处让你 ...
python 23 种设计模式
频率所属类型模式名称模式简单定义 5 创建型 Singleton 单件保证一个类只有一个实例,并提供一个访问它的全局访问点. 4 创建型 Abstract Factory 抽象工厂提供一个 ...
Python 23种设计模式全（python例子）
从今年5月份开始打算把设计模式都写到博客里,持续到现在总算是写完了.写的很慢,好歹算是有始有终.对这些设计模式有些理解的不准确,有些甚至可能是错的,请看到的同学拍砖留言.内容来源很杂,大部分参考或者摘 ...
python实现23种设计模式
本文源码寄方于github:https://github.com/w392807287/Design_pattern_of_python 参考文献: <大话设计模式>——吴强 <Py ...
python中的pandas的两种基本使用
python中的pandas的两种基本使用2018年05月19日 16:03:36 木子柒努力成长阅读数:480 一.pandas简介 pandas:panel data analysis(面板数据 ...
【Python自动化Excel】Python与pandas字符串操作
Python之所以能够成为流行的数据分析语言,有一部分原因在于其简洁易用的字符串处理能力. Python的字符串对象封装了很多开箱即用的内置方法,处理单个字符串时十分方便:对于Excel.csv等表格 ...
Python pandas DataFrame操作
1. 从字典创建Dataframe >>> import pandas as pd >>> dict1 = {'col1':[1,2,5,7],'col2':['a ...
23种计模式之Python实现（史上最全最通俗易懂）内容整改中
第一篇 Python与设计模式:前言第二篇(23种设计模式) 创建类设计模式(5种) 单例模式.工厂模式.简单工厂模式.抽象工厂模式.建造者模式.原型模式结构类设计模式(7种) 代理模式.装饰器模 ...
《手把手教你》系列进阶篇之3-python+ selenium自动化测试 - python几种骚操作你都知道吗？（详细教程）
1. 简介这篇文章主要是给小伙伴或者童鞋们介绍和分享 python几种骚操:读取配置文件.获取根目录的相对路径.获取系统时间和格式化时间显示.字符串切割等等操作.为后边的自动化框架打下一个结实的基础 ...

随机推荐

FZU 1202
http://acm.fzu.edu.cn/problem.php?pid=1202 二分图最大匹配,问哪些边是必要的,O(n^3)的方法删边的时候把连接关系也要删掉,如果在此基础上无法找到增广路, ...
memcpy - how to copy float* to float* variable
how to copy float* to float* float* seg_segmap = new float[OUTPUT_H * OUTPUT_W]; float* temp = new f ...
explain结果字段说明
Explain命令在解决数据库性能上是第一推荐使用命令,大部分的性能问题可以通过此命令来简单的解决,Explain可以用来查看SQL语句的执行效果,可以帮助选择更好的索引和优化查询语句,写出更好的优 ...
ZOJ2402 Lenny's Lucky Lotto List 简单DP
Lenny's Lucky Lotto Lists Time Limit: 2 Seconds Memory Limit:65536 KB Lenny likes to play the g ...
python--selenium多线程执行用例实例/执行多个用例
python--selenium多线程执行用例实例/执行多个用例我们在做selenium测试的时候呢,经常会碰到一些需要执行多个用例的情况,也就是多线程执行py程序,我们前面讲过单个的py用例怎么 ...
ACM大牛的BLOG(转)
Twilightgod CUSThttp://blog.csdn.net/twilightgodAekdycoin FZU http://hi.baidu.com/aekdycoinForeverli ...
网络流--最大流dinic模板
标准的大白书式模板,除了变量名并不一样……在主函数中只需要用到 init 函数.add 函数以及 mf 函数 #include<stdio.h> //差不多要加这么些头文件 #includ ...
HashMap Hashtable LinkedHashMap TreeMap
// Map<String, String> map = new HashMap<String, String>(); // bb aa cc Map<String, S ...
android BSP移植综述
将android移植到特定硬件平台上,其核心是bsp的搭建工作,bsp是板级支持包,并不是特定某个文件,而是从功能上理解的一种硬件适配软件包,它的核心就是: 1. linux内核硬件相关部分(主要是l ...
TensorFlow笔记-08-过拟合,正则化,matplotlib 区分红蓝点
TensorFlow笔记-08-过拟合,正则化,matplotlib 区分红蓝点首先提醒一下,第7讲的最后滑动平均的代码已经更新了,代码要比理论重要今天是过拟合,和正则化,本篇后面可能或更有兴趣, ...

Python：23种Pandas核心操作

Python：23种Pandas核心操作的更多相关文章

随机推荐

热门专题