将不同的数据源进行合并 , 类似数据库 join merge . 工具函数 concat / append pd.concat() 简易合并 合并高维数据 默认按行合并. axis=0 ,试试 axis = 1 索引重复 结果中,索引是重复的. 这可能并不是我们想要的结果. 1)捕捉索引重复的错误. verify_integrity=True 忽略索引 ignore_index=True, 会新建索引. 增加多级索引,通过keys参数为 数据源设置多级索引标签. 类似join的合并 当数据源 带…
Pandas是在Numpy基础上建立的新程序库,提供了一种高效的DataFrame数据结构 本质是带行标签 和 列标签.支持相同类型数据和缺失值的 多维数组 增强版的Numpy结构化数组 行和列不在只是简单的整数索引,还可以带上标签, 三个基本数据结构 Series DataFrame Index Series Series将一组数据和一组索引绑定在一起 可以通过values 和 index属性获取数据, 与Numpy数据的区别:Numpy数组通过隐式定义的整数索引获取数值,Pandas 的Se…
向量化字符串操作 Series 和 Index对象 的str属性. 可以正确的处理缺失值 方法列表 正则表达式. Method Description match() Call re.match() on each element, returning a boolean. extract() Call re.match() on each element, returning matched groups as strings. findall() Call re.findall() on e…
简单累计功能 Series sum() 返回一个 统计值 DataFrame sum.默认对每列进行统计 设置axis参数,对每一行 进行统计 describe()可以计算每一列的若干常用统计值. 获取seaborn planets数据 github: https://github.com/mwaskom/seaborn-data.git windows: 放在用户目录下(在线下载卡.超时.) dropna()丢弃有缺失值的行. Pandas累计方法 Aggregation Descriptio…
Numpy 的基本能力之一是快速对每个元素进行运算 Pandas 继承了Numpy的功能,也实现了一些高效技巧. 对于1元运算,(函数,三角函数)保留索引和列标签 对于2元运算,(加法,乘法),Pandas 会自动对齐索引进行计算. 通用函数:保留索引 对ser对象或 df对象使用Numpy通用函数,生成的结果是另一个保留索引的Pandas对象. 通用函数: 索引对齐 当Series 或 DataFram对象进行二元计算,会对齐俩个对象的索引 当处理不完整的额数据时,这一点非常方便 Series…
Numpy数组取值 切片[:,1:5], 掩码操作arr[arr>0], 花哨的索引 arr[0, [1,5]],Pandas的操作类似 Series数据选择方法 Series对象与一维Numpy数组 和标准的Python字典 在许多方面 都一样. 1)将Series看作字典 可以使用Python字典的表达式和方法来检查 键 和索引 值 Series 可以新增,可以扩展. 2)将Series看作一维数组 Series不仅有着和字典一样的接口,而且还具备和Numpy数组一样的数组 数据选择 包括…
一维数据 和 二维数据 分别使用Series 和 DataFrame 对象存储. 多维数据:数据索引 超过一俩个 键. Pandas提供了Panel 和 Panel4D对象 解决三维数据和四维数据. 实践中,更直观的形式是通过 层级索引(Hierarchical indexing, 多级索引 = > muti-indexing) 配合 多个不同 等级的一级索引 一起使用. 本节介绍 MultiIndex对象的使用,以及 普通索引 与 层级索引的转换 多级索引Series 笨方法 好方法: Mul…
<Python数据科学手册>共五章,每章介绍一到两个Python数据科学中的重点工具包.首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境:第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组:第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据:第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能:第5章以Scikit-Learn为主,这个程序库…
一.引入 import matplotlib as mpl import matplotlib.pyplot as plt 二.配置 1.画图接口 Matplotlib 有两种画图接口: (1)一个是便捷的 MATLAB 风格接口 (2)功能更强大的面向对象接口[推荐,下文都以这个为例] 在面向对象接口中,画图函数不再受到当前"活动"图形或坐标轴的限制,而变成了显式的 Figure 和 Axes 的方法(一个Figure画布下可以有多个Axes子图). 2.静态 or 交互 %matp…
<Python数据科学手册>[美]Jake VanderPlas著 陶俊杰译 Absorb what is useful, discard what is not, and  add what is uniquel what own.(取其精华,去其糟粕,再加点自己的独创.) 本书在GitHub上开源:https://github.com/jakevdp/PythonDataScienceHandbook 作者在博客发布Notebook的HTML版本:https://jakevdp.githu…