pandas 3

参考资料：https://mp.weixin.qq.com/s/9z3JVBkZpasC_F0ar_7JJA

删除多列：df.drop(col_names_list, axis=1, inplace=True)

转换数据类型：df[col_float] = df[col_float].astype('float32')

替换：num_encode = {'col_1' : {'YES':1, 'NO':0}, 'col_2' : {'WON':1, 'LOSE':0, 'DRAW':0}} df.replace(num_encode, inplace=True)

检查每列缺失数据的数量：return df.isnull().sum().sort_values(ascending=False)

删除列中的奇诡字符：

df['col_1'].replace('\n', '', regex=True, inplace=True)

df['col_1'].replace(' &#.*', '', regex=True, inplace=True)

删除字符串开头的空格：df[col] = df[col].str.lstrip()
两列连接，得到新的列：

def concat_col_str_condition(df): # concat 2 columns with strings if the last 3 letters of the first column are 'pil'

mask = df['col_1'].str.endswith('pil', na=False)

col_new = df[mask]['col_1'] + df[mask]['col_2']

col_new.replace('pil', ' ', regex=True, inplace=True) # replace the 'pil' with emtpy space

字符串转时间：df.insert(loc=2, column='timestamp', value=pd.to_datetime(df.transdate, format='%Y-%m-%d %H:%M:%S.%f'))

1 engine是使用的分析引擎，读取csv文件一般指定python避免中文和编码造成的报错。

2 df.info()帮助我们一步摸清各列数据的类型，以及缺失情况：

3 使用Pandas时，尽量避免用行的思维来处理数据，要逐渐养成一种列向思维，每一列是同宗同源，处理起来是嗖嗖的快

4 1)增加一列，用df['新列名'] = 新列值的形式

2) 用drop函数制定删除对应的列，axis = 1表示针对列的操作，删除多列用[col1,col2,col3]

3) 选取某一列: df['列名']即可选取多列：df[['第一列','第二列','第三列'..]]

4 简单的更改：df['旧列名'] = 某个值或者某列值，就完成了对原列数值的修改。

改多列：df2[['aa','cc']]=90

5 字符串类型是最常用的格式之一了，Pandas中字符串的操作和原生字符串操作几乎一毛一样，唯一不同的是需要在操作前加上".str"

小Z温馨提示：我们最初用df2.info()查看数据类型时，非数值型的列都返回的是object格式，

在常规实际应用中，我们可以先理解为object对应的就是str格式，int64对应的就是int格式，float64对应的就是float格式即可

6 字符串转数字

df2['cc']=df2['cc'].astype(float)

7 字符串转时间

df2['dd']=pd.to_datetime(df2['dd'])

8 基于位置（数字）的索引：含首不含尾

选行

选列

选行和列

9 基于名称（标签）的索引

选行

选列

选行和列

在pandas中，要表示同时满足，各条件之间要用"&"符号连接，条件内部最好用括号区分；如果是“或”的关系（满足一个即可），则用“|”符号连接：

10 指定读取哪个sheet页

11 纵向合并（一般是有相同的列，有几列不一样也没事）

12 横向合并

left和rgiht分别对应着需要连接的左表和右表，left_index与right_index是当我们用索引连接时指定的参数，利用列进行连接时，用“left_on = '姓名',right_on = '姓名'”

左连接（left）和右连接（right），我们可以直观理解为哪边的表是老大，谁是老大，就听谁的（所有行全部保持），先看左连接，左表h1原封不动，右边根据左表进行合并，如果存在相关的名字，就正常返回数据，如果不存在（韩梅梅、李雷），就返回空(NAN)值；右连接就是听右表的，左表有则返回无则为空。

外连接是两张表妥协的产物，我的数据全保留，你的也全保留，你有我无的就空着，你无我有的也空着

12 去空： dropna函数默认删除所有出现空值的行，即只要一行中任意一个字段为空，就会被删除

可以设置subset参数，例如dropna(subset = ['city'])，来指定当一行中的city字段为空时，才会被删除

13 去重：drop_duplicates方法去重默认会删掉完全重复的行对某行去重：subset

14 排序：df2.sort_values(['cc','bb'],ascending=False)

15 分组求和：

对分组后的某些列求和

16 不让分组的列变成索引

不让分组的列变成索引

也可以通过reset_index()实现不让分组的列变成索引

17 切分（分桶）操作常用于一维数组的分类和打标（给数据分区间，并给每一区间打标签）

18 apply()

pandas 3的更多相关文章

pandas基础-Python3
未完 for examples: example 1: # Code based on Python 3.x # _*_ coding: utf-8 _*_ # __Author: "LEM ...
10 Minutes to pandas
摘要一.创建对象二.查看数据三.选择和设置四.缺失值处理五.相关操作六.聚合七.重排(Reshaping) 八.时间序列九.Categorical类型十.画图十一 ...
利用Python进行数据分析(15) pandas基础: 字符串操作
字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join( ...
利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
pandas.DataFrame对行和列求和及添加新行和列
导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFra ...
pandas.DataFrame排除特定行
使用Python进行数据分析时,经常要使用到的一个数据结构就是pandas的DataFrame 如果我们想要像Excel的筛选那样,只要其中的一行或某几行,可以使用isin()方法,将需要的行的值以列 ...

随机推荐

软件素材---linux C语言：拼接字符串函数 strcat的用例(与char数组联合使用挺好)
[头文件]#include <string.h> [原型] 1 char *strcat(char *dest, const char *src); [参数]: dest 为目标字符串指针 ...
Quartz.Net—Calendar
动态的排除一些触发器的时间. DailyCalendar-天日历定义: This implementation of the Calendar excludes (or includes - see ...
Git操作入门
生成ssh key: ssh-keygen -t rsa -C "lkt@temp.com" 按三次回车,最后在.ssh文件夹下得到id_rsa和id_rsa.pub两个文 ...
Zuul【工作原理】
zuul的核心逻辑都是由一系列filter过滤器链实现的,但是filter的类型不同,执行的时机也不同,效果自然也不一样,主要特点如下: filter的类型:filter的类型,决定了它在整个filt ...
Web基础和servlet基础
TomCat的目录结构 Bin:脚本目录(存放启动.关闭这些命令) Conf:存放配置文件的目录 Lib:存放jar包 Logs: 存放日志文件 Temp: 临时文件 Webapps: 项目发布目录 ...
剑指offer22：从上往下打印出二叉树的每个节点，同层节点从左至右打印。
1 题目描述从上往下打印出二叉树的每个节点,同层节点从左至右打印. 2 思路和方法使用一个队列存放节点.先将根节点加入到队列中,然后循环遍历队列中的元素,遍历过程中,访问该节点的左右子节点,再将左 ...
05 多继承、object类
多继承 Python中一个类可以继承多个父类,并且获得全部父类的属性和方法. class A: def demo(self): print("demo") class B: def ...
loginserver 个人草稿
<script> (function($, doc) { /*var contextpath = "http://192.168.0.102:8080/pwgtjq"; ...
写Markdown博客时遇到的一些问题
成对的美元符号$,无法转义相同的文本,就因为成对的$(美元符号),上面显示成了公式(Math)-而且还无法转义!下面用单行代码(``)-键盘"1"左侧的键,显示就正常了下图方法 ...
nodejs模块fs——文件操作api
// fs模块常用api // 读取文件 .写入文件 .追加文件. 拷贝文件 .删除文件 // 读取文件 // fs.readFile(path[, options], callback) // fs ...

pandas 3

pandas 3的更多相关文章

随机推荐

热门专题