Pandas 处理丢失数据

处理丢失数据

import pandas as pd

from pandas import Series, DataFrame

import numpy as np

有两种丢失数据：

1. None

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。
2. np.nan（NaN）

np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

3. pandas中的None与NaN

1) pandas中None与np.nan都视作np.nan

创建 DataFarme

#创建DataFrame，给其中某些元素赋值为nan

df = DataFrame(data=np.random.randint(0,100,size=(10,12)))

# df.iloc[横向坐标,纵向坐标] = 值

df.iloc[3,6] = None

df.iloc[5,2] = None

df.iloc[8,8] = None

df.iloc[1,4] = np.nan

df

2) pandas处理空值操作

isnull()
notnull()
dropna(): 过滤丢失数据
fillna(): 填充丢失数据

#创建DataFrame，给其中某些元素赋值为nan

df.isnull().any(axis=1)

df.notnull().all(axis=1)

df.loc[df.notnull().all(axis=1)]

(1)判断函数

isnull()
notnull()

df.isnull().any(axis=1)  # 1 横向 默认 0 纵向

df.notnull().all(axis=1) 

# 对空的 删除处理

df.loc[df.notnull().all(axis=1)]

df.dropna() 可以选择过滤的是行还是列（默认为行）: axis中0表示行，1表示的列

df.dropna(axis=0) # 直接对空值进行删除处理

df.dropna(axis=1)

填充函数 Series/DataFrame

fillna() :value和method参数

# 1 横向向后补空 0 向下  可以选择前向填充还是后向填充

df.fillna(method='ffill',axis=0)

df.fillna(method='bfill',axis=1)

# method 控制填充的方式 bfill ffill

pandas 读取: excel

df = pd.read_excel('测试数据.xlsx')

df.head()

# 对数据进行筛选

df_ = df[['time',1,2,3,4]]

df_

# 对空值进行  删除  处理

df_.dropna(axis=0)

# 对空值进行 补植 处理  向下 补植

df_.fillna(method='ffill',axis=0,inplace=True)

# 判断是否还存在空值

df_.isnull().any(axis=0)

pandas读写excel文件

依赖: pip install openpyxl

from pymysql import Connect

# 读取数据库中的文件

conn = Connect(host='127.0.0.1', port=3306, user='root', passwd='', charset='utf8', db='40exercises')

cursor = conn.cursor()

sql = "select * from student"

count = cursor.execute(sql)

res = cursor.fetchall()

print(count, res)

print(cursor.description)

data = pd.DataFrame(list(ree), columns=[i[0] for i in cursor.description])

# 使用pandas读取excel文件

xls_file=pd.ExcelFile('./data/workbook.xls')

xls_file.sheet_names#显示出读入excel文件中的表名字

table1=xls_file.parse('first_sheet')

table2=xls_file.parse('second_sheet')

xlsx_file=pd.ExcelFile("./demo.xlsx")

x1=xlsx_file.parse(0)

x2=xlsx_file.parse(1)

# excel文件的写出

# data.to_excel("abc.xlsx",sheet_name="abc",index=False,header=True)

# 该条语句会运行失败，原因在于写入的对象是np数组而不是DataFrame对象,只有DataFrame对象才能使用to_excel方法。

DataFrame(data).to_excel("abc.xlsx",sheet_name="123",index=False,header=True)

#excel文件和pandas的交互读写，主要使用到pandas中的两个函数,一个是pd.ExcelFile函数,一个是to_excel函数

Pandas 处理丢失数据的更多相关文章

（二）pandas处理丢失数据
处理丢失数据有两种丢失数据: None np.nan(NaN) import numpy as np type(None) NoneType type(np.nan) float 1. None N ...
pandas处理丢失数据-【老鱼学pandas】
假设我们的数据集中有缺失值,该如何进行处理呢? 丢弃缺失值的行或列首先我们定义了数据集的缺失值: import pandas as pd import numpy as np dates = pd. ...
Pandas处理丢失数据
1.创建含NaN的矩阵 >>> dates = pd.date_range(', periods=6) >>> df = pd.DataFrame(np.arang ...
6 DataFrame处理丢失数据--数据清洗
处理丢失数据有两种丢失数据: · None · np.nan(NaN) 1 None None是Python自带的,其类 ...
.Net读取Excel文件时丢失数据的问题（转载）
相信很多人都试过通过OleDB读取Excel文件,这种方法效率十分高,只是有一点会让人十分头痛,就是当一列中既有混合型数据,又有纯数据时,往往容易丢失数据. 百度过后,改连接字符串 “HDR=YES; ...
使用ehcache持久化数据到磁盘并且在应用服务器重启后不丢失数据
使用ehcache时如何持久化数据到磁盘,并且在应用服务器重启后不丢失数据1.如何持久化到磁盘使用cache.flush(),每次写入到cache后调用cache.flush() ,这样ehcache ...
Kafka重复消费和丢失数据研究
Kafka重复消费原因底层根本原因:已经消费了数据,但是offset没提交. 原因1:强行kill线程,导致消费后的数据,offset没有提交. 原因2:设置offset为自动提交,关闭kafka时 ...
RMAN数据库恢复之丢失数据文件的恢复
删除某一数据文件:SQL> HOST del D:\app\Administrator\oradata\orcl\USERS01.dbf 启动数据库,提示丢失数据文件4,此时数据库处理MOUNT ...
RMAN数据库恢复之归档模式有(无)备份-丢失数据文件的恢复
1.归档模式有备份,丢失数据文件的恢复归档模式有备份,不管丢失什么数据文件,直接在RMAN下RESTOER--->RECOVER--->OPEN即可. RMAN> STARUP MO ...

随机推荐

.Net C# 使用Redis
Redis是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言的API.从2010年3月15日起,Redis的开发工作由VMware主 ...
Entity Framework Code first（转载）
一.Entity Framework Code first(代码优先)使用过程 1.1Entity Framework 代码优先简介不得不提Entity Framework Code First这个 ...
【Java每日一题】20170303
20170302问题解析请点击今日问题下方的“[Java每日一题]20170303”查看(问题解析在公众号首发,公众号ID:weknow619) package Mar2017; public cla ...
Java编程思想__异常
1.使用异常链,需要采用如下方式包装捕获到的异常: public void two() { System.out.println("two()"); try { one(); } ...
SaaS技术栈的走势
本地部署时代在软件还是“本地部署(on-premise)”的时候,SaaS的版图被大型玩家把持着,几乎所有的垂直领域(营销.支持.销售.人力)都被微软.SAP等大公司的解决方案占据.那时候的用户并没 ...
Java并发编程-Semaphore
基于AQS的前世今生,来学习并发工具类Semaphore.本文将从Semaphore的应用场景.源码原理解析来学习这个并发工具类. 1. 应用场景 Semaphore用来控制同时访问某个特定资源的操作 ...
Java中单例实现
1:.经典懒汉: 代码如下: package org.pine.test; public class Person { private String name; private int age; pu ...
element vue Array数组和Map对象的添加与删除
使用场景: 一个后台系统中, 管理员要配置自定义字段后台要生成id和title,其他角色要使用自定义字段的表单, 添加数据, 但是每个要填写的对象的id 和title都是无法固定的,因此页面显示的ti ...
在插件中得到，调用插件的id
<!DOCTYPE html><html><head lang="en"> <meta charset="UTF-8" ...
WPF：完美自定义MeaagseBox 2.0
很久前做个一个MessageBox,原文链接:http://www.cnblogs.com/DoNetCoder/p/3843658.html. 不过对比MessageBox还有一些瑕疵.这些天有时间 ...

Pandas 处理丢失数据

处理丢失数据

1. None

2. np.nan（NaN）

3. pandas中的None与NaN

1) pandas中None与np.nan都视作np.nan

2) pandas处理空值操作

填充函数 Series/DataFrame

pandas 读取: excel

pandas读写excel文件

Pandas 处理丢失数据的更多相关文章

随机推荐

热门专题