pandas处理大数据题目的操作

1、用法：DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)

2、参数说明：

labels：要删除的行/列的名字，用列表给出

axis：默认为0，即删除行，删除列时指定为1

index：直接指定要删除的行

columns：直接指定要删除的列

inplace：默认为False，即删除操作不改变元数据，而是返回一个执行删除操作后的新DataFrame，若为True，则会在元数据据上进行删除操作，删除后无法返回

3、删除行列的两种方式：

1）labels=None, axis=0/1的组合

2）index或columns直接指定要删除的行或列

1.滤除缺失数据dropna()

import pandas as pd
import numpy as np
df=pd.DataFrame({"record":[np.nan,"亚健康|潘光|45岁","疾病|张思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)滤除含有NaN值的所有行
df.dropna()#默认axis=0

2)滤除含有NaN值的所有列
df.dropna(axis=1)

3)滤除元素都是NaN值的行
df.dropna(axis=0,how="all")

5)滤除指定列中含有缺失的行
df.dropna(subset=["record"],axis=0)

以上如果需要在原数据上直接做更改，需设置参数inplace=True

2.删除重复值 drop_duplicates()
df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

语法：drop_duplicates(subset,keep,inplace)，其中参数 keep:{‘first’，‘last’，False}，默认’first’

first：保留第一次出现的重复项，删除第二次及之后出现的重复项。

last：保留最后一次出现的重复项，删除之前出现的重复项。

"false"：删除所有重复项。

1)keep=“first”

df.drop_duplicates(keep="first")

2)keep=“last”

df.drop_duplicates(keep="last")

3)keep=False

df.drop_duplicates(keep=False)

4)删除指定列中重复项对应的行

df.drop_duplicates(subset=["state"],keep="first")

以上如果需要在原数据上直接做更改，需设置参数inplace=True

3.根据指定条件删除行列drop()

df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["one","two","three","four"])

1).删除指定列

df.drop(["one"],axis=1)

>>>df.drop(columns=['B', 'C'])

另外，也可通过del df["one"]来实现删除指定列，但该方法不推荐，因为这默认直接在源数据上做更改。

2).删除指定行

df.drop([0],axis=0)

>>> df.drop(index=[0])

以上如果需要在原数据上直接做更改，需设置参数inplace=True

————————————————
版权声明：本文为CSDN博主「永远在减肥永远110的的小潘」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/p1306252/article/details/114890550

pandas处理大数据题目的操作的更多相关文章

Dapper学习(四)之Dapper Plus的大数据量的操作
这篇文章主要讲 Dapper Plus,它使用用来操作大数量的一些操作的.比如插入1000条,或者10000条的数据时,再使用Dapper的Execute方法,就会比较慢了.这时候,可以使用Dappe ...
【大数据技术】操作系统和Hadoop版本选择
1.操作系统选择 Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS. CentOS是一个基于Red Hat 企业级 Linux 提 ...
EasyExcel对大数据量表格操作导入导出
前言最近有个项目里面中有大量的Excel文档导入导出需求,数据量最多的文档有上百万条数据,之前的导入导出都是用apache的POI,于是这次也决定使用POI,结果导入一个四十多万的文档就GG了,内存 ...
mysql大数据表删除操作锁表，导致其他线程等待锁超时（Lock wait timeout exceeded; try restarting transaction;）
背景: 1.有一个定时任务,每10分钟入一批统计数据: 2.另一个定时任务,每天定时清理7天前数据,此定时任务每天01:18:00执行: 现象: 每天01:20:00的统计数据入库失败,异常信息如下, ...
入门大数据---SparkSQL联结操作
一. 数据准备本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据.分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSessio ...
面试- 阿里-. 大数据题目- 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决. Step1:遍历文件a, ...
大数据自学5-Python操作Hbase
在Hue环境中本身是可以直接操作Hbase数据库的,但是公司的环境不知道什么原因一直提示"Api Error:timed out",进度条一直在跑,却显示不出表. 但是在CDH后台 ...
大数据学习——java操作hdfs环境搭建以及环境测试
1 新建一个maven项目打印根目录下的文件的名字添加pom依赖 pom.xml <?xml version="1.0" encoding="UTF-8&quo ...
MERGE INTO 解决大数据量复杂操作更新慢的问题
现我系统中有一条复杂SQL,由于业务复杂需要关联人员的工作离职三个表,并进行分支判断,再计算人员的字段信息,由于人员多,分支多,计算复杂等原因,一次执行需要5min,容易卡死,现在使用MERGE IN ...
成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...

随机推荐

C#.NET CORE .NET6 RSA 私钥签名公钥验签（验证签名） ver:20230614
C#.NET CORE .NET6 RSA 私钥签名公钥验签(验证签名) ver:20230614 环境说明: .NET CORE 版本:.NET 6 . .NET CORE 对于RSA的支持: 1 ...
如何在Databricks中使用Spark进行数据处理与分析
目录 <如何在Databricks中使用Spark进行数据处理与分析> 随着大数据时代的到来,数据处理与分析变得越来越重要.在数据处理与分析过程中,数据的存储.处理.分析和展示是不可或缺的 ...
Python运维开发之路《高阶函数》
一.列表生成式,迭代器&生成器列表生成式需求:data列表里有如下三个值,需要给每个值加1 1 data = [1,2,3] 2 list = map(lambda x:x+1,data) ...
Unity 制作KinematicCharacterController
本篇博客为游戏开发记录,博主只是想自己做个移动组件给自己做游戏用,此间产生的一些经验也做一个分享. 简介为了在3D世界中自由的控制我们的角色,引擎一般会提供一些基础的移动组件,上层用户做提供一些每帧 ...
[MAUI]用纯C#代码写两个漂亮的时钟
@ 目录时钟1 绘制锯齿表盘绘制指针绘制沿路径文本时钟2 绘制表盘绘制指针项目地址谷歌在2021年5月份推出的Android 12给我们带来了新的UI设计规范Material You,你 ...
Docker、CICD持续集成部署、Gitlab使用、Jenkins介绍
目录 1.Docker的基本操作 1.1镜像拉取 1.2镜像的操作 1.3容器的操作运行容器查看正在运行的容器查看容器运行日志进入到容器内部停止容器运行删除容器启动容器 2.Docker ...
ENVI大气校正方法反演Landsat 7地表温度
本文介绍基于ENVI软件,实现对Landsat 7遥感影像加以大气校正方法的地表温度反演操作. 目录 1 图像前期处理与本文理论部分 2 实际操作 2.1 植被覆盖度计算 2.2 地表比辐射率计算 2 ...
Composer 镜像原理 (3) —— 完结篇
相关文章 Composer 镜像原理 (1) -- 初识 Composer Composer 镜像原理 (2) -- composer.json Composer 镜像原理 (3) -- 完结篇上一 ...
Linux 日志服务管理
日志管理 1 系统日志管理 1 rsyslog系统日志服务日志记录的内容包括: 历史事件:时间,地点,人物,事件 Jul 18 14:30:53 # 时间 ubuntu2204 # 地点 (在哪个主 ...
jquery解决跨域问题
在Ajax请求的url不是本地或者同一个服务器下面的URI,最后虽然请求显示为200,但是不会返回任何数据,事实上简单来说请求同一个域名下的url或者说用不带http的绝对路径和相对路径请求是没有任何 ...

pandas处理大数据题目的操作

1、用法：DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)

2、参数说明：

labels：要删除的行/列的名字，用列表给出

axis：默认为0，即删除行，删除列时指定为1

index：直接指定要删除的行

columns：直接指定要删除的列

inplace：默认为False，即删除操作不改变元数据，而是返回一个执行删除操作后的新DataFrame，若为True，则会在元数据据上进行删除操作，删除后无法返回

3、删除行列的两种方式：

1）labels=None, axis=0/1的组合

2）index或columns直接指定要删除的行或列

1.滤除缺失数据dropna()

import pandas as pdimport numpy as npdf=pd.DataFrame({"record":[np.nan,"亚健康|潘光|45岁","疾病|张思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)滤除含有NaN值的所有行df.dropna()#默认axis=0

2)滤除含有NaN值的所有列df.dropna(axis=1)

3)滤除元素都是NaN值的行df.dropna(axis=0,how="all")

5)滤除指定列中含有缺失的行df.dropna(subset=["record"],axis=0)

以上如果需要在原数据上直接做更改，需设置参数inplace=True

2.删除重复值 drop_duplicates()df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

语法：drop_duplicates(subset,keep,inplace)，其中参数 keep:{‘first’，‘last’，False}，默认’first’

first：保留第一次出现的重复项，删除第二次及之后出现的重复项。

last：保留最后一次出现的重复项，删除之前出现的重复项。

"false"：删除所有重复项。

1)keep=“first”

df.drop_duplicates(keep="first")

2)keep=“last”

df.drop_duplicates(keep="last")

3)keep=False

df.drop_duplicates(keep=False)

4)删除指定列中重复项对应的行

df.drop_duplicates(subset=["state"],keep="first")

以上如果需要在原数据上直接做更改，需设置参数inplace=True

3.根据指定条件删除行列drop()

df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["one","two","three","four"])

1).删除指定列

df.drop(["one"],axis=1)

另外，也可通过del df["one"]来实现删除指定列，但该方法不推荐，因为这默认直接在源数据上做更改。

2).删除指定行

df.drop([0],axis=0)

以上如果需要在原数据上直接做更改，需设置参数inplace=True

————————————————版权声明：本文为CSDN博主「永远在减肥永远110的的小潘」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/p1306252/article/details/114890550

pandas处理大数据题目的操作的更多相关文章

随机推荐

热门专题

import pandas as pd
import numpy as np
df=pd.DataFrame({"record":[np.nan,"亚健康|潘光|45岁","疾病|张思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)滤除含有NaN值的所有行
df.dropna()#默认axis=0

2)滤除含有NaN值的所有列
df.dropna(axis=1)

3)滤除元素都是NaN值的行
df.dropna(axis=0,how="all")

5)滤除指定列中含有缺失的行
df.dropna(subset=["record"],axis=0)

2.删除重复值 drop_duplicates()
df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

————————————————
版权声明：本文为CSDN博主「永远在减肥永远110的的小潘」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/p1306252/article/details/114890550