pandas包 —— drop()、sort_values()、drop_duplicates()
一、drop() 函数
当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。
1.命令: df.drop()
删除行:df.drop('apps') #drop函数的参数默认 axis=0
删除列:df.dorp('col', axis=1) #删除列要加axis=1,默认是删除行的
2.
temp = deviceid_packages.drop('apps', axis=1)
temp1 = deviceid_packages.drop(['apps'], axis=1)
二、sort_values()函数
pandas中的sort_values()函数原理类似于SQL中的order by,可以将数据集依照某个字段中的数据进行排序,该函数即可根据指定列数据也可根据指定行的数据排序。
1.sort_values()函数的具体参数
Usage:
DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)
2.参数说明:
参数 | 说明 |
---|---|
by | 指定列名(axis=0或’index’)或索引值(axis=1或’columns’) |
axis | 若axis=0或’index’,则按照指定列中数据大小排序;若axis=1或’columns’,则按照指定索引中数据大小排序,默认axis=0 |
ascending | 是否按指定列的数组升序排列,默认为True,即升序排列 |
inplace | 是否用排序后的数据集替换原来的数据,默认为False,即不替换 |
na_position | {‘first’,‘last’},设定缺失值的显示位置 |
#注意sort_values()函数与drop()函数的参数axis表示的相反
三、drop_duplicates()函数
参考:https://www.cnblogs.com/xxswkl/p/10989306.html
dataframe删除某一列的重复元素,默认只留下第一次出现的
inplace参数设置为true时直接在原数据上修改,为False时,生成副本.
#注意:所有函数中inplace一旦设置为True,它整体已经就是None.想要再跟函数只能再写一行.
且此时在前面也不能赋值,赋值也是None.因为设置为True时,整体是None,设置为False时,整体是一个引用,可以赋给其它变量.
1.
a1 = pd.DataFrame({
'a': [1, 1, 3, 2,],
'b': [1, 1, 6, 4,],
'c': [1, 1, 3, 9,]
})
print(a1)
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 6 3
# 3 2 4 9 a1.drop_duplicates(inplace=True)
print(a1)
# a b c
# 0 1 1 1
# 2 3 6 3
# 3 2 4 9 # 这里inplace为假,整体实际上是一个引用,所以可以直接输出.
print(a1.drop_duplicates(['a','b'], keep='first',inplace=False)) #删除a,b两列重复的行,并且保留首次出现的哪一行
# a b c
# 0 1 1 1
# 2 3 6 3
# 3 2 4 9 # 注意这里因为inplace为真,直接在原数据上修改,直接输出是空,因为它并不是一个引用,a1才是引用.
print(a1.drop_duplicates(['a','b'], keep='first',inplace=True))
# None
2.
想要留下去掉的重复行,可以先删除重复行后,保存索引,再删除索引.
import pandas as pd
import numpy as np
import re df = pd.DataFrame({'a': [1,1,3,4,3],
'b': [1,1,3,4,3],
'c': [1,1,3,4,3]})
print('原始数据:\n',df)
# 原始数据:
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 3 3
# 3 4 4 4
# 4 3 3 3 print('去掉重复行后:\n', df.drop_duplicates())
# 去掉重复行后:
# a b c
# 0 1 1 1
# 2 3 3 3
# 3 4 4 4 drop_index = df.drop_duplicates().index.tolist()
print('去掉的重复行是:\n',df.drop(drop_index))
# 去掉的重复行是:
# a b c
# 1 1 1 1
# 4 3 3 3 #参数inplace=默认为假,数据框df还是原来的没有改变
print(df)
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 3 3
# 3 4 4 4
# 4 3 3 3
pandas包 —— drop()、sort_values()、drop_duplicates()的更多相关文章
- pandas Series的sort_values()方法
pandas Series的 sort_values() 方法能对Series进行排序,返回一个新的Series: s = pd.Series([np.nan, 1, 3, 10, 5]) 升序排列: ...
- 沉淀,再出发:python中的pandas包
沉淀,再出发:python中的pandas包 一.前言 python中有很多的包,正是因为这些包工具才使得python能够如此强大,无论是在数据处理还是在web开发,python都发挥着重要的作用,下 ...
- python读取数据文件:pandas包详解
本文转载自https://blog.csdn.net/brucewong0516/article/details/79092579 pandas包是一个高效的文件读取工具,适用于txt,excel,等 ...
- Python之路-pandas包的详解与使用
什么是pandas pandas是一种Python数据分析的利器,是一个开源的数据分析包,最初是应用于金融数据分析工具而开发出来的,因此pandas为时间序列分析提供了很好的支持.pandas是PyD ...
- pandas包学习笔记
目录 zip Importing & exporting data Plotting with pandas Visual exploratory data analysis 折线图 散点图 ...
- Lesson11——Pandas去重函数:drop_duplicates()
pandas目录 "去重"通过字面意思不难理解,就是删除重复的数据.在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程.删除重复数 ...
- pandas的drop函数
当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据. 1.命令: df.drop() 删除行:df.drop('apps') ...
- pandas 排序之 sort_values,reindex,reset_index, sort_index
如果想按照自己的方式排序ind = 行索引data= data[ind] ind = data.sum(axis=1).sort_values(ascending=False).index data ...
- Python使用xlrd、pandas包从Excel读取数据
#coding=utf-8 # pip install xlrd import xlrd def read_from_xls(filepath,index_col_list): #filepath:读 ...
随机推荐
- 操作系统OS - 重装Windows7卡在completing installation
1. shift + f10 2. cd oobe 3. Msoobe
- UITextField的快速基本使用代码块
概述 UITextField在界面中显示可编辑文本区域的对象. 您可以使用文本字段来使用屏幕键盘从用户收集基于文本的输入.键盘可以配置许多不同类型的输入,如纯文本,电子邮件,数字等等.文本字段使用目标 ...
- Python数据类型-6 字典
字典 Python的字典数据类型是基于hash散列算法实现的,采用键值对(key:value)的形式,根据key的值计算value的地址,具有非常快的查取和插入速度.但它是无序的,包含的元素个数不限, ...
- android 简单列表对话框(AlertDialog.Builder().setItems())
? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 ...
- 关于eclipse项目右键没有project facets的解决方法遇到的问题
[ 关于eclipse项目右键没有project facets的解决方法] [创建maven项目生成WebRoot目录,web.xml文件,以及修改编译路径classess的解决办法,以及解决找不到或 ...
- 谷歌下,因为给外层大容器设置 overflow:visible; 而导致问题,IE、火狐正常
#selector { height: auto !important; width: 1024px!important; margin: auto; overflow:visible !import ...
- Python 之并发编程之进程中(守护进程(daemon)、锁(Lock)、Semaphore(信号量))
五:守护进程 正常情况下,主进程默认等待子进程调用结束之后再结束守护进程在主进程所有代码执行完毕之后,自动终止kill -9 进程号 杀死进程.守护进程的语法:进程对象.daemon = True设置 ...
- redis 初识与安装
一.redis介绍 redis是一个key-value存储系统.和Memcached类似,它支持存储的values类型相对更多,包括字符串.列表.哈希散列表.集合,有序集合. 这些数据类型都支持pus ...
- CSS - icon图标(icon font)
1. 概念 这个小红点是图标,图标在CSS中实际上是字体. 2. 为什么出现本质是字体的图标? 2.1 图片增加了总文件的大小. 2.2 图片增加了额外的http请求,大大降低网页的性能. 2.3 图 ...
- 为什么阿里Java规约要求谨慎使用SimpleDateFormat
前言 在阿里Java开发规约中,有强制性的提到SimpleDateFormat 是线程不安全的类 ,在使用的时候应当注意线程安全问题,如下: 其实之前已经介绍过使用JDK1.8的DateTimeFor ...