一、drop() 函数

当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。

1.命令:  df.drop()

  删除行:df.drop('apps')    #drop函数的参数默认 axis=0

  删除列:df.dorp('col', axis=1)  #删除列要加axis=1,默认是删除行的

2.

temp = deviceid_packages.drop('apps', axis=1)
temp1 = deviceid_packages.drop(['apps'], axis=1)

  

二、sort_values()函数

pandas中的sort_values()函数原理类似于SQL中的order by,可以将数据集依照某个字段中的数据进行排序,该函数即可根据指定列数据也可根据指定行的数据排序。

1.sort_values()函数的具体参数

Usage:

DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)

2.参数说明:

参数 说明
by 指定列名(axis=0或’index’)或索引值(axis=1或’columns’)
axis 若axis=0或’index’,则按照指定列中数据大小排序;若axis=1或’columns’,则按照指定索引中数据大小排序,默认axis=0
ascending 是否按指定列的数组升序排列,默认为True,即升序排列
inplace 是否用排序后的数据集替换原来的数据,默认为False,即不替换
na_position {‘first’,‘last’},设定缺失值的显示位置

#注意sort_values()函数与drop()函数的参数axis表示的相反

三、drop_duplicates()函数

参考:https://www.cnblogs.com/xxswkl/p/10989306.html

dataframe删除某一列的重复元素,默认只留下第一次出现的

inplace参数设置为true时直接在原数据上修改,为False时,生成副本.

#注意:所有函数中inplace一旦设置为True,它整体已经就是None.想要再跟函数只能再写一行.

且此时在前面也不能赋值,赋值也是None.因为设置为True时,整体是None,设置为False时,整体是一个引用,可以赋给其它变量.

1.

a1 = pd.DataFrame({
'a': [1, 1, 3, 2,],
'b': [1, 1, 6, 4,],
'c': [1, 1, 3, 9,]
})
print(a1)
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 6 3
# 3 2 4 9 a1.drop_duplicates(inplace=True)
print(a1)
# a b c
# 0 1 1 1
# 2 3 6 3
# 3 2 4 9 # 这里inplace为假,整体实际上是一个引用,所以可以直接输出.
print(a1.drop_duplicates(['a','b'], keep='first',inplace=False)) #删除a,b两列重复的行,并且保留首次出现的哪一行
# a b c
# 0 1 1 1
# 2 3 6 3
# 3 2 4 9 # 注意这里因为inplace为真,直接在原数据上修改,直接输出是空,因为它并不是一个引用,a1才是引用.
print(a1.drop_duplicates(['a','b'], keep='first',inplace=True))
# None 

2.

想要留下去掉的重复行,可以先删除重复行后,保存索引,再删除索引.

import pandas as pd
import numpy as np
import re df = pd.DataFrame({'a': [1,1,3,4,3],
'b': [1,1,3,4,3],
'c': [1,1,3,4,3]})
print('原始数据:\n',df)
# 原始数据:
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 3 3
# 3 4 4 4
# 4 3 3 3 print('去掉重复行后:\n', df.drop_duplicates())
# 去掉重复行后:
# a b c
# 0 1 1 1
# 2 3 3 3
# 3 4 4 4 drop_index = df.drop_duplicates().index.tolist()
print('去掉的重复行是:\n',df.drop(drop_index))
# 去掉的重复行是:
# a b c
# 1 1 1 1
# 4 3 3 3 #参数inplace=默认为假,数据框df还是原来的没有改变
print(df)
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 3 3
# 3 4 4 4
# 4 3 3 3

  

pandas包 —— drop()、sort_values()、drop_duplicates()的更多相关文章

  1. pandas Series的sort_values()方法

    pandas Series的 sort_values() 方法能对Series进行排序,返回一个新的Series: s = pd.Series([np.nan, 1, 3, 10, 5]) 升序排列: ...

  2. 沉淀,再出发:python中的pandas包

    沉淀,再出发:python中的pandas包 一.前言 python中有很多的包,正是因为这些包工具才使得python能够如此强大,无论是在数据处理还是在web开发,python都发挥着重要的作用,下 ...

  3. python读取数据文件:pandas包详解

    本文转载自https://blog.csdn.net/brucewong0516/article/details/79092579 pandas包是一个高效的文件读取工具,适用于txt,excel,等 ...

  4. Python之路-pandas包的详解与使用

    什么是pandas pandas是一种Python数据分析的利器,是一个开源的数据分析包,最初是应用于金融数据分析工具而开发出来的,因此pandas为时间序列分析提供了很好的支持.pandas是PyD ...

  5. pandas包学习笔记

    目录 zip Importing & exporting data Plotting with pandas Visual exploratory data analysis 折线图 散点图 ...

  6. Lesson11——Pandas去重函数:drop_duplicates()

    pandas目录 "去重"通过字面意思不难理解,就是删除重复的数据.在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程.删除重复数 ...

  7. pandas的drop函数

    当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据. 1.命令: df.drop() 删除行:df.drop('apps') ...

  8. pandas 排序之 sort_values,reindex,reset_index, sort_index

    如果想按照自己的方式排序ind = 行索引data= data[ind] ind = data.sum(axis=1).sort_values(ascending=False).index data ...

  9. Python使用xlrd、pandas包从Excel读取数据

    #coding=utf-8 # pip install xlrd import xlrd def read_from_xls(filepath,index_col_list): #filepath:读 ...

随机推荐

  1. tf.reduce_max 与 reduce 系列 API

    reduce 可以理解为 python 里的 reduce 函数: tensorflow 中有很多 reduce_ API,其用法完全相同 tf.reduce_max 以这个为例进行说明 def re ...

  2. SQL SERVER 语法汇总

    一.基础 1.说明:创建数据库CREATE DATABASE database-name 2.说明:删除数据库drop database dbname3.说明:备份sql server--- 创建 备 ...

  3. day1-4js算术运算符及类型转化

    一,JS的运行环境 在html中使用JS,浏览器去解析 NodeJS环境内封装了JS的解析器 二,JavaScript的特点 1.客户端执行 2.执行顺序自上而下 3.弱类型(数据类型)语言 var ...

  4. 【PAT甲级】1031 Hello World for U (20 分)

    题意: 输入一个字符串长度为5~80,以'U'型输出,使得底端一行字符数量不小于侧面一列,左右两列长度相等. trick: 不把输出的数组全部赋值为空格为全部答案错误,可能不赋值数组里值为0,赋值后是 ...

  5. 用Navicat连接阿里云ECS服务器上的MySQL数据库,连接不上,并且报10060错误

    设置远程访问(使用root密码): grant all privileges on . to 'root' @'%' identified by '123456'; flush privileges; ...

  6. vue-mixin

    当多个组件需要处理同一个问题,并且处理该问题的逻辑又相似,非常推荐用mixin

  7. Using webpack-dev-server

    官方讲解地址:https://webpack.js.org/guides/development/#using-webpack-dev-server The webpack-dev-server pr ...

  8. Django 学习 之ORM多表操作

    一.创建模型 1.模型关系整理 创建一对一的关系:OneToOne("要绑定关系的表名") 创建一对多的关系:ForeignKey("要绑定关系的表名") 创建 ...

  9. Ubuntu操作基本快捷键

    * 打开主菜单 = Alt + F1* 运行 = Alt + F2* 显示桌面 = Ctrl + Alt + d* 最小化当前窗口 = Alt + F9* 最大化当前窗口 = Alt + F10* 关 ...

  10. JPG加入RAR文件原理详解

    在水木看到有人上传了一张图片,说如果将其后缀改为rar,解压后会有别的文件,试了一下,果然如此.用十六进制的编辑器看了看,发现的确有理. 先是,文件头部是以JPG格式起始的,如下: ......JFI ...