drop_duplicates()函数

１dataframe删除某一列的重复元素，默认只留下第一次出现的

inplace参数设置为true时直接在原数据上修改,为False时,生成副本.

注意所有函数中inplace一旦设置为True,此时后面不能再跟任何函数,因为它整体已经是None.想要再跟函数只能再写一行.

且此时在前面也不能赋值,赋值也是None.因为设置为True时,整体是None,设置为False时,整体是一个引用,可以赋给其它变量.

a1 = pd.DataFrame({

                    'a': [1, 1, 3, 2,],

                    'b': [1, 1, 6, 4,],

                    'c': [1, 1, 3, 9,]

                  })

print(a1)

a1.drop_duplicates(inplace=True)

print(a1)

# 这里inplace为假，整体实际上是一个引用，所以可以直接输出.

print(a1.drop_duplicates(['a','b'], keep='first',inplace=False))

# 注意这里因为inplace为真，直接在原数据上修改，直接输出是空，因为它并不是一个引用，a1才是引用.

print(a1.drop_duplicates(['a','b'], keep='first',inplace=True))

#    a  b  c

# 0  1  1  1

# 1  1  1  1

# 2  3  6  3

# 3  2  4  9

#    a  b  c

# 0  1  1  1

# 2  3  6  3

# 3  2  4  9

#    a  b  c

# 0  1  1  1

# 2  3  6  3

# 3  2  4  9

# None

https://blog.csdn.net/qq_28811329/article/details/79962511

test_sample_quchong = test_sample.drop_duplicates(['ggid'])利用 data.drop_duplicates()#data中一行元素全部相同时才去除可检查dataframe是否有重复的行
参考： https://www.cnblogs.com/mahailuo/p/8317178.html

2 想要留下去掉的重复行，可以先删除重复行后，保存索引，再删除索引.

import pandas as pd

import numpy as np

import re

df = pd.DataFrame({'a': [1,1,3,4,3],

                   'b': [1,1,3,4,3],

                   'c': [1,1,3,4,3]})

print('原始数据：\n',df)

print('去掉重复行后：\n', df.drop_duplicates())

drop_index = df.drop_duplicates().index.tolist()

print('去掉的重复行是：\n',df.drop(drop_index))

# 原始数据：

#     a  b  c

# 0  1  1  1

# 1  1  1  1

# 2  3  3  3

# 3  4  4  4

# 4  3  3  3

# 去掉重复行后：

#     a  b  c

# 0  1  1  1

# 2  3  3  3

# 3  4  4  4

# 去掉的重复行是：

#     a  b  c

# 1  1  1  1

# 4  3  3  3

drop_duplicates()函数的更多相关文章

Lesson11——Pandas去重函数：drop_duplicates()
pandas目录 "去重"通过字面意思不难理解,就是删除重复的数据.在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程.删除重复数 ...
python中数据分析常用函数整理
一. apply函数作用:对 DataFrame 的某行/列应用函数之后,Apply 返回一些值.函数既可以使用默认的,也可以自定义.注意:在第二个输出中应用 head() 函数,因为它包含了很多行 ...
pandas drop_duplicates
函数 : DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数:这个drop_duplicate方法是对Data ...
从Excel到Python：最常用的36个Pandas函数
本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入.数据清洗.预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作. 生成数据表常见的生成数据表的方法有两 ...
关于Excel，你一定用的到的36个Python函数
从Excel到Python:最常用的36个Pandas函数关于Excel,你一定用的到的36个Python函数本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入.数据清洗 ...
pandas包 —— drop()、sort_values()、drop_duplicates()
一.drop() 函数当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据. 1.命令: df.drop() 删除行:df.d ...
pandas函数高级
一.处理丢失数据有两种丢失数据: None np.nan(NaN) 1. None None是Python自带的,其类型为python object.因此,None不能参与到任何计算中. #查看No ...
【转载】使用pandas进行数据清洗
使用pandas进行数据清洗本文转载自:蓝鲸的网站分析笔记原文链接:使用python进行数据清洗目录: 数据表中的重复值 duplicated() drop_duplicated() 数据表中的 ...
第三节 pandas续集
import pandas as pd from pandas import Series from pandas import DataFrame import numpy as np 一创建多层 ...

随机推荐

C语言中整形数组、字符数组、字符串的区别
一. 第一整型数组的存放,数组最后是不加'\0'的,字符串会自动加上,因此存放字符的时候数组的大小要比实际字符的多一个第二整型数组每一个单元是4个字节的,字符串是一个一个字符存放的,每个字符占 ...
小程序-调用公共js对象方法/ app.js
在小程序中,如果在子页面想调用共公js的方法,需先在子页面js中先实例化app:具体过程如下子页面js: 1 2 3 4 5 6 7 8 //调用公共js对象以便调用其方法 var app = ge ...
要了解mysql原理，还是要心里有点B树才行
要了解数据库索引的底层原理,我们就得先了解一种叫树的数据结构,而树中很经典的一种数据结构就是二叉树!所以下面我们就从二叉树到平衡二叉树,再到B-树,最后到B+树来一步一步了解数据库索引底层的原理! ...
JavaScript回顾
JavaScript是Web编程语言. JavaScript是一种基于对象的脚本语言它是解释执行的在客户端的浏览器中运行可以被嵌入HTML文件中代码以纯文本的形式存储在文件中可以使用任何一种 ...
vue（js）点击目标div以外区域将目标div隐藏
今天开发新项目的时候,有个需求,点击一个div 展示出个弹出窗弹出窗标题的颜色要跟点击的div图标颜色一致, 所以这就需要我遍历一下多个数据, 然后需要点击弹出div的外部其他区域,隐藏这个div. ...
STM32 常用词汇释义
1.AF——Alternate function 复用功能: 2.NVIC——Nested Vectored Interrupt Controller 内嵌向量中断控制器 3.ISER[8]— ...
软件包管理（rpm、yum、dpkg）
一. 大多数Linux应用软件包的命名也有一定的规律,它遵循:名称-版本-修正版-类型,通常Linux应用软件的安装包有三种: 1) tar包,如software-1.2.3-1.tar.gz.以源码 ...
vue2.0 之 slot 内容分发
前提:父组件模板的内容在父组件作用域内编译:子组件模板的内容在子组件作用域内编译.被分发的内容会在父作用域内编译. 一.单个插槽 // 子组件模板 child-component <div> ...
什么是UAT
基本概念 UAT,英文User Acceptance Test的简写,也就是用户验收测试,或用户可接受测试,系统开发生命周期方法论的一个阶段,这时相关的用户或独立测试人员根据测试计划和结果对系统进行测 ...
MySQL--缓存的使用注意
几个参数 query_cache_type:为ON时开启,为OFF关闭,为DEMAND时则只有查询语句中有sql cache时才使用缓存 query_cache_size: 缓存的内存空间 query ...

drop_duplicates()函数

drop_duplicates()函数的更多相关文章

随机推荐

热门专题