pandas dataframe重复数据查看.判断.去重

本文详解如何使用pandas查看dataframe的重复数据，判断是否重复，以及如何去重

dataframe数据样本：

import pandas as pd

df = pd.DataFrame({'name':['苹果','梨','草莓','苹果'], 'price':[7,8,9,8], 'cnt':[3,4,5,4]})

   name	cnt	price

0	苹果	 3	7

1	 梨	 4	 8

2	草莓	 5	9

3	苹果	 6	8

>> 查看dataframe的重复数据

a = df.groupby('price').count()>1

price = a[a['cnt'] == True].index

repeat_df = df[df['price'].isin(price)]

>>duplicated()方法判断

1. 判断dataframe数据某列是否重复

flag = df.price.duplicated()

0    False

1    False

2    False

3     True

Name: price, dtype: bool

flag.any()结果为True  (any等于对flag or判断)

flag.all()结果为False  (all等于对flag and判断)

2. 判断dataframe数据整行是否重复

flag = df.duplicated()

判断方法同1

3. 判断dataframe数据多列数据是否重复(多列组合查)

df.duplicated(subset = ['price','cnt'])

判断方法同1

>> drop_duplicats()方法去重

1. 对dataframe数据数据去重

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

示例：

df.drop_duplicats(subset = ['price','cnt'],keep='last',inplace=True)

drop_duplicats参数说明：

  参数subset

    subset用来指定特定的列，默认所有列

  参数keep

    keep可以为first和last，表示是选择最前一项还是最后一项保留，默认first

  参数inplace

    inplace是直接在原来数据上修改还是保留一个副本，默认为False

pandas dataframe重复数据查看.判断.去重的更多相关文章

用PyQt5来即时显示pandas Dataframe的数据，附qdarkstyle黑夜主题样式（美美哒的黑夜主题）
import sys from qdarkstyle import load_stylesheet_pyqt5 from PyQt5.QtWidgets import QApplication, QT ...
pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
从mysql8.0读取数据并形成pandas dataframe类型数据，精确定位行列式中的元素，并读取
from pandas import * import pandas as pd from sqlalchemy import create_engine engine = create_engine ...
Distinct删除重复数据时自定义的方法比较【转】
最近项目中在用Linq Distinct想要将重复的资料去除时,发现它跟Any之类的方法有点不太一样,不能很直觉的在呼叫时直接带入重复数据判断的处理逻辑,所以当我们要用某个成员属性做重复数据的判断时, ...
Linq使用Distinct删除重复数据时如何指定所要依据的成员属性zz
最近项目中在用Linq Distinct想要将重复的资料去除时,发现它跟Any之类的方法有点不太一样,不能很直觉的在呼叫时直接带入重复数据判断的处理逻辑,所以当我们要用某个成员属性做重复数据的判断时, ...
pandas使用drop_duplicates去除DataFrame重复项
DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下: data.drop_duplicates(subset=['A','B'],keep='first',inp ...
pandas dataframe取差集：删掉已存在的数据，保留未插入的数据
适用场景: 插入数据到mysql中,中途中断,导致部分数据未插入成功.避免下次插入时插入了重复的数据. 思路: 1.读取已插入的数据, 2.读取全部数据(包含已插入和未插入的), 3.将已插入的数据添 ...
Python3 Pandas的DataFrame格式数据写入excle文件、json、html、剪贴板、数据库
Python3 Pandas的DataFrame格式数据写入excle文件.json.html.剪贴板.数据库一.DataFrame格式数据 Pandas是Python下一个开源数据分析的库,它提供 ...
Pandas DataFrame数据的增、删、改、查
Pandas DataFrame数据的增.删.改.查 https://blog.csdn.net/zhangchuang601/article/details/79583551 #删除列 df_2 = ...

随机推荐

NVDLA中Winograd卷积的设计
在AI芯片:高性能卷积计算中的数据复用曾提到,基于变换域的卷积计算--譬如Winograd卷积--并不能适应算法上对卷积计算多变的需求.但Winograd卷积依旧出现在刚刚公开的ARM Ethos-N ...
像使用SQL一样对List对象集合进行排序
在开始之前,我先卖个关子提一个问题:假设我们有一个Movie类,这个类有三个成员变量分别是starred(是否收藏), title(电影名称), rating(评分).你知道怎么对一个Movie对象组 ...
Dubbo学习系列之十六（ELK海量日志分析框架）
外卖公司如何匹配骑手和订单?淘宝如何进行商品推荐?或者读者兴趣匹配?还有海量数据存储搜索.实时日志分析.应用程序监控等场景,Elasticsearch或许可以提供一些思路,作为业界最具影响力的海量搜索 ...
linux sudo root 权限绕过漏洞(CVE-2019-14287)
0x01 逛圈子社区论坛看到了 linux sudo root 权限绕过漏洞(CVE-2019-14287) 跟着复现下综合来说这个漏洞作用不大需要以下几个前提条件 1.知道当前普通用户的密 ...
linux 查看磁盘信息
一.查看磁盘和分区 ACCB947E:Home zhangsan$ df -h Filesystem Size Used Avail Capacity iused ifree %iused Mount ...
NOIP模拟 40
考得更嘛也不是了. 不过如果不犯任何低错的话.. T1 我神奇地想要缩减码量比如想把尽量多的$b[i]-1$省掉于是求$b[i]$的时候先减了个一本来是正的减完就忘了他应该是非负的了于是线段 ...
bzoj1004 card
明知是burnside然而根本不会然后无耻地颓了题解后一脸傻气的我: 直接套公式???为啥方案数==等价类数量啊??? skyh:显然啊(狂笑)(hey wxy!他问为啥方案书等于等价类数量!) wx ...
python接口测试-数据驱动-DDT
DDT是python的第三方库,全名称为:Data-Driven/Decorated Tests. ddt安装通过pip安装ddt模块,安装Python后,Python自带pip功能包切换到Pyt ...
Anaconda的安装和详细介绍（带图文）
Anacond的介绍 Anaconda指的是一个开源的Python发行版本,其包含了conda.Python等180多个科学包及其依赖项. 因为包含了大量的科学包,Anaconda 的下载文件比较大( ...
Python语言基础04-函数和模块的使用
本文收录在Python从入门到精通系列文章系列在分享本章节的内容之前,先来研究一道数学题,请说出下面的方程有多少组正整数解. 事实上,上面的问题等同于将8个苹果分成四组每组至少一个苹果有多少种方案. ...

pandas dataframe重复数据查看.判断.去重

>> 查看dataframe的重复数据

>>duplicated()方法判断

>> drop_duplicats()方法去重

pandas dataframe重复数据查看.判断.去重的更多相关文章

随机推荐

热门专题