在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好. select custId,applyNo from tmp.online_service_startloan group by custId,applyNo 1.DataFrame去重 但是对于pandas的DataFrame格式就比较麻烦,我看了其他博客优化了如下三种方案. 我们先引入数据集: import pandas as pd data=pd.read_…
数据转换 移除重复数据 import pandas as pd import numpy as np from pandas import Series data = pd.DataFrame( {'k1':['one']*3+['two']*4, 'k2':[1,1,2,3,3,4,4]}) data k1 k2 0 one 1 1 one 1 2 one 2 3 two 3 4 two 3 5 two 4 6 two 4 duplicated方法返回一个布尔型Series,表示各行是否是重复…
待补充:https://www.cnblogs.com/zknublx/p/6042295.html 一.使用集合直接去重 ids = [1,4,3,3,4,2,3,4,5,6,1]ids = list(set(ids)) 处理起来比较简单,使用了集合方法set进行处理,不过结果不会保留之前的顺序. 二.列表法 ids = [1,2,3,3,4,2,3,4,5,6,1]news_ids = []for id in ids: if id not in news_ids: new…
>>>data_a={'state':[1,1,2],'pop':['a','b','c']}>>>data_b={'state':[1,2,3],'pop':['b','c','d']}>>>a=pd.DataFrame(data_a)>>>a pop state0 a 11 b 12 c 2>>>b=pd.DataFrame(data_b) >>>b pop state0 b 11 c 22 d…