待补充:https://www.cnblogs.com/zknublx/p/6042295.html 一.使用集合直接去重 ids = [1,4,3,3,4,2,3,4,5,6,1]ids = list(set(ids)) 处理起来比较简单,使用了集合方法set进行处理,不过结果不会保留之前的顺序. 二.列表法 ids = [1,2,3,3,4,2,3,4,5,6,1]news_ids = []for id in ids: if id not in news_ids: new
在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好. select custId,applyNo from tmp.online_service_startloan group by custId,applyNo 1.DataFrame去重 但是对于pandas的DataFrame格式就比较麻烦,我看了其他博客优化了如下三种方案. 我们先引入数据集: import pandas as pd data=pd.read_
数据转换 移除重复数据 import pandas as pd import numpy as np from pandas import Series data = pd.DataFrame( {'k1':['one']*3+['two']*4, 'k2':[1,1,2,3,3,4,4]}) data k1 k2 0 one 1 1 one 1 2 one 2 3 two 3 4 two 3 5 two 4 6 two 4 duplicated方法返回一个布尔型Series,表示各行是否是重复