groupby+agg

中国科学技术大学丶超 2024-11-06 11:37:25 原文

一.在处理pandas表格数据时，有时会遇到这样的问题：按照某一列聚合后，判断另一列是否出现唯一值，比如安泰杯--跨境电商比赛中，某个商人的ID如果出现在两个国家（xx和yy），则要剔除这样的数据，这就需要我们按照商人ID进行groupby,然后判断每个商人所属的国家是否值唯一，不唯一则剔除。

def unique_num(x):

　　return len(np.unique(x)) #自定义函数

train.groupby(['buyer_admin_id']).agg({'buyer_country_id':unique_num})

二.下面对groupby和agg使用方法进行总结：

1. 分组后，返回一个含有分组大小的Series

按key1分组: df.groupby(['key1']).size()

按[key1,key2]分组: df.groupby(['key1','key2']).size()

2. 对data1按key1进行分组，并计算data1列的平均值

df['data1'].groupby(df['key1']).mean()

说明：groupby没有进行任何的计算。它只是进行了一个分组。数据（Series）根据分组键进行了聚合，产生了一个新的Series，其索引为key1列中的唯一值。

3.对data1按[key1,key2]进行分组，并计算data1的平均值

df.groupby(['key1','key2'])['data1'].mean()

4.agg函数使用：

1）df.groupby(['key1'])['data1'].min() ==

df.groupby(['key1'])['data1'].agg({'min'}) ==

(推荐使用)df.groupby(['key1']).agg({'data1':'min'})#对data1列，取各组的最小值，名字还是data1

2）按key1分组后，aggregate各组data1的最小值和最大值：

df.groupby(['key1'])['data1'].agg({'min','max'}) ==(推荐使用)df.groupby(['key1']).agg({'data1':['min','max']})

3）可以对groupby的结果更正列名（不推荐用这个，哪怕在后面单独更改列名）：

df.groupby(['key1'])['data1'].agg({'a':'min','b':'max'})#这里的'min' 'max'为两个函数名

groupby+agg的更多相关文章

Spark Strcutured Streaming中使用Dataset的groupBy agg 与 join 示例(java api)
Dataset的groupBy agg示例 Dataset<Row> resultDs = dsParsed .groupBy("enodeb_id", "e ...
python处理数据的风骚操作[pandas 之 groupby&agg]
https://segmentfault.com/a/1190000012394176 介绍每隔一段时间我都会去学习.回顾一下python中的新函数.新操作.这对于你后面的工作是有一定好处的.本文重 ...
spark sql的agg函数,作用：在整体DataFrame不分组聚合
.agg(expers:column*) 返回dataframe类型 ,同数学计算求值 df.agg(max("age"), avg("salary")) df ...
机器学习入门-贝叶斯统计语料库的词频.groupby() collections
1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据co ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
《Spark Python API 官方文档中文版》之 pyspark.sql (二)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
【spark】dataframe常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集 ...
Pyspark 使用 Spark Udf 的一些经验
起初开始写一些 udf 的时候感觉有一些奇怪,在 spark 的计算中,一般通过转换(Transformation) 在不触发计算(Action) 的情况下就行一些预处理.udf 就是这样一个好用的东 ...
python 数据分类汇总
STEP1: #读取数据: import pandas as pdinputfile_1 = "F:\\大论文实验\\数据处理\\贫困人口数据_2015.xlsx" data1 = ...

随机推荐

ndk学习之C语言基础复习----指针、函数、预处理器
指针: 指针乃C.C++的灵魂之所在,所以有必要好好的复习复习.什么是指针?一句话来概括:“指针是一个变量,它的值是一个地址.”,其中指针变量的声明有如下三种形式: 其中第一种是被推荐的写法. 其中还 ...
python logger日志配置
self.logger = logging.getLogger(logName) # 创建logger实例 time = datetime.datetime.now() logFilePath = o ...
java8之Metaspace
HotSpot JVM是java中最常用的java虚拟机.在java8 HotSpot JVM 中,虚拟机的内存模型做了修改调整.以前HotSpot JVM的内存模型分为新生代,老年代,永久 ...
控制warning信息在控制台的显示
在运行代码时,有时出现warning信息, 1.当你后台不需要warning信息的时候,可以直接把warning信息省略掉. 2.如果代码是循环,则会在控制台打印多次warning信息,这会使得war ...
python MySQL安装依赖报错的坑
0X01 问题 MySQL-python是python调用MySQL的常用库通常安装时会遇到某些坑. EnvironmentError: mysql_config not found yum -y ...
BZOJ 5495: [2019省队联测]异或粽子 (trie树)
这题果然是原题[BZOJ 3689 异或之].看了BZOJ原题题解,发现自己sb了,直接每个位置维护一个值保存找到了以这个位置为右端点的第几大,初始全部都是1,把每个位置作为右端点能够异或出来的最大值 ...
14、Spring Boot 2.x 集成 Druid 数据源
14.Spring Boot 2.x 集成 Druid 数据源完整源码: Spring-Boot-Demos
js.map文件意义（转）
什么是source map文件 source map文件是js文件压缩后,文件的变量名替换对应.变量所在位置等元信息数据文件,一般这种文件和min.js主文件放在同一个目录下. 比如压缩后原变量是ma ...
Treasure Exploration POJ - 2594 【有向图路径可相交的最小路径覆盖】模板题
Have you ever read any book about treasure exploration? Have you ever see any film about treasure ex ...
springboot项目没错,但就是报红叉
1.报错原因: Description Resource Path Location TypeCannot change version of project facet Dynamic Web Mo ...