pandas pivot_table或者groupby实现sql 中的count distinct 功能

import pandas as pd

import numpy as np

data = pd.read_csv('活跃买家分析初稿.csv')

data.head()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	recycler_key	date 周	date 年	date 月	记录数
0	1694	周 1	2018	一月	6
1	1693	周 1	2018	一月	14
2	1686	周 1	2018	一月	20
3	1677	周 1	2018	一月	62
4	1676	周 1	2018	一月	25

我们发现表格的表头有空格，且看起来不舒服，尝试使用上篇文章的改名功能，将表头修改为合理的格式

data.columns=['merchant','week','year','month','records']

data.head()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	merchant	week	year	month	records
0	1694	周 1	2018	一月	6
1	1693	周 1	2018	一月	14
2	1686	周 1	2018	一月	20
3	1677	周 1	2018	一月	62
4	1676	周 1	2018	一月	25

我们的目标就是统计每个自然月内对应每个客户提交的周次数
同样的原理，我们也可以统计自然月内客户数

方法一: 多重groupby，较为麻烦

首先利用groupby求出每个月中商家提交订单数

data1 =data.groupby(['month','merchant']).size()

data1.head()

month  merchant

一月     1           2

       240         1

       241         1

       256         9

       277         2

dtype: int64

重建索引

data1.reset_index().head()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	month	merchant	0
0	一月	1	2
1	一月	240	1
2	一月	241	1
3	一月	256	9
4	一月	277	2

将重建索引的生成的dataFrame再次groupby

data1.reset_index().groupby('month')['merchant'].size().reindex(['一月','二月','三月','四月','五月','六月','七月','八月','九月','十月','十一月','十二月']).reset_index()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	month	merchant
0	一月	615
1	二月	622
2	三月	359
3	四月	175
4	五月	209
5	六月	258
6	七月	320
7	八月	366
8	九月	417
9	十月	428
10	十一月	522
11	十二月	617

方法2 pivot_table使用aggfunc 实现nunique方法

data2=data.pivot_table(index='month',values='merchant',aggfunc=lambda x:len(x.unique()))

data2.reindex(['一月','二月','三月','四月','五月','六月','七月','八月','九月','十月','十一月','十二月']).reset_index()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	month	merchant
0	一月	615
1	二月	622
2	三月	359
3	四月	175
4	五月	209
5	六月	258
6	七月	320
7	八月	366
8	九月	417
9	十月	428
10	十一月	522
11	十二月	617

方法3，直接采用Series的nunique方法

data3 = data.pivot_table(index='month',values='merchant',aggfunc=pd.Series.nunique)

data3.reindex(['一月','二月','三月','四月','五月','六月','七月','八月','九月','十月','十一月','十二月']).reset_index()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	month	merchant
0	一月	615
1	二月	622
2	三月	359
3	四月	175
4	五月	209
5	六月	258
6	七月	320
7	八月	366
8	九月	417
9	十月	428
10	十一月	522
11	十二月	617

方法4 使用单个的groupby，聚合使用nunique方法

data4 = data.groupby(['month']).agg({'merchant': pd.Series.nunique})

data4.reindex(['一月','二月','三月','四月','五月','六月','七月','八月','九月','十月','十一月','十二月']).reset_index()

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	month	merchant
0	一月	615
1	二月	622
2	三月	359
3	四月	175
4	五月	209
5	六月	258
6	七月	320
7	八月	366
8	九月	417
9	十月	428
10	十一月	522
11	十二月	617

可以参考

refer this stackoverflow

pandas pivot_table或者groupby实现sql 中的count distinct 功能的更多相关文章

VC++2005下的ADO SQL语句(like,count,distinct)和操作(转)
http://blog.sina.com.cn/s/blog_56fd66a70100hxjf.html http://timke.blog.163.com/blog/#m=0 环境:MFC Dia ...
Python中实现count(distinct )
假设一个表有6个字段c1,c2,c3,c4,c5,c6,有如下的sql语句: select c1,count(distinct(c6)) from tbl where c3>1 group by ...
知方可补不足~SQL中的count命令的一些优化措施（百万以上数据明显）
回到目录 SQL中对于求表记录总数的有count这个聚合命令,这个命令给我们感觉就是快,比一般的查询要快,但是,当你的数据表记录比较多时,如百万条,千万条时,对于count来说,就不是那么快了,我们需 ...
SQL中以count及sum为条件的查询
在开发时,我们经常会遇到以“累计(count)”或是“累加(sum)”为条件的查询.比如user_num表: id user num 1 a 3 2 a 4 3 b 5 4 b 7 例1:查询出现 ...
SQL中以count或sum为条件的查询方式
在开发时,我们经常会遇到以“累计(count)”或是“累加(sum)”为条件的查询.比如user_num表: id user num 1 a 3 2 a 4 3 b 5 4 b 7 例1:查询出现 ...
sql中unique和distinct
在SQL语法里面,有unique和distinct两个关键字, unique是distinct的同义词,功能完全相同.distinct是标准语法,其他数据库 sql server,db2,oracle ...
sql中简单的触发器功能
触发器分为DML触发器和DDL触发器DML触发器包含After触发器,执行insert update delete语句后会触发after触发器,会事务回滚DML触发器还包含instead of触发器, ...
Linq 实现普通sql中 where in 的功能
user.ProjectIds 的值是使用逗号分隔的例如:1,2,3 projectList = (from a in projectList where (user.ProjectIds.Spli ...
SQL中 select count(1) count中的1 到底是什么意思呢?和count(*)的区别
count(1),其实就是计算一共有多少符合条件的行. 1并不是表示第一个字段,而是表示一个固定值.其实就可以想成表中有这么一个字段,这个字段就是固定值1,count(1),就是计算一共有多少个1.同 ...

随机推荐

CentOS下双网卡双IP不同IP段配置
环境: eth0:10.0.7.2 gw :10.0.7.254 netmask:255.255.255.0 eth1:168.6.101.2 gw :168.6.101.254 net ...
利用百度OCR实现验证码自动识别
在爬取网站的时候都遇到过验证码,那么我们有什么方法让程序自动的识别验证码呢?其实网上已有很多打码平台,但是这些都是需要money.但对于仅仅爬取点数据而接入打码平台实属浪费.所以百度免费ocr正好可以 ...
ASP.NET WebApi 基于OAuth2.0实现Token签名认证
一.课程介绍明人不说暗话,跟着阿笨一起玩WebApi!开发提供数据的WebApi服务,最重要的是数据的安全性.那么对于我们来说,如何确保数据的安全将是我们需要思考的问题.为了保护我们的WebApi数 ...
设备树（device tree）学习笔记
作者信息作者:彭东林邮箱:pengdonglin137@163.com 1.反编译设备树在设备树学习的时候,如果可以看到最终生成的设备树的内容,对于我们学习设备树以及分析问题有很大帮助.这里我们 ...
CSS魔法堂：display:none与visibility:hidden的恩怨情仇
前言还记得面试时被问起"请说说display:none和visibility:hidden的区别"吗?是不是回答完display:none不占用原来的位置,而visibilit ...
docker中的数据库
注:自从开始使用docker,部署方面的事情就简单多了.使用docker构建的数据库容器不用直接安装,开启后就可以使用,也比以前方便很多.下面将一些要点记录下来. 下面的例子使用以下环境: - 系 ...
3D打印开源软件Cura分析（1）【转】
http://www.sohu.com/a/236241465_100000368 Cura是Ultimaker公司开发的3D打印开源软件,在所有的3D打印开源软件中应属上乘之作,很有研究的价值.国内 ...
Nginx配置，413 Request Entity Too Large错误解决
今天有同事找我,说图片上传之后,不知道去哪里了.分析了一下问题,找到原因之后做了处理,这里简要记录一下. 问题原因: 1.首先后台log并无错误信息: 2.捡查了一下浏览器,发现network中有报错 ...
阿里云服务器CentOS7 vsftp安装、设置及后台端口的设置
查看是否安装vsftp,我这个是已经安装的. [root@localhost vsftpd]# rpm -qa |grep vsftpd vsftpd-3.0.2-11.el7_2.x86_64 如果 ...
go微服务框架go-micro深度学习(二) 入门例子
上一篇帖子简单介绍了go-micro的整体框架结构,这一篇主要写go-micro使用方式的例子,中间会穿插一些go-micro的源码,和调用流程图,帮大家更好的理解go-micro的底层.更详细更具体 ...

pandas pivot_table或者groupby实现sql 中的count distinct 功能

pandas pivot_table或者groupby实现sql 中的count distinct 功能

方法一: 多重groupby，较为麻烦

方法2 pivot_table使用aggfunc 实现nunique方法

方法3，直接采用Series的nunique方法

方法4 使用单个的groupby，聚合使用nunique方法

可以参考

pandas pivot_table或者groupby实现sql 中的count distinct 功能的更多相关文章

随机推荐

热门专题