#一般化的groupby方法:apply
df = pd.DataFrame({'data1':np.random.rand(5),
'data2':np.random.rand(5),
'key1':list('aabba'),
'key2':['one','two','one','two','one']})
print(df)
#print(df.groupby('key1').apply(lambda x:x.describe()))
#apply直接运算其中的函数
#这里是匿名函数,直接描述分组后的统计量 def f_df1(d,n):
return(d.sort_index()[:n]) #返回排序后的前n行数据
def f_df2(d,k1):
return(d[k1])#返回分组后表的k1列,结果为series,层次化索引
print(df.groupby('key1').apply(f_df1,2),'\n')#引入自己创建的函数,注意书写格式,f_df1的第一个参数默认df 第二个参数,2的形式
print(df.groupby('key1').apply(f_df2,'data2'))
#直接运行f_df函数
#参数直接写在后面,也可以写为:.apply(f_df,n=2)
结果:
      data1     data2 key1 key2
0  0.253473  0.731034    a  one
1  0.531445  0.061414    a  two
2  0.733180  0.122293    b  one
3  0.550177  0.115940    b  two
4  0.101753  0.510581    a  one
           data1     data2 key1 key2
key1                               
a    0  0.253473  0.731034    a  one
     1  0.531445  0.061414    a  two
b    2  0.733180  0.122293    b  one
     3  0.550177  0.115940    b  two key1  
a     0    0.731034
      1    0.061414
      4    0.510581
b     2    0.122293
      3    0.115940
Name: data2, dtype: float64
 # 数据分组转换 .transform
import numpy as np
import pandas as pd
df = pd.DataFrame({'data1':np.random.rand(5),
'data2':np.random.rand(5),
'key1':list('aabba'),
'key2':['one','two','one','two','one']})
print(df)
k_mean = df.groupby('key1').mean()
print(k_mean)
print(pd.merge(df,k_mean,left_on = 'key1',right_index = True).add_prefix('mean_'))#.add_profix('mean_'):增添前缀
print('------')
#通过分组,合并,得到一个包含均值的Dataframe 以key1位分组的列均值 print(df.groupby('key2').mean())#按照key2分组求均值
print(df.groupby('key2').transform(np.mean))
#data1,data2每个位置的元素取对应分组列的均值
#字符串不能进行计算

结果:
      data1     data2 key1 key2
0  0.845365  0.411704    a  one
1  0.300226  0.411719    a  two
2  0.476632  0.628493    b  one
3  0.985675  0.304024    b  two
4  0.418804  0.229940    a  one
         data1     data2
key1                   
a     0.521465  0.351121
b     0.731153  0.466258
   mean_data1_x  mean_data2_x mean_key1 mean_key2  mean_data1_y  mean_data2_y
0      0.845365      0.411704         a       one      0.521465      0.351121
1      0.300226      0.411719         a       two      0.521465      0.351121
4      0.418804      0.229940         a       one      0.521465      0.351121
2      0.476632      0.628493         b       one      0.731153      0.466258
3      0.985675      0.304024         b       two      0.731153      0.466258
------
         data1     data2
key2                   
one   0.580267  0.423379
two   0.642951  0.357872
      data1     data2
0  0.580267  0.423379
1  0.642951  0.357872
2  0.580267  0.423379
3  0.642951  0.357872
4  0.580267  0.423379

2018.03.29 python-pandas transform/apply 的使用的更多相关文章

  1. 2018.03.27 python pandas merge join 使用

    #2.16 合并 merge-join import numpy as np import pandas as pd df1 = pd.DataFrame({'key1':['k0','k1','k2 ...

  2. 2018.03.29 python-matplotlib 图表生成

    '''Matplotlib -> 一个python版的matlab绘图接口,以2D为主,支持python,numpy,pandas基本数据结构,高效图标库''' import numpy as ...

  3. 2018.03.29 python-pandas 数据读取

    #数据读取# read_table,read_csv,read_excel #读取普通分隔数据:read_table #可以读取txt,csv import os import pandas as p ...

  4. 2018.03.29 python-pandas 数据透视pivot table / 交叉表crosstab

    #透视表 pivot table #pd.pivot_table(data,values=None,index=None,columns=None, import numpy as np import ...

  5. 2018/03/29 每日一个Linux命令 之 ping

    ping 用于测试两及其网络是否通 主要用于检测网络是否通畅. -- 具体语法 ping [-dfnqrRv][-c<完成次数>][-i<间隔秒数>][-I<网络界面&g ...

  6. Python pandas快速入门

    Python pandas快速入门2017年03月14日 17:17:52 青盏 阅读数:14292 标签: python numpy 数据分析 更多 个人分类: machine learning 来 ...

  7. Python pandas & numpy 笔记

    记性不好,多记录些常用的东西,真·持续更新中::先列出一些常用的网址: 参考了的 莫烦python pandas DOC numpy DOC matplotlib 常用 习惯上我们如此导入: impo ...

  8. 【VSCode】Windows下VSCode编译调试c/c++【更新 2018.03.27】

    --------– 2018.03.27 更新--------- 便携版已更新,点此获取便携版 已知BUG:中文目录无法正常调试 用于cpptools 0.15.0插件的配置文件更新 新的launch ...

  9. python & pandas链接mysql数据库

    Python&pandas与mysql连接 1.python 与mysql 连接及操作,直接上代码,简单直接高效: import MySQLdb try: conn = MySQLdb.con ...

随机推荐

  1. redis数据库到mysql或mongodb数据库

    # -*- coding:utf-8 -*-# item_mongodb.py import redis import pymongo import json def main(): redis_co ...

  2. zencart后台修改首页meta_title、meta_keywords、meta_description

    includes\languages\english\模板\meta_tags.php 首先,将meta_tags.php中常量HOME_PAGE_META_DESCRIPTION.HOME_PAGE ...

  3. nasm

    sudo apt install nasm 64bit: nasm -f elf64 test.asm ld -s -o test test.o --------------------------- ...

  4. 【洛谷P3338】力

    题目大意:求 \[ E_{j}=\sum_{i<j} \frac{q_{i}}{(i-j)^{2}}-\sum_{i>j} \frac{q_{i}}{(i-j)^{2}} \] 题解:可以 ...

  5. SpringMVC 中的注解@RequestParam与@PathVariable的区别

    @PathVariable绑定URI模板变量值 @PathVariable是用来获得请求url中的动态参数的 @PathVariable用于将请求URL中的模板变量映射到功能处理方法的参数上.//配置 ...

  6. redis中如何存储java对象

    根据redis的存储原理,Redis的key和value都支持二进制安全的字符串 1.利用序列化和反序列化的方式 存储java对象我们可以通过对象的序列化与反序列化完成存储于取出,这样就可以使用red ...

  7. 【NOIP2016提高A组模拟9.17】序列

    题目 分析 首先用\(a_i\)表示达到目标的步数\(B_i-A_i(mod 4)\) 根据粉刷栅栏,先不管mod 4的情况,答案就是\(\sum\max(a_i-a_{i+1},0)\) 那我们刚才 ...

  8. time时间库使用示例

    time时间库主要有以下几个方法 1. 生成struct_time ,然后就可以很方便的获取到年月日,时分秒等信息 time.localtime() 2. 生成时间戳 time.time() 3. 将 ...

  9. Devexpress MVC GridView / CardView (持续更新)

    //获取gridview里面的combo box 显示的文本 //获取某个column在gridview的 index RightGridView.GetColumnByField("Fun ...

  10. POJ 1912 凸包

    题目: #include <iostream> #include <cstdio> #include <cstring> #include <cstdlib& ...