pandas 10分钟教程(二)

重点发法

分组 groupby('列名') groupby(['列名1','列名2',.........])

分组的步骤

(Splitting) 按照一些规则将数据分为不同的组,拆分
(Applying) 对于每组数据分别执行一个函数.'应用,申请'
(Combining) 将结果组合到一个数据结构, '组合/合并'

import pandas as pd
#根据A分组后求和
df.groupby('A').sum()
#分组,指定具体列的出来函数    #reset_index 重置索引
df.group(by=['列1','列2',....]).agg({'列名':['max','min']}).reset_index()

#agg/apply:指定具体的处理函数,,,可以 写自定义函数

分组后的统计方法

size() = count()
max(),min(),mean() 最大最小,平均数
std()
median() 中位数
frist() ,last() 第一个和最后一个非NA值
prod 非NA值得积

以上统计函数,除了count()外,都会自动过滤非数字列!!!!

排重:duplicated
1. 检查重复的数据:df.duplicated()
2. 检查重复指定列名:df.duplicated(['列1','列2',....])
3. 删除重复数据:df.drop_duolicates()
4. 删除时指定保留的数据： df.drop_duplicates(['列1'，.......],keep='frist/last')
  - keep:保存
  - frist:第一个，last:最后一个
数据透视表(和groupby()类似)
1. df.pibot_table(df,index=['列1','列2',...],values='列名',aggfunc=np.mean/sum)
  - index : 需要排序的列
  - values : 需要统计的列
  - aggfunc : 执行的统计函数,不写默认统计平均值
分组替换: Categories 分组/分类,
1. 实现第二列分组比替换数据:
  - df['新列名'] = df['B'].astype('category');转化为分类/分组类型
  - 分配列名: df['新列名'].cat.set_categories((值1,值2,.......))
  - 重新设置:　df['新列名'] = df['新列名'].cat_set_categories([值一，值二，...])

读写文件
1. HDF5: 存储打数据,方便和其他语言对接,
  - to_hdf()
  - read_hdf()
2. 表格:excel
  - read_excel('path',sheet_name='子页名')
  - to_excel(path)

Python数据分析Pandas库之熊猫(10分钟二)的更多相关文章

Python数据分析Pandas库之熊猫(10分钟一)
pandas熊猫10分钟教程排序 df.sort_index(axis=0/1,ascending=False/True) df.sort_values(by='列名') import numpy ...
Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
Python数据分析Pandas库数据结构(一)
pandas数据结构 1.生成一维矩阵模拟数据 import pandas as pdimport numpy as nps = pd.Series([1,2,3,4,np.nan,9,9])s2 = ...
Python数据分析 Pandas模块基础数据结构与简介(二)
重点方法分组:groupby('列名') groupby(['列1'],['列2'........]) 分组步骤: (spiltting)拆分按照一些规则将数据分为不同的组 (Applying)申 ...
Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算新建一个数据表 ...
Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
Python的Pandas库简述
pandas 是 python 的数据分析处理库import pandas as pd 1.读取CSV.TXT文件 foodinfo = pd.read_csv("pandas_study. ...
Python之Pandas库常用函数大全（含注释）
前言:本博文摘抄自中国慕课大学上的课程<Python数据分析与展示>,推荐刚入门的同学去学习,这是非常好的入门视频. 继续一个新的库,Pandas库.Pandas库围绕Series类型和D ...
Python数据分析-Pandas（Series与DataFrame）
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...

随机推荐

(94)Wangdao.com_第二十七天_键盘事件
键盘事件键盘事件由用户击打键盘触发主要有 keydown.keyup .keypress三个事件,它们都继承了 KeyboardEvent 接口. keydown 按下键时触发 ...
BOM 浏览器对象模型_同源限制
“同源政策”(same-origin policy) 浏览器安全的基石协议相同域名相同端口相同 1995年,同源政策由 Netscape 公司引入浏览器.目前,所有浏览器都实行这个政策 A 网页 ...
Pandora 生成 Token
生成 token 打数据到仓库通过 api 签名工具实现最后通过curl -XPOST -H "Content-Type: application/json" -H " ...
微信小程序底部tabbar
在 app.json 文件里面 : { "pages":[ "pages/index/index", "pages/logs/logs" ...
java学习（五）--- 方法
方法的定义修饰符返回值类型方法名(参数类型参数名){ ... 方法体 ... return 返回值; } 注意:非void方法必须有返回值方法重载: 可以声明方法相同,但是参数类型不同的方法 ...
2019年年初iOS招人心得笔记（附面试题）
第一部分是我当时准备的面试题第二部分是我的心得我重点在本文的第二部分说一下这次面试别人的心得体会.而关于第一部分的面试题,文中不提供答案(因为不是本文的重点) 第一部分:面试题注意,下面这些题只 ...
电子产品使用感受之----AirPods的一天使用体验分享
2019.03.29 晚上8点50分更新: 3月28日我的新款AirPods终于到货了,作为一代产品使用2年的用户,终于可以说说这枚新品的一天使用感受了: 我们会从以下几个方面来进行阐述: 外观技术 ...
阿里云服务器ssh经常一段时间就断掉解决办法
#vim /etc/ssh/sshd_config 找到下面两行 #ClientAliveInterval 0#ClientAliveCountMax 3 去掉注释,改成 ClientAliveInt ...
WinForm控件Dock属性设置会遮盖其他控件的解决
在被遮盖住的控件上,右击弹出快捷菜单,然后选择“置于顶层”.
对Vuex的初步了解
文章转载于:http://www.cnblogs.com/wisewrong/p/6344390.html 在 Vue.js 的项目中,如果项目结构简单, 父子组件之间的数据传递可以使用 props ...

Python数据分析Pandas库之熊猫(10分钟二)

pandas 10分钟教程(二)

重点发法

分组后的统计方法

Python数据分析Pandas库之熊猫(10分钟二)的更多相关文章

随机推荐

热门专题