一、pandas数据操作:

  1.处理缺失数据

    (1)判断是否存在缺失值

      ser_obj.isnull(),df_obj.isnull()

    (2)dropna:丢弃缺失数据

    (3)fillna:填充缺失值

  2.常用的统计计算

  1. import numpy as np
  2. import pandas as pd
  3. df1 =pd.DataFrame(np.random.randn(,),columns=['a','b','c','d'])
  4. print(df1)

    (1)sum,mean,max,min.......

    (2)axis=0按照列统计,axis=0按照行进行统计

  1. #求和,求出各列的最大值,默认是axis=的方向
  2. print('df1.sum=\n',df1.sum())
  3. #打印出df1的最大值,求出df1各列的最大值
  4. print('df1.max()=\n',df1.max())
  1. 求出水平方向各列的最大值
    print('水平方向的最大值=\n',df1.max(axis=1))
  2.  
  3. #求出水平方向各行的和
    print('水平方向各行的和',df1.sum(axis=1))
    print('各个值的描述为:\n',df1.describe())

    (3)skipna排除缺失值,默认为True

    (4)idmax,idmin,cumsum

    (5)describe()描述多个数据

二、pandas层级索引

  1.层级索引

    (1)MultiIndex对象

  1. import numpy as np
  2. import pandas as pd
  3.  
  4. #对于多层索引的数据结构,先写外层索引,再写内层索引
  5. ser_obj = pd.Series(np.random.randn(),index=[['a','a','a','b','b','b','c','c','c','d','d','d'],
  6. [,,,,,,,,,,,]
  7. ])
  8. print(ser_obj)
  9.  

a 0 -0.238233
1 1.833810
2 0.440786
b 0 -0.061261
1 1.429524
2 0.472883
c 0 -0.509399
1 1.463129

  1.  

    (2)选取子集

      外层选取   ser_obj['outer_label']

      内层选取  ser_obj[:,'inner_label']

  1. #索引
  2. print('索引为',ser_obj.index)
  3. print('索引的类型:\n',type(ser_obj))

索引为 MultiIndex(levels=[['a', 'b', 'c', 'd'], [0, 1, 2]],
labels=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])
索引的类型:
<class 'pandas.core.series.Series'>

  1. #外层的选取,选取c这一层
    print(ser_obj['c'])
  2.  
  3. #内层的选取
    print(ser_obj[:,2])

    (3)常用于分组操作透视表生成等

    (4)交换分层次序

       swaplevel

  1. #交换层级索引的顺序,将0,,2作为外层索引,将a,b,c,d作为内层索引
  2. print(ser_obj.swaplevel())

0 a -0.692477
1 a 1.646162
2 a -1.065838
0 b -0.427297
1 b 3.000122
2 b -0.247474
0 c -0.601376
1 c -0.109477
2 c -0.607528
0 d 0.776865
1 d 0.886385
2 d -0.837686

  1. #交换层级索引并排序分层
  2. print(ser_obj.swaplevel().sortlevel())

    (5)排序分层:sortlevel()   

  1. #交换层级索引并排序分层
  2. print(ser_obj.swaplevel().sortlevel())

三、Pandas分组与聚合

  1.分组(groupby)

    (1)对数据集进行分组,然后对每组数据进行统计分析

    (2)SQL能够对数据进行过滤,分组聚合

    (3)pandas能够利用groupby进行更加复杂的分组运算

    (4)分组运算的过程

      split->apply->combine

      拆分:进行分组的根据

      应用:每个分组的计算规则

      合并:把每个分组的计算结果合并起来

  2.聚合(aggregation)

    (1)数组产生标量的过程,如mean(),count()等

    (2)常用于对分组后的数据进行计算

    (3)内置的聚合函数

      sum(),mean(),max(),min(),count(),size(),describe()

    (4)可以自定义函数,传入agg方法中

      grouped.agg(func)

    (5)func的参数为groupby索引对应的记录

  

python数据结构:pandas(3)的更多相关文章

  1. python之pandas学习笔记-pandas数据结构

    pandas数据结构 pandas处理3种数据结构,它们建立在numpy数组之上,所以运行速度很快: 1.系列(Series) 2.数据帧(DataFrame) 3.面板(Panel) 关系: 数据结 ...

  2. 基于 Python 和 Pandas 的数据分析(2) --- Pandas 基础

    在这个用 Python 和 Pandas 实现数据分析的教程中, 我们将明确一些 Pandas 基础知识. 加载到 Pandas Dataframe 的数据形式可以很多, 但是通常需要能形成行和列的数 ...

  3. 基于 Python 和 Pandas 的数据分析(1)

    基于 Python 和 Pandas 的数据分析(1) Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性 ...

  4. python之pandas简单介绍及使用(一)

    python之pandas简单介绍及使用(一) 一. Pandas简介1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据 ...

  5. Python之Pandas中Series、DataFrame

    Python之Pandas中Series.DataFrame实践 1. pandas的数据结构Series 1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一 ...

  6. 「Python」pandas入门教程

    pandas适合于许多不同类型的数据,包括: 具有异构类型列的表格数据,例如SQL表格或Excel数据 有序和无序(不一定是固定频率)时间序列数据. 具有行列标签的任意矩阵数据(均匀类型或不同类型) ...

  7. Python之Pandas中Series、DataFrame实践

    Python之Pandas中Series.DataFrame实践 1. pandas的数据结构Series 1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一 ...

  8. python数据结构与算法

    最近忙着准备各种笔试的东西,主要看什么数据结构啊,算法啦,balahbalah啊,以前一直就没看过这些,就挑了本简单的<啊哈算法>入门,不过里面的数据结构和算法都是用C语言写的,而自己对p ...

  9. python数据结构与算法——链表

    具体的数据结构可以参考下面的这两篇博客: python 数据结构之单链表的实现: http://www.cnblogs.com/yupeng/p/3413763.html python 数据结构之双向 ...

  10. python数据结构之图的实现

    python数据结构之图的实现,官方有一篇文章介绍,http://www.python.org/doc/essays/graphs.html 下面简要的介绍下: 比如有这么一张图: A -> B ...

随机推荐

  1. 【深入理解CLR】1:CLR的执行模型

    将源代码编译成托管模块 下图展示了编译源代码文件的过程.如图所示,可用支持 CLR 的任何一种语言创建源代码文件.然后,用一个对应的编译器检查语法和分析源代码.无论选用哪一个编译器,结果都是一个托管模 ...

  2. ASP.NET MVC Ajax下载文件(使用NPOI向现有的excel模板文件里面添加数据)

    View Html.DevExpress().Button(DevExpressButtonHelper.AddButton(ViewBag.Form, "Export", &qu ...

  3. 记ubuntu sudo无法使用,su密码不对的解决办法

    前言 因为我有强制关机的习惯, 然后就杯具了.. ubuntu版本是 16.04 sudo没法使用, su密码不对, 顿时我就慌了 解决方案 1.1.开机点击ESC,进去GUN GRUB界面 1.2. ...

  4. pycharm如何添加固定代码块

    1. file -- settings -- 搜索框输入live,找到 Live Templates 2. 选择你要添加到哪个语言中去,打开python组,并点击右上角 “+”,选择 1.Live T ...

  5. 向android模拟器打电话发短信的简单方法

    在开发android应用程序时,有时候需要测试一下向android手机拨打电话发送短信时该应用程序的反应.譬如编写一个广播接收器,来提示用户有短信收到或者处理短信,就需要向该手机发送短信来进行测试.这 ...

  6. 1-window搭建git

    windows7搭建Git私服 作为版本控制工具大多公司会选用Git,但svn也具有一定的优势,在对开源项目管理方面,Git具有一定的优势,我们可以将自己的项目放到GitHub上面,供大家交流学习,但 ...

  7. SQL模糊查询报:ORA-00909:参数个数无效

    用oracle数据库进行模糊查询时,控制台报错如下图所示: 原因是因为敲的太快,语法写错了 正确的写法是 pd.code like concat(concat('%',#{keyword}),'%')

  8. 【Python】学习笔记五:缩进与选择

    Python最具特色的用缩进来标明成块的代码 缩进 i = 4 j = 2 if i > j: i = i+1 print(i) 这是一个简单的判断,Python的if使用很简单,没有括号等繁琐 ...

  9. GTX 1060 3GB 能否使用DeepFaceLab ?

    大部分人都知道跑换脸软件对电脑配置的要求比较高.所以当你想要开始玩之前都会有一个疑问:我的电脑能跑起来了么?或者我的电脑能跑那个模型? 之前写过一篇750 1G显卡如何玩deepfakes的文章.今天 ...

  10. 关于加快INSERT语句执行速度和HINT /*+ append */及/*+ append nologging */的使用

    (非归档模式下)创建表T01: SQL> create table t01 as select * from dba_objects where 1=2; Table created. (非归档 ...