pandas中的数值计算及统计基础

 import pandas as pd

 import numpy as np

 df = pd.DataFrame({

     'key1': [4, 5, 3, np.nan, 2],

     'key2': [1, 2, np.nan, 4, 5],

     'key3': [1, 2, 3, 'j', 'k']

 }, index=['a', 'b', 'c', 'd', 'e'])

 print(df)

 print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype)

 print('-------')

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

 float64 float64 object

 -------

 '''

 # 计算每一列的均值 df.mean()

 # 只统计数字列，默认忽略nan。

 print(df.mean())

 '''

 key1    3.5

 key2    3.0

 dtype: float64

 '''

 # 不忽略nan值计算均值

 # skipna默认为True，如果为False，有NaN的列统计结果仍为NaN

 m3 = df.mean(skipna=False)

 print(m3)

 '''

 key1   NaN

 key2   NaN

 dtype: float64

 '''

 # 计算单一列的均值

 print('计算单一列的均值',df['key2'].mean())

 '''

 计算单一列的均值 3.0

 '''

 df2 = pd.DataFrame({

     'key1': [1, 3, 5],

     'key2': [2, 4, 6],

     'key3': [3, 5, 7]

 }, index=['a', 'b', 'c'])

 # print(df2)

 # print('--------df2')

 # 计算df2每一行的均值并将其结果添加到新的列

 df2['mean'] = df2.mean(axis=1)

 print(df2)

 '''

    key1  key2  key3  mean

 a     1     2     3   2.0

 b     3     4     5   4.0

 c     5     6     7   6.0

 '''

 # 统计非NaN值的数量  count()

 print(df)

 print('-'*6)

 print(df.count())

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

 ------

 key1    4

 key2    4

 key3    5

 dtype: int64

 '''

 # 统计

 print(df)

 print('-' * 6)

 print('df的最小值',df.min())

 print('df的最大值',df.max())

 print('df的key2列的最大值',df['key2'].max())

 print('统计df的分位数，参数q确定位置',df.quantile(q=0.75))

 print('对df求和',df.sum())

 print('求df的中位数，median(),50%分位数',df.median())

 print('求df的标准差，std()',df.std())

 print('求df的方差，var()',df.var())

 print('求skew样本的偏度,skew()',df.skew())

 print('求kurt样本的峰度，kurt()',df.kurt())

 print('df累计求和，cumsum()',df['key2'].cumsum())

 print('df累计求积，cumprod()',df['key2'].cumprod())

 print('求df的累计最大值，cummax()', df['key2'].cummax())

 print('求df的累计最小值，cummin()', df['key2'].cummin())

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

 ------

 df的最小值 key1    2.0

 key2    1.0

 dtype: float64

 df的最大值 key1    5.0

 key2    5.0

 dtype: float64

 df的key2列的最大值 5.0

 统计df的分位数，参数q确定位置 key1    4.25

 key2    4.25

 Name: 0.75, dtype: float64

 对df求和 key1    14.0

 key2    12.0

 dtype: float64

 求df的中位数，median(),50%分位数 key1    3.5

 key2    3.0

 dtype: float64

 求df的标准差，std() key1    1.290994

 key2    1.825742

 dtype: float64

 求df的方差，var() key1    1.666667

 key2    3.333333

 dtype: float64

 求skew样本的偏度,skew() key1    0.0

 key2    0.0

 dtype: float64

 求kurt样本的峰度，kurt() key1   -1.2

 key2   -3.3

 dtype: float64

 df累计求和，cumsum() a     1.0

 b     3.0

 c     NaN

 d     7.0

 e    12.0

 Name: key2, dtype: float64

 df累计求积，cumprod() a     1.0

 b     2.0

 c     NaN

 d     8.0

 e    40.0

 Name: key2, dtype: float64

 求df的累计最大值，cummax() a    1.0

 b    2.0

 c    NaN

 d    4.0

 e    5.0

 Name: key2, dtype: float64

 求df的累计最小值，cummin() a    1.0

 b    1.0

 c    NaN

 d    1.0

 e    1.0

 Name: key2, dtype: float64

 '''

 # 唯一值 ：unique()

 s = pd.Series(list('kjdhsakjdhjfh'))

 sq = s.unique()

 print(s)

 print(sq)

 print('sq的类型：',type(sq))

 print('对sq进行重新排序：',pd.Series(sq).sort_values())

 '''

 0     k

 1     j

 2     d

 3     h

 4     s

 5     a

 6     k

 7     j

 8     d

 9     h

 10    j

 11    f

 12    h

 dtype: object

 ['k' 'j' 'd' 'h' 's' 'a' 'f']

 sq的类型： <class 'numpy.ndarray'>

 对sq进行重新排序： 5    a

 2    d

 6    f

 3    h

 1    j

 0    k

 4    s

 dtype: object

 '''

 # 对某一列进行值的计数，只能对一列，不能对Dataframe

 print(df['key2'].value_counts())

 # 判断Dataframe中的每个元素是否都是在某个列表中

 print(df)

 df_isin = df.isin([1,3])

 print(df_isin)

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

     key1   key2   key3

 a  False   True   True

 b  False  False  False

 c   True  False   True

 d  False  False  False

 e  False  False  False

 '''

pandas中的数值计算及统计基础的更多相关文章

Pandas中DateFrame修改列名
Pandas中DateFrame修改列名在做数据挖掘的时候,想改一个DataFrame的column名称,所以就查了一下,总结如下: 数据如下: >>>import pandas ...
pandas中的分组技术
目录 1 分组操作 1.1 按照列进行分组 1.2 按照字典进行分组 1.3 根据函数进行分组 1.4 按照list组合 1.5 按照索引级别进行分组 2 分组运算 2.1 agg 2 ...
数据分析面试题之Pandas中的groupby
昨天晚上,笔者有幸参加了一场面试,有一个环节就是现场编程!题目如下: 示例数据如下,求每名学生(ID)对应的成绩(score)最高的那门科目(class)与ID,用Python实现: 这个题目 ...
python – 基于pandas中的列中的值从DataFrame中选择行
如何从基于pandas中某些列的值的DataFrame中选择行?在SQL中我将使用: select * from table where colume_name = some_value. 我试图看看 ...
pandas中的空值处理
1.空值 1.1 有两种丢失数据: None: Python自带的数据类型不能参与到任何计算中 np.nan: float类型能参与计算,但结果总是nan # None+2 # 报错 # np.n ...
Pandas中关于accessor的骚操作
来自:Python那些事 pandas中accessor功能很强大,可以将它理解为一种属性接口,通过它获得额外的方法. 下面用代码和实例理解一下: import pandas as pd pd.Ser ...
分位函数（四分位数）概念与pandas中的quantile函数
p分位函数(四分位数)概念与pandas中的quantile函数函数原型 DataFrame.quantile(q=0.5, axis=0, numeric_only=True, interpola ...
Python之Pandas中Series、DataFrame
Python之Pandas中Series.DataFrame实践 1. pandas的数据结构Series 1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一 ...
Pandas中DataFrame修改列名
Pandas中DataFrame修改列名:使用 rename df = pd.read_csv('I:/Papers/consumer/codeandpaper/TmallData/result01- ...

随机推荐

C#实现加简单的Http请求
通过.Net中的两个类 HttpWebRequest 类, HttpWebResponse 类来实现Http的请求,响应处理. 第一个小测试是请求百度首页( http://www.baidu.com ...
MyBatis（国税）
一.MyBatis概要 1.1.ORM介绍对象关系映射(Object Relational Mapping,简称ORM,或O/RM,或O/R mapping),用于实现面向对象编程语言里不同类型系统 ...
ASP.NET Core配置环境变量和启动设置
在这一部分内容中,我们来讨论ASP.NET Core中的一个新功能:环境变量和启动设置,它将开发过程中的调试和测试变的更加简单.我们只需要简单的修改配置文件,就可以实现开发.预演.生产环境的切换. A ...
Java使用for循环输出菱形
/** * This program would print out a diamond * @param row the row of diamond * @version 2018-7-23 * ...
SQL Server 基本INSERT语句
1.基本INSERT语句,单行插入如果没有列出列,则使一一对应. 2.多行插入 3.INSERT INTO ... SELECT 语句要插入的语句是从其他表中查询出来的. 注意:数据类型得相同或者 ...
canvas-star3
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
SQL Anywhere5.5: Metadata
http://dcx.sybase.com/1101/en/dbprogramming_en11/ianywhere-data-sqlanywhere-saconnection-getschem633 ...
Jquery插件开发之图片放大镜效果(仿淘宝)
原网转载地址:http://www.cnblogs.com/hnvvv/archive/2011/11/19/2255197.html 需求:公司某个网站,需要实现图片预览效果,并能像淘宝一样实现局部 ...
Ansible--原理
什么是Ansible Ansible是一种IT自动化运维工具,它可以配置系统,部署软件以及协调更高级的IT任务,例如持续部署或者是零停机滚动更新Ansible是新出现的自动化运维工具,基于Python ...
selenium win7+selenium2.0+python环境搭建
win7+selenium2.0+python环境搭建 by:授客 QQ:1033553122 步骤1:下载python 担心最新版的支持不太好,这里我下载的是python 2.7(selenium之 ...

pandas中的数值计算及统计基础

pandas中的数值计算及统计基础的更多相关文章

随机推荐

热门专题