Pandas 数值计算和统计基础

1.（1）

# 基本参数：axis、skipna

import numpy as np

import pandas as pd

df = pd.DataFrame({'key1':[4,5,3,np.nan,2],

                 'key2':[1,2,np.nan,4,5],

                 'key3':[1,2,3,'j','k']},

                 index = ['a','b','c','d','e'])

print(df)

print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype)

print('-----')

m1 = df.mean()

print(m1,type(m1))

print('单独统计一列:',df['key2'].mean())

print('-----')

# np.nan ：空值

# .mean()计算均值

# 只统计数字列,字符串的列不会进行统计了

# 可以通过索引单独统计一列

m2 = df.mean(axis=1)

print(m2)

print('-----')

# axis参数：默认为0，以列来计算，axis=1，以行来计算，这里就按照行来汇总了

m3 = df.mean(skipna=False)

print(m3)

print('-----')

# skipna参数：是否忽略NaN，默认True，如False，有NaN的列统计结果仍未NaN

输出结果：

  key1  key2 key3

a   4.0   1.0    1

b   5.0   2.0    2

c   3.0   NaN    3

d   NaN   4.0    j

e   2.0   5.0    k

float64 float64 object

-----

key1    3.5

key2    3.0

dtype: float64 <class 'pandas.core.series.Series'>

单独统计一列: 3.0

-----

a    2.5

b    3.5

c    3.0

d    4.0

e    3.5

dtype: float64

-----

key1   NaN

key2   NaN

dtype: float64

-----

（2）

import numpy

ar = numpy.random.rand(1000)

ar.mean()   #数组同样计算 引用

输出结果：

0.50208686016230231

（3）

import numpy as np

import pandas as pd

df = pd.DataFrame(np.random.randn(10,2),columns = ['A','B'])

df['means'] = df.mean(axis = 1)   # 新增加一列，列名为’mean',axis= 1表示按行计算均值 ,并把计算的均值添加到列means中

print(df)

df.loc['mean'] = df.mean(axis = 0)  # 新增加一行，行名为’mean',axis= 0表示按列计算均值 ,并把计算的均值添加到行mean中

df

输出结果：

          A         B     means

0  0.477583 -0.848570 -0.185493

1  0.756248  1.268240  1.012244

2  1.385510 -0.376960  0.504275

3 -0.858495  0.814814 -0.021841

4 -0.555510  0.432579 -0.061465

5  0.769137  0.245349  0.507243

6  1.703793  0.587001  1.145397

7 -1.035849 -0.953496 -0.994673

8 -0.065659 -0.600356 -0.333008

9  2.138832  0.053595  1.096213

# 主要数学计算方法，可用于Series和DataFrame（1）

df = pd.DataFrame({'key1':np.arange(10),

                  'key2':np.random.rand(10)*10})

print(df)

print('-----')

print(df.count(),'→ count统计非Na值的数量\n')

print(df.min(),'→ min统计最小值\n',df['key2'].max(),'→ max统计最大值\n')

print(df.quantile(q=0.75),'→ quantile统计分位数，参数q确定位置\n')

print(df.sum(),'→ sum求和\n')

print(df.mean(),'→ mean求平均值\n')

print(df.median(),'→ median求算数中位数，50%分位数\n')

print(df.std(),'\n',df.var(),'→ std,var分别求标准差，方差\n')

print(df.skew(),'→ skew样本的偏度\n')

print(df.kurt(),'→ kurt样本的峰度\n')

输出结果：

 key1      key2

0     0  6.792638

1     1  1.049023

2     2  5.441224

3     3  4.667631

4     4  2.053692

5     5  9.813006

6     6  5.074884

7     7  1.526651

8     8  8.519215

9     9  3.543486

-----

key1    10

key2    10

dtype: int64 → count统计非Na值的数量

key1    0.000000

key2    1.049023

dtype: float64 → min统计最小值

 9.81300585173231 → max统计最大值

key1    6.750000

key2    6.454785

Name: 0.75, dtype: float64 → quantile统计分位数，参数q确定位置

key1    45.00000

key2    48.48145

dtype: float64 → sum求和

key1    4.500000

key2    4.848145

dtype: float64 → mean求平均值

key1    4.500000

key2    4.871257

dtype: float64 → median求算数中位数，50%分位数

key1    3.027650

key2    2.931062

dtype: float64

 key1    9.166667

key2    8.591127

dtype: float64 → std,var分别求标准差，方差

key1    0.000000

key2    0.352466

dtype: float64 → skew样本的偏度

key1   -1.20000

key2   -0.79798

dtype: float64 → kurt样本的峰度

# 主要数学计算方法，可用于Series和DataFrame（2）

df['key1_s'] = df['key1'].cumsum()

df['key2_s'] = df['key2'].cumsum()

print(df,'→ cumsum样本的累计和\n')

df['key1_p'] = df['key1'].cumprod()

df['key2_p'] = df['key2'].cumprod()

print(df,'→ cumprod样本的累计积\n')

print(df.cummax(),'\n',df.cummin(),'→ cummax,cummin分别求累计最大值，累计最小值\n')

# 会填充key1，和key2的值

输出结果：

 key1      key2  key1_s     key2_s

0     0  6.792638       0   6.792638

1     1  1.049023       1   7.841661

2     2  5.441224       3  13.282885

3     3  4.667631       6  17.950515

4     4  2.053692      10  20.004208

5     5  9.813006      15  29.817213

6     6  5.074884      21  34.892097

7     7  1.526651      28  36.418749

8     8  8.519215      36  44.937963

9     9  3.543486      45  48.481450 → cumsum样本的累计和

   key1      key2  key1_s     key2_s  key1_p         key2_p

0     0  6.792638       0   6.792638       0       6.792638

1     1  1.049023       1   7.841661       0       7.125633

2     2  5.441224       3  13.282885       0      38.772160

3     3  4.667631       6  17.950515       0     180.974131

4     4  2.053692      10  20.004208       0     371.665151

5     5  9.813006      15  29.817213       0    3647.152301

6     6  5.074884      21  34.892097       0   18508.874743

7     7  1.526651      28  36.418749       0   28256.595196

8     8  8.519215      36  44.937963       0  240724.006055

9     9  3.543486      45  48.481450       0  853002.188425 → cumprod样本的累计积

   key1      key2  key1_s     key2_s  key1_p         key2_p

0   0.0  6.792638     0.0   6.792638     0.0       6.792638

1   1.0  6.792638     1.0   7.841661     0.0       7.125633

2   2.0  6.792638     3.0  13.282885     0.0      38.772160

3   3.0  6.792638     6.0  17.950515     0.0     180.974131

4   4.0  6.792638    10.0  20.004208     0.0     371.665151

5   5.0  9.813006    15.0  29.817213     0.0    3647.152301

6   6.0  9.813006    21.0  34.892097     0.0   18508.874743

7   7.0  9.813006    28.0  36.418749     0.0   28256.595196

8   8.0  9.813006    36.0  44.937963     0.0  240724.006055

9   9.0  9.813006    45.0  48.481450     0.0  853002.188425

    key1      key2  key1_s    key2_s  key1_p    key2_p

0   0.0  6.792638     0.0  6.792638     0.0  6.792638

1   0.0  1.049023     0.0  6.792638     0.0  6.792638

2   0.0  1.049023     0.0  6.792638     0.0  6.792638

3   0.0  1.049023     0.0  6.792638     0.0  6.792638

4   0.0  1.049023     0.0  6.792638     0.0  6.792638

5   0.0  1.049023     0.0  6.792638     0.0  6.792638

6   0.0  1.049023     0.0  6.792638     0.0  6.792638

7   0.0  1.049023     0.0  6.792638     0.0  6.792638

8   0.0  1.049023     0.0  6.792638     0.0  6.792638

9   0.0  1.049023     0.0  6.792638     0.0  6.792638 → cummax,cummin分别求累计最大值，累计最小值

# 唯一值：.unique()

s = pd.Series(list('asdvasdcfgg'))

sq = s.unique()

print(s)

print(sq,type(sq))

print(pd.Series(sq))

# 得到一个唯一值数组

# 通过pd.Series重新变成新的Series

sq.sort()

print(sq)

# 重新排序

输出结果：

0     a

1     s

2     d

3     v

4     a

5     s

6     d

7     c

8     f

9     g

10    g

dtype: object

['a' 's' 'd' 'v' 'c' 'f' 'g'] <class 'numpy.ndarray'>

0    a

1    s

2    d

3    v

4    c

5    f

6    g

dtype: object

['a' 'c' 'd' 'f' 'g' 's' 'v']

# 值计数：.value_counts()

sc = s.value_counts(sort = False)  # 也可以这样写：pd.value_counts(sc, sort = False)

print(sc)

# 得到一个新的Series，计算出不同值出现的频率

# sort参数：排序，默认为True

输出结果：

d    2

a    2

s    2

c    1

f    1

g    2

v    1

dtype: int64

# 成员资格：.isin()

s = pd.Series(np.arange(10,15))

df = pd.DataFrame({'key1':list('asdcbvasd'),

                  'key2':np.arange(4,13)})

print(s)

print(df)

print('-----')

print(s.isin([5,14]))   #判断5和14是否在里面

print(df.isin(['a','bc','',8]))

# 用[]表示

# 得到一个布尔值的Series或者Dataframe

输出结果：

0    10

1    11

2    12

3    13

4    14

dtype: int32

  key1  key2

0    a     4

1    s     5

2    d     6

3    c     7

4    b     8

5    v     9

6    a    10

7    s    11

8    d    12

-----

0    False

1    False

2    False

3    False

4     True

dtype: bool

    key1   key2

0   True  False

1  False  False

2  False  False

3  False  False

4  False   True

5  False  False

6   True  False

7  False  False

8  False  False

课后题：

写出一个输入元素直接生成数组的代码块，然后创建一个函数，该函数功能用于判断一个Series是否是唯一值数组，返回“是”和“不是”。

import numpy as np

import pandas as pd

#练习1

ar = eval(input("请输入一组元素,以列表的形式:"))

s =pd.Series(ar)

print(s)

def f(s):

    s1 =s.unique()

    if len(s1) == len(s):

        print("该数据是唯一值Series")

    else:

        print("该数据不是唯一值Series")

f(s)

Pandas 数值计算和统计基础的更多相关文章

pandas中的数值计算及统计基础
import pandas as pd import numpy as np df = pd.DataFrame({ 'key1': [4, 5, 3, np.nan, 2], 'key2': [1, ...
04. Pandas 3| 数值计算与统计、合并连接去重分组透视表文件读取
1.数值计算和统计基础常用数学.统计方法数值计算和统计基础基本参数:axis.skipna df.mean(axis=1,skipna=False) -->> axis=1是按行来 ...
Pandas之DataFrame——Part 3
''' [课程2.] 数值计算和统计基础常用数学.统计方法 ''' # 基本参数:axis.skipna import numpy as np import pandas as pd df = pd ...
pandas之数值计算与统计
数值计算与统计对于DataFrame来说,求和.最大.最小.平均等统计方法,默认是按列进行统计,即axis = 0,如果添加参数axis = 1则会按照行进行统计. 如果存在空值,在统计时默认会忽略 ...
Python 数值计算库之-[Pandas]（六）
Linux 中的数值计算和符号计算
不知道经常需要做科学计算的朋友们有没有这样的好奇:在 Linux 系统下使用什么工具呢?说到科学计算,首先想到的肯定是 Matlab,如果再说到符号计算,那就非 Mathematica 不可了.可惜, ...
【转载】使用Pandas创建数据透视表
使用Pandas创建数据透视表本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas创建数据透视表目录 pandas.pivot_table() 创建简单的数据透视表增加一个行维度(inde ...
python与数值计算环境搭建
数值计算的编程的软件很多种,也见过一些编程绘图软件的对比. 利用Python进行数值计算,需要用到numpy(矩阵) ,scipy(公式符号), matplotlib(绘图)这些工具包. 1.Linu ...
Python 数据处理扩展包： numpy 和 pandas 模块介绍
一.numpy模块 NumPy(Numeric Python)模块是Python的一种开源的数值计算扩展.这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list str ...

随机推荐

在Centos7中安装Docker并实例化Mysql
首先本文是一篇安装流程,从初始的Centos7安装Docker后实例化一个Mysql的整个流程,其中会包含一些需要注意的疑点和坑. 实例化的Mysql是将数据和配置保存在宿主机. 注意,在安装Doc ...
Windows和Linux执行Java代码的不同方式
一.Windows 下编译并执行 Java 字节码文件(类文件) 1.编译 Hello.java 源码文件: java -d . Hello.java 2.执行 Hello.class 字节码文件: ...
easyui datagrid 表格中操作栏按钮图标不显示
jQuery EasyUI动态添加控件或者ajax加载页面后不能自动渲染解决办法: 使用解析器 Parser(解析器) $.parser.parse(); // 解析所有页面 $.par ...
Android - 通过真实案例学习解内存泄漏问题，最终发现Android原生Bug
作为一个Android新手小白,刚到新公司,最近的工作就是在学习解各类Bug.转型之初,面临各种新知识,会有压力,但是学习的过程是快乐的. 上周刚遇上一类bug,就是应用的内存泄漏问题.最终通过前辈的 ...
form中的action与<url-pattern>的理解
一.<form action="Test/Login" method="post"> 在action中有两种表示方式: 1."/Test/ ...
CentOS 7.0 各版本下载说明新增Everything版
CentOS-7.0-1406有很多可供选择的版本,对初学者来说,不知如何选择,下面做简单的介绍: CentOS-7.0-1406-x86_64-DVD.iso 标准安装版,一般下载这个就可以了 Ce ...
excel跨表查询数据
环境:公司部分部门进行商品盘点,店铺经理要求不经过系统进行盘点,全程采用excel表格处理所示: 左图为总表,右图为首饰部门录入的数据需求:找出盘点差异(即首饰部商品数量是否和 ...
April 4 2017 Week 14 Tuesday
Problems are not stop signs, they are guidelines. 问题不是休止符,而是引向标. It is ture during our explorations ...
45. 腾讯面试题：使用hashmap 插入数据，怎么样依照插入数据的顺序输出数据
题目:使用hashmap 插入数据,怎么样依照插入数据的顺序输出数据分析: 使用hashmap插入数据,数据的顺序会改变.能够写个小程序试试. 那怎么样依照插入的顺序输出呢? 方法一: 这是我第一时 ...
2019.03.16 ZJOI2019模拟赛解题报告
得分: $100+27+20=147$($T1$巨水,$T2,T3$只能写暴力分) $T1$:深邃比较套路的一眼题,显然是一个二分+贪心,感觉就是$NOIP2018Day1T3$ ...

Pandas 数值计算和统计基础

Pandas 数值计算和统计基础的更多相关文章

随机推荐

热门专题