pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)

常用数学统计方法总结

读取或保存数据

缺省值和异常值处理

常用数学统计方法总结

count 计算非NA值的数量

describe 针对Series或DataFrame列计算统计

min/max/sum 计算最小值 最大值 总和

argmin argmax 计算能够获取到最小值和最大值的索引位置(整数)

idxmin idxmax 计算能够获取到最小值和最大值的索引值

quantile 计算样本的分位数(0到1)

mean 值的平均数

median 值的中位数

mad 根据平均值计算平均绝对距离差

var 样本数值的方差

std 样本值的标准差

cumsum 样本值的累计和

cummin cummax 样本的累计最小值 最大值

cumprod 样本值的累计积

pct_change 计算百分数变化

读取或保存数据

读取数据

pandas可以从外部获取数据，构建数据对象，例如xlsx后缀的ececl文件,csv文件，txt文本等

下面以txt文件举例：

先创建txt文本

读取txt文本数据

#读取txt文件

import pandas as pd

# df = pd.read_csv('data1.txt',sep=':')   #默认sep=','以什么分割数据，默认逗号

# print("data01.csv文件的原始数据==========================")

# print(df)

df = pd.read_csv('data1.txt',sep=':',header=None) #默认sep=',',header:去除表头,添加默认下标

print("data01.csv文件的原始数据==========================")

print(df)

#读取excel文件
# df=pd.read_excel('data2.xlsx')
# print(df)

     0   1   2

0  张伊曼  27  90

1  张巧玲  27  90

2  张诗诗  27  90

3  张思思  27  90

保存数据

df.to_csv('data1.csv') #保存为csv文件
df.to_excel('data2.xlsx') #保存为xlsx

缺省值和异常值处理

缺省值

什么是缺省值

null/None/NaN

null经常出现在数据库中

None是python中的缺失值，类型是NoneType

NaN也是python中的缺失值，意思是不是一个数字，类型是float

在pandas和Numpy中会将None替换为NaN，而导入数据库中的时候则需要把NaN替换成None

缺失值处理方法

pandas中缺省值NaN的4种处理方法:1 isnull 2 notnull 3 dropna 4 fillna

     方法             说明

dropna         根据标签中的缺失值进行过滤，删除缺失值

fillna         对缺失值进行填充

isnull         返回一个布尔值对象 ，判断 哪些值是缺失值

notnull        isnull的否定式

判断缺省值

import numpy as np

import pandas as pd

df = pd.DataFrame(np.arange(12).reshape(3,4),index=['a','b','c'],columns=['A', 'B', 'C', 'D'])

#

print(df)

#判断全部值的缺省值

d1=df.isnull()

print(d1)

#在某行中判断缺省值

d2=df[0:1].isnull()

print(d2)

#在某列中# 'A'列判断缺省值

d3=df['A'].isnull()

print(d3)

   A  B   C   D

a  0  1   2   3

b  4  5   6   7

c  8  9  10  11

       A      B      C      D

a  False  False  False  False

b  False  False  False  False

c  False  False  False  False

       A      B      C      D

a  False  False  False  False

a    False

b    False

c    False

Name: A, dtype: bool

删除缺省值

常用参数解释：

how:'all',删除全为空值的行或列

inplace=True:覆盖之前的数据

axis=0:选择行或列

import numpy as np

import pandas as pd

dict0 = {

    '语文': [90, 80, 60],

    '数学': [99, 70, 89],

    '外语': [98, 10, 75],

    '物理': 90

}

df0 = pd.DataFrame(dict0)

#

df0['数学'][1] = np.nan

#

print("df0原数据===============================")

print(df0)

print("df0.dropna()===============================")

print(df0.dropna())       #默认删除有缺省值所在的行

print("df0.dropna(axis=1)===============================")

print(df0.dropna(axis=1)) #默认删除有缺省值所在的列

print("df0.dropna(how='all',axis=1)===============================")

df0.ix[1] = np.nan

print(df0.dropna(how='all')) #当所有元素是缺省值的时候 才删除

print("df0.dropna(how='any',axis=1)===============================")

df0['外语'][0] = np.nan

print(df0.dropna(how='any')) #当所有元素有一个是缺省值的时候 才删除

   语文    数学  外语  物理

0  90  99.0  98  90

1  80   NaN  10  90

2  60  89.0  75  90

df0.dropna()===============================

   语文    数学  外语  物理

0  90  99.0  98  90

2  60  89.0  75  90

df0.dropna(axis=1)===============================

   语文  外语  物理

0  90  98  90

1  80  10  90

2  60  75  90

df0.dropna(how='all',axis=1)===============================

     语文    数学    外语    物理

0  90.0  99.0  98.0  90.0

2  60.0  89.0  75.0  90.0

填充缺失值

注意：在这里inplace会修改原始数据，并自动保存

import numpy as np

import pandas as pd

dict0 = {

    '语文': [90, 80, 60],

    '数学': [99, 70, 89],

    '外语': [98, 10, 75],

    '物理':None

}

df0 = pd.DataFrame(dict0)

print('df0的原始数据=================================')

print(df0)

print('将所有的缺省的数据填充为1=================================')

print(df0.fillna(1))#参数为填入值，可以为单个值，也可以为列表

print('将找到的缺省数据填充为平均值=================================')

print(df0.fillna(df0['语文'].mean()))#结合numpy的数学运算函数,求平均值

print(df0['物理'].fillna(df0['语文'].mean()))#结合numpy的数学运算函数,求平均值,当然pandas自己也有自己的方法

df0的原始数据=================================

   语文  数学  外语    物理

0  90  99  98  None

1  80  70  10  None

2  60  89  75  None

将所有的缺省的数据填充为1=================================

   语文  数学  外语  物理

0  90  99  98   1

1  80  70  10   1

2  60  89  75   1

将找到的缺省数据填充为平均值=================================

   语文  数学  外语         物理

0  90  99  98  76.666667

1  80  70  10  76.666667

2  60  89  75  76.666667

0    76.666667

异常值处理

异常值就是与你想要获取的值偏差太大或者不是想要的值

先用条件判断筛选出来

再进行怎样的处理看需要

数据去重

unique方法用于获取Series或DataFrame某列中的唯一值数组(去重数据后的数组)

value_counts方法用于计算一个Series或DataFrame某列中各值的出现频率

isin方法用于判断矢量化集合的成员资格,是否在里面,可用于选取Series中或DataFrame列中数据的子集
另外也可以使用replace方法进行替换

这里演示的是Series类型数据

import numpy as np

import pandas as pd

s1 = pd.Series(['a', 'b', 'c', 'b', 'a'])

print("s1的原始数据==============================")

print(s1)

#

print("数据去重方法:s1.unique()==============================")

print(s1.unique())   #注意:s1.unique()返回的类型也是Series

#

print("单个值出现的个数:s1.value_counts()['a']==============================")

print(s1.value_counts()['a'])

#

print("值是否存在的方法:s1.isin(['a', 'b'])==============================")

print(s1.isin(['a', 'b']))
#print('替换方法================================')
#print(s1[0].replace['e'])

s1的原始数据==============================

0    a

1    b

2    c

3    b

4    a

dtype: object

数据去重方法:s1.unique()==============================

['a' 'b' 'c']

单个值出现的个数:s1.value_counts()['a']==============================

2

值是否存在的方法:s1.isin(['a', 'b'])==============================

0     True

1     True

2    False

3     True

4     True

dtype: bool

pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)的更多相关文章

Android 学习笔记之如何使用SQLite数据库来保存数据...
PS:最近一阵子都在为考试复习...坑爹的计算机网络,复习了3天,最后该不会的还是不会...明天还考英语...真蛋疼... 学习内容: 1.使用SQLite数据库来保存数据... SQLite: ...
numpy学习笔记 - numpy常用函数、向量化操作及基本数学统计方法
# -*- coding: utf-8 -*-"""主要记录代码,相关说明采用注释形势,供日常总结.查阅使用,不定时更新.Created on Fri Aug 24 19 ...
Pandas高级教程之:统计方法
目录简介变动百分百 Covariance协方差 Correlation相关系数 rank等级简介数据分析中经常会用到很多统计类的方法,本文将会介绍Pandas中使用到的统计方法. 变动百分百 ...
Python学习笔记-StatsModels 统计回归（3）模型数据的准备
1.读取数据文件回归分析问题所用的数据都是保存在数据文件中的,首先就要从数据文件读取数据. 数据文件的格式很多,最常用的是 .csv,.xls 和 .txt 文件,以及 sql 数据库文件的读取 . ...
OI常用数学定理&方法总结
组合数计算($O(n)$) https://www.cnblogs.com/linzhuohang/p/11548813.html Lucas定理如果要计算很大的组合数,但模数较小,考虑这个方法对 ...
常用的图片相关方法，读取，保存，压缩，缩放，旋转，drawable转化
import android.content.Context; import android.content.res.AssetManager; import android.content.res. ...
scrapy学习笔记(三)：使用item与pipeline保存数据
scrapy下使用item才是正经方法.在item中定义需要保存的内容,然后在pipeline处理item,爬虫流程就成了这样: 抓取 --> 按item规则收集需要数据 -->使用pip ...
pandas 常用统计方法
统计方法 pandas 对象有一些统计方法.它们大部分都属于约简和汇总统计,用于从 Series 中提取单个值,或从 DataFrame 的行或列中提取一个 Series. 比如 DataFrame. ...
pandas（5）：数学统计——描述性统计
Pandas 可以对 Series 与 DataFrame 进行快速的描述性统计,方便快速了解数据的集中趋势和分布差异.源Excel文件descriptive_statistics.xlsx: 一.描 ...

随机推荐

Mac下配置多个SSH KEY访问远程Git服务
第一步生成对应的ssh key 1 后面输入你的用户名或者邮箱 2 输入一个独立的ssh key名字区别之前的名字第二步编辑 config文件在.ssh/目录下面在config文件配 ...
pygame设置text和image共同显示
下面介绍一下如何用pygame将text文本和图片一起绑定到视图部分重点用不同颜色做了标记,希望对大家有帮助代码块: %%writefile tranformtouxiang2.py import ...
java程序运存扩容
线上程序随着业务增多,运行的越来越慢,初步判定是因为内存分配的太小导致频繁的进行GC和OOM,于是着手增加内存上限. 增加内存上限都知道是修改java启动的opt,因为服务容器是tomcat 首先是在 ...
float/double 浮点数据*100精度丢失问题
工作中微信支付碰到的一个问题,金额是float数字,微信参数需要分且必须是整数,所以*100的时候就有问题了 System.out.println(9.9f*100); //989.99994Syst ...
ubuntu14.04 + cuda8.0 + cudnnv5 + caffe + py-faster-rcnn配置
经过几天的奋战终于配置好了如题所述的配置,现在把配置大体过程写下来供大家配置时参考(由于电脑硬件和系统的千差万别,实在不适合写详细的) (一切不声明配置环境的配置教程都是耍流氓) 环境: Inter集 ...
Linux mmc framework2：基本组件之block
1.前言本文主要block组件的主要流程,在介绍的过程中,将详细说明和block相关的流程,涉及到其它组件的详细流程再在相关文章中说明. 2.主要数据结构和API 2.1 struct mmc_ca ...
kafka系列一、kafka安装及部署、集群搭建
一.环境准备操作系统:Cent OS 7 Kafka版本:kafka_2.10 Kafka官网下载:请点击 JDK版本:1.8.0_171 zookeeper-3.4.10 二.kafka安装配置 ...
『转载』Matlab中fmincon函数获取乘子
Matlab中fmincon函数获取乘子一.输出结构 [x,fval,exitflag,output,lambda] = fmincon(......) 二.结构说明 lambda结构说 ...
CentOS6.5环境使用keepalived实现nginx服务的高可用性及配置详解
keepalived基础概念 Keepalived是一个基于VRRP协议来实现的WEB服务高可用方案,可以利用其来避免单点故障.一个WEB服务至少会有2台服务器运行Keepalived,一台为主 ...
利用mysqltuner工具对mysql数据库进行优化
mysqltuner工具使用,本工具建议定期运行,发现目前MYSQL数据库存在的问题及修改相关的参数工具的下载及部署解决环境依赖,因为工具是perl脚本开发的,需要perl脚本环境 # yun i ...

pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)

pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)

常用数学统计方法总结

读取或保存数据

读取数据

保存数据

缺省值和异常值处理

缺省值

判断缺省值

删除缺省值

填充缺失值

异常值处理

数据去重

pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)的更多相关文章

随机推荐

热门专题