pandas基础(3)_数据处理
1:删除重复数据
使用duplicate()函数检测重复的行,返回元素为bool类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为true
>>> df =DataFrame(np.random.randint(0,150,size=(6,3)),columns=['Chinese','maths','Chinese'],index=['zhangsan','lisi','wangwu','lisi','xiaowu','zhangsan'])
>>> df
Chinese maths Chinese
zhangsan 17 58 70
lisi 88 20 137
wangwu 130 29 57
lisi 71 20 65
xiaowu 133 60 6
zhangsan 96 48 60
>>> df.duplicated()
zhangsan False
lisi False
wangwu False
lisi False
xiaowu False
zhangsan False
dtype: bool
>>> df =DataFrame(np.random.randint(0,2,size=(6,2)),columns=['Chinese','maths'],index=['zhangsan','lisi','wangwu','lisi','xiaowu','zhangsan'])
>>> df
Chinese maths
zhangsan 1 1
lisi 1 0
wangwu 0 0
lisi 1 0
xiaowu 1 1
zhangsan 0 0
>>> df.duplicated ()
zhangsan False
lisi False
wangwu False
lisi True
xiaowu True
zhangsan True
dtype: bool
>>> #如果出现的数据一样,则会返回true
>>> #调用drop_duplicates()可以删除重复的数据
>>> df.drop_duplicates ()
Chinese maths
zhangsan 1 1
lisi 1 0
wangwu 0 0
>>> #删除的是行
>>> #rename()函数替换索引
>>> #map():新建一列
>>> #replace()替换元素
2:异常值检测和过滤
>>> #使用describe()函数查看每一列的描述统计量
>>> df =DataFrame(np.random.randint(0,150,size=(6,2)),columns=['Chinese','maths'],index=[list('ABCDEF')])
>>> df
Chinese maths
A 119 25
B 28 33
C 10 134
D 44 121
E 44 119
F 91 46
>>> df.describe ()
Chinese maths
count 6.000000 6.000000
mean 56.000000 79.666667#平均值
std 40.943864 50.014665
min 10.000000 25.000000
25% 32.000000 36.250000
50% 44.000000 82.500000
75% 79.250000 120.500000
max 119.000000 134.000000
>>> #std是标准方差
>>> df.std ()
Chinese 40.943864
maths 50.014665
dtype: float64
>>> df.std(axis=1)
A 66.468037
B 3.535534
C 87.681241
D 54.447222
E 53.033009
F 31.819805
dtype: float64
>>> #每个人的标准差
>>> np.abs(df)>df.std()*2
Chinese maths
A True False
B False False
C False True
D False True
E False True
F True False
>>> #当某个方差大于标准方差的2倍时认为这两个数特殊,返回true,这时筛选出来
>>> df.any(axis=1)
A True
B True
C True
D True
E True
F True
dtype: bool
>>> df2=np.abs(df)>df.std()*2
>>> df3=df2.any(axis=1)
>>> df[df3]
Chinese maths
A 119 25
C 10 134
D 44 121
E 44 119
F 91 46
>>> df2=np.abs(df)>df.std()*2
>>> df2
Chinese maths
A True False
B False False
C False True
D False True
E False True
F True False
>>> df2.any()
Chinese True
maths True
dtype: bool
>>> df2.all()
Chinese False
maths False
dtype: bool
>>> df3=df2.any(axis=1)
>>> df3
A True
B False
C True
D True
E True
F True
dtype: bool
>>> df[df3]
Chinese maths
A 119 25
C 10 134
D 44 121
E 44 119
F 91 46
3:随机排序
>>> x=np.random.permutation (6)
>>> x
array([4, 5, 1, 0, 3, 2])
>>> df.take(x)
Chinese maths
E 44 119
F 91 46
B 28 33
A 119 25
D 44 121
C 10 134
>>> #使用take(函数排序,可以借助np.random.pemutation()函数随机排序,可以用来随机抽样
4:数据聚合
>>> #通常是每一个数组生成一个具体的值
>>> #1分组 2用函数处理 3合并
>>> #核心函数groupby()
>>> df = DataFrame({'item':['apple','banana','orange','banana','orange','apple'],'price':[4,3,3,2.5,4,2],'color':['red','yellow','yellow','green','green','green']})
>>> df
color item price
0 red apple 4.0
1 yellow banana 3.0
2 yellow orange 3.0
3 green banana 2.5
4 green orange 4.0
5 green apple 2.0
>>> df.groupby('item')
<pandas.core.groupby.DataFrameGroupBy object at 0x000000000E8EE240>
>>> g=df.groupby('item')
>>> g
<pandas.core.groupby.DataFrameGroupBy object at 0x000000000E76A828>
>>> g.groups
{'orange': Int64Index([2, 4], dtype='int64'), 'apple': Int64Index([0, 5], dtype='int64'), 'banana': Int64Index([1, 3], dtype='int64')}
>>> #分组
>>> g['price'].mean ()
item
apple 3.00
banana 2.75
orange 3.50
Name: price, dtype: float64
>>> m=g['price'].mean ()
>>> type(m)
<class 'pandas.core.series.Series'>
>>> df_mean=DataFrame(m)
>>> df_mean
price
item
apple 3.00
banana 2.75
orange 3.50
>>> pd.merge(df,df_mean,left_on='item',right_index=True)
color item price_x price_y
0 red apple 4.0 3.00
5 green apple 2.0 3.00
1 yellow banana 3.0 2.75
3 green banana 2.5 2.75
2 yellow orange 3.0 3.50
4 green orange 4.0 3.50
>>> #以多个属性进行分组
>>> df.groupby(['color','item']).sum()
price
color item
green apple 2.0
banana 2.5
orange 4.0
red apple 4.0
yellow banana 3.0
orange 3.0
>>> #最终变成了多重索引结构
pandas基础(3)_数据处理的更多相关文章
- pandas基础(2)_多重索引
1:多重索引的构造 >>> #下面显示构造pd.MultiIndex >>> df1=DataFrame(np.random.randint(0,150,size= ...
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
- python学习_数据处理编程实例(二)
在上一节python学习_数据处理编程实例(二)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年 ...
- Pandas基础学习与Spark Python初探
摘要:pandas是一个强大的Python数据分析工具包,pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域 ...
- 利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
- 利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
- 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引 针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
- numpy&pandas基础
numpy基础 import numpy as np 定义array In [156]: np.ones(3) Out[156]: array([1., 1., 1.]) In [157]: np.o ...
- C#_02.16_基础七_.NET表达式&运算符
C#_02.16_基础七_.NET表达式&运算符 一.字面量: 字面量和变量的关系来理解字面量会比较简单: 因此字面量是源代码中键入已知的(我们知道它是多少的)值.也可以理解是等号右边的非创建 ...
随机推荐
- Hadoop实战-Flume之Sink Failover(十六)
a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...
- SAP-财务知识点
[转自 http://blog.itpub.net/195776/viewspace-1023912/] SAP FI/CO Reading RepositorySAP财务成本知识库 目 录前言.一. ...
- Flask中的内置session
Flask中的Session非常的奇怪,他会将你的SessionID存放在客户端的Cookie中,使用起来也非常的奇怪 1. Flask 中 session 是需要 secret_key 的 from ...
- rocketmq安装
1 安装Rocketmq https://my.oschina.net/daijunjian/blog/732560 2 可视化管理控台 http://blog.csdn.net/jayjjb/art ...
- STL容器元素应满足的条件
要使用C++中的标准模板库中的容器,其元素要满足以下三个条件: 元素必须可以通过copy构造函数进行复制,且二者进行相等测试返回true. 元素必须可以通过赋值操作符完成赋值操作. 元素必须可以通过析 ...
- JS事件派发器EventEmitter
原文地址:http://zhangyiheng.com/blog/articles/js_event_mitter.html 需求 随着Browser客户端JS越来越复杂,MVC(Client端)设计 ...
- NASNet学习笔记—— 核心一:延续NAS论文的核心机制使得能够自动产生网络结构; 核心二:采用resnet和Inception重复使用block结构思想; 核心三:利用迁移学习将生成的网络迁移到大数据集上提出一个new search space。
from:https://blog.csdn.net/xjz18298268521/article/details/79079008 NASNet总结 论文:<Learning Transfer ...
- NO0:重新拾起C语言
因工作所需,重新捡起C语言,之前在学校里有接触过,但现在已经忘的一干二净了,现决定重新开始学习,为工作,为生活. 以<标准 C程序设计 第5版>的课程进行基础学习,同时以另外两本书为辅助, ...
- MySQL如何计算动销率_20161025
动销率一般反映在采购管理上,它的公式为:商品动销率=(动销品种数 /仓库总品种数)*100% . 也可以理解为销售的商品数量和仓库库存的商品数量,假如你仓库里有100个品种,在上月销售了50种,动销率 ...
- UVA1389 Hard Life[二分答案+最小割]
我真菜啊←地址 求最大密度子图方案.密度=边数/点数 假设E,V为最大密度子图的边数点数.则$\forall \rho$有$\rho \leqslant \frac{E}{V}$即$E- \rho V ...