pandas的基本功能

一、重新索引

（1）reindex方式

obj = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

print(obj)

obj.reindex(range(6), method='ffill')#使用ffill可以实现前向值填充

print(obj)

对于DataFrame，reindex只传递一个序列时，会重新索引结果的行。

 frame = pd.DataFrame(np.arange(9).reshape((3, 3)),index=['a', 'c', 'd'],columns=['Ohio', 'Texas', 'California'])

 print(frame)

 frame2 = frame.reindex(['a', 'b', 'c', 'd'])

 print(frame)

（2）对于DataFrame列，可以用columns关键字重新索引

states = ['Texas', 'Utah', 'California']

frame.reindex(columns=states)

二、丢弃指定轴上的项，drop方法

（1）Series

obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

obj.drop('c')

obj.drop(['c','d'])

（2）DataFrame

data = pd.DataFrame(np.arange(16).reshape((4, 4)),

index=['Ohio', 'Colorado', 'Utah', 'New York'],

columns=['one', 'two', 'three', 'four'])

#删除行

data.drop(['Ohio', 'Colorado'])

#删除列,通过传递axis=1或axis='columns'可以删除列的值

data.drop('two',axis=1)

data.drop(['two', 'four'], axis='columns')

obj.drop('c', inplace=True)#就地修改对象，不会返回新的对象,小心使用inplace，它会销毁所有被删除的数据。

三、索引、选取和过滤　　

#Series

obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

obj['b']

obj[1]

obj[2:4]

obj[['b', 'a', 'd']]

obj[[1, 3]]

obj[obj < 2]#过滤

obj['b':'c']#利用标签的切片运算与普通的Python切片运算不同，其末端是包含的

obj['b':'c'] = 5#用切片可以对Series的相应部分进行设置

#DataFrame

data = pd.DataFrame(np.arange(16).reshape((4, 4)),

index=['Ohio', 'Colorado', 'Utah', 'New York'],

columns=['one', 'two', 'three', 'four'])

data['two']

data.two

data[['three', 'one']]

data[:2]

data[data['three'] > 5]

四、用loc和iloc进行选取

data.loc['Colorado', ['two', 'three']]

data.iloc[2, [3, 0, 1]]

data.loc[:'Utah', 'two']

data.iloc[:, :3][data.three > 5]

五、算术运算和数据对齐

#Series

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

s1+s2#重叠索引处进行算术运算，不重叠的索引处引入了NA值。

#DataFrame

df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),index=['Ohio', 'Texas', 'Colorado'])

df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])

df1+df2#行和列索引都相同时进行相应的算术运算，任何一个不一样时就会引入缺失值

#在算术方法中填充值

df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),columns=list('abcd'))

df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),columns=list('abcde'))

df2.loc[1, 'b'] = np.nan

df1.add(df2,fill_values=0)#用0填充df1和df2的缺失值，然后再进行算术运算，结果中将不存在缺失值。

#下边两行代码是等价的，r会翻转参数。

1 / df1

df1.rdiv(1)

六、DataFrame和Series之间的运算

frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])

series = frame.iloc[0]

frame - series#DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列，然后沿着行一直向下广播

series2 = pd.Series(range(3), index=['b', 'e', 'f'])

frame + series2#如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集

#如果你希望匹配行且在列上广播，则必须使用算术运算方法。

series3 = frame['d']

frame.sub(series3, axis='index')

七、排序和排名

#sort_index():按obj的索引排序,默认升序，降序可在括号加ascending=False

obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

obj.sort_index()

frame = pd.DataFrame(np.arange(8).reshape((2, 4)),index=['three', 'one'],columns=['d', 'a', 'b', 'c'])

frame.sort_index()

frame.sort_index(axis=1)

frame.sort_index(axis=1, ascending=False)

#sort_values():按值进行排序

obj = pd.Series([4, 7, -3, 2])

obj.sort_values()#在排序时，任何缺失值默认都会被放到Series的末尾

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

frame.sort_values(by='b')

#rank():结果为个位置的排名值

obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

obj.rank()

obj.rank(method='first')#根据值在原数据中出现的顺序给出排名

frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})

frame.rank(axis='columns')

八、汇总和计算描述统计

Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。与此类似，cov用于计算协方差。

obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

uniques = obj.unique()#得到Series中的唯一值数组

obj.value_counts()#计算Series中各值出现的频率

pandas的基本功能的更多相关文章

pandas的基本功能(一)
第16天pandas的基本功能(一) 灵活的二进制操作体现在2个方面支持一维和二维之间的广播支持缺失值数据处理四则运算支持广播 +add - sub *mul /div divmod()分区和 ...
pandas的筛选功能，跟excel的筛选功能类似，但是功能更强大。
Select rows from a DataFrame based on values in a column -pandas 筛选 https://stackoverflow.com/questi ...
（数据科学学习手札134）pyjanitor：为pandas补充更多功能
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 pandas发展了如此多年,所包含的功能已 ...
python数据分析之Pandas：基本功能介绍
Pandas有两个主要的数据结构:Series和DataFrame． Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签构成．来看下它的使用过程 In [1]: from ...
Pandas常用基本功能
Series 和 DataFrame还未构建完成的朋友可以参考我的上一篇博文:https://www.cnblogs.com/zry-yt/p/11794941.html 当我们构建好了 Series ...
Pandas | 21 日期功能
日期功能扩展了时间序列,在财务数据分析中起主要作用.在处理日期数据的同时,我们经常会遇到以下情况 - 生成日期序列将日期序列转换为不同的频率创建一个日期范围通过指定周期和频率,使用date.ra ...
Pandas | 05 基本功能
到目前为止,我们了解了三种Pandas数据结构以及如何创建它们.接下来将主要关注数据帧(DataFrame)对象,因为它在实时数据处理中非常重要,并且还讨论其他数据结构. 一.系列基本功能编号属性 ...
pandas replace 替换功能function
list like replace method dict like replace method regex expression import pandas as pd import numpy ...
3.1,pandas【基本功能】
一:改变索引 reindex方法对于Series直接索引,对于DataFrame既可以改变行索引,也可以改变列索引,还可以两个一起改变. 1)对于Series In [2]: seri = pd.Se ...

随机推荐

LeetCode 2. 两数相加（Add Two Numbers）
题目描述给定两个非空链表来表示两个非负整数.位数按照逆序方式存储,它们的每个节点只存储单个数字.将两数相加返回一个新的链表. 你可以假设除了数字 0 之外,这两个数字都不会以零开头. 示例: 输入: ...
winform Timer控件的使用
private void button1_Click(object sender, EventArgs e){ Timer timer1 = new Timer(); timer1.Interval ...
[论文理解] Learning Efficient Convolutional Networks through Network Slimming
Learning Efficient Convolutional Networks through Network Slimming 简介这是我看的第一篇模型压缩方面的论文,应该也算比较出名的一篇吧 ...
golang 使用reflect反射结构体
"反射结构体"是指在程序执行时,遍历结构体中的字段以及方法. 1.反射结构体下面使用一个简单的例子说明如何反射结构体. 定义一个结构体,包括3个字段,以及一个方法. 通过refl ...
leetcode 118. Pascal's Triangle 、119. Pascal's Triangle II 、120. Triangle
118. Pascal's Triangle 第一种解法:比较麻烦 https://leetcode.com/problems/pascals-triangle/discuss/166279/cpp- ...
GIS开源程序收集
每一个项目包含以下信息: 名称主题分类描述开始时间语言许可演示网址项目网址成熟度活跃度评价分类包括:GIS基础函数库.GIS控件.GIS桌面程序.GIS数据引擎.WEBGI ...
harbor扩容
1.参照文档 https://k8s.abcdocker.com/kubernetes_harbor.html 2.设置连接 ln到其他文件目录下
XMLHttpRequest 对象相关
XMLHttpRequest 对象用于在后台与服务器交换数据. 后台 package com.java1234.web; import java.io.IOException; import java ...
Salesforce学习之路-developer篇（五）一文读懂Aura原理及实战案例分析
1. 什么是Lightning Component框架? Lightning Component框架是一个UI框架,用于为移动和台式设备开发Web应用程序.这是一个单页面Web应用框架,用于为Ligh ...
cocos2dx[3.2](6) 节点类Node
与2.x相比,节点类Node的属性和功能做了大幅度的修改与增加. Node类是绝大部分类的父类(并不是所有的类,例如Director类是直接继承Ref类的),如Scene.Layer.Sprite以及 ...

pandas的基本功能

pandas的基本功能的更多相关文章

随机推荐

热门专题