Python之Pandas库学习(三):数据处理
1. 合并
可以将其理解为SQL中的JOIN操作,使用一个或多个键把多行数据结合在一起。
1.1. 简单合并
参数on表示合并依据的列,参数how表示用什么方式操作(默认是内连接)。
>>> frame1 = pd.DataFrame( {'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'], 'color':['white', 'red', 'red', 'black', 'green'], 'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']} )
>>> frame1
brand color id
0 OMG white ball
1 ABC red pencil
2 ABC red pen
3 POD black mug
4 POD green ashtray
>>> frame2 = pd.DataFrame( {'id':['pencil', 'pencil', 'ball', 'pen'], 'brand':['OMG', 'POD', 'ABC', 'POD']} )
>>> frame2
brand id
0 OMG pencil
1 POD pencil
2 ABC ball
3 POD pen
>>> frame2.columns = ['brand', 'nid']
可以指定左边用哪一列合并,右边用哪一列合并
>>> pd.merge(frame1, frame2, left_on='id', right_on='nid')
brand_x color id brand_y nid
0 OMG white ball ABC ball
1 ABC red pencil OMG pencil
2 ABC red pencil POD pencil
3 ABC red pen POD pen
根据多个列进行,并且以外连接方式合并
>>> frame2.columns = ['brand', 'id']
>>> pd.merge(frame1, frame2, on=['id', 'brand'], how='outer')
brand color id
0 OMG white ball
1 ABC red pencil
2 ABC red pen
3 POD black mug
4 POD green ashtray
5 OMG NaN pencil
6 POD NaN pencil
7 ABC NaN ball
8 POD NaN pen
1.2. 根据索引合并
将left_index和right_index设为True
>>> pd.merge(frame1, frame2, right_index=True, left_index=True)
brand_x color id_x brand_y id_y
0 OMG white ball OMG pencil
1 ABC red pencil POD pencil
2 ABC red pen ABC ball
3 POD black mug POD pen
使用DataFrame()对象的join()函数进行合并,注意不能有重复的列名
>>> frame2.columns=['brand2', 'id2']
>>> frame1.join(frame2)
brand color id brand2 id2
0 OMG white ball OMG pencil
1 ABC red pencil POD pencil
2 ABC red pen ABC ball
3 POD black mug POD pen
4 POD green ashtray NaN NaN
2. 拼接
2.1. NumPy的concatenate()函数
>>> array1 = np.arange(9).reshape((3,3))
>>> array2 = np.arange(9).reshape((3,3))+3
>>> array1
array([[0, 1, 2],
[3, 4, 5],
[6, 7, 8]])
>>> array2
array([[ 3, 4, 5],
[ 6, 7, 8],
[ 9, 10, 11]])
>>> np.concatenate([array1,array2])
array([[ 0, 1, 2],
[ 3, 4, 5],
[ 6, 7, 8],
[ 3, 4, 5],
[ 6, 7, 8],
[ 9, 10, 11]])
>>> np.concatenate([array1,array2], axis = 1)
array([[ 0, 1, 2, 3, 4, 5],
[ 3, 4, 5, 6, 7, 8],
[ 6, 7, 8, 9, 10, 11]])
2.2. Pandas的concat()函数
>>> ser1
1 0.105168
2 0.344241
3 0.798570
4 0.648794
dtype: float64
>>> ser2
5 0.161205
6 0.427794
7 0.813935
8 0.742369
dtype: float64
>>> pd.concat([ser1, ser2])
1 0.105168
2 0.344241
3 0.798570
4 0.648794
5 0.161205
6 0.427794
7 0.813935
8 0.742369
dtype: float64
>>> pd.concat([ser1, ser2], axis = 1)
0 1
1 0.105168 NaN
2 0.344241 NaN
3 0.798570 NaN
4 0.648794 NaN
5 NaN 0.161205
6 NaN 0.427794
7 NaN 0.813935
8 NaN 0.742369
由上面可以看出concat()默认选项是外连接.
指定为内连接
>>> ser3 = pd.Series(np.random.rand(4), index = [1,2,3,4])
>>> ser3
1 0.599582
2 0.123096
3 0.870401
4 0.635363
dtype: float64
>>> pd.concat([ser1, ser3], axis = 1, join = 'inner')
0 1
1 0.105168 0.599582
2 0.344241 0.123096
3 0.798570 0.870401
4 0.648794 0.635363
可以用keys参数可以创建等级索引,对列进行合并的话,keys会变成列名
>>> pd.concat([ser1, ser2], keys=['fir','sec'])
fir 1 0.105168
2 0.344241
3 0.798570
4 0.648794
sec 5 0.161205
6 0.427794
7 0.813935
8 0.742369
dtype: float64
>>> pd.concat([ser1, ser2], axis=1, keys=['fir','sec'])
fir sec
1 0.105168 NaN
2 0.344241 NaN
3 0.798570 NaN
4 0.648794 NaN
5 NaN 0.161205
6 NaN 0.427794
7 NaN 0.813935
8 NaN 0.742369
3. 组合
使用combine_first()函数。
>>> ser1 = pd.Series(np.random.rand(5), index = [1,2,3,4,5])
>>> ser2 = pd.Series(np.random.rand(5), index = [1,3,5,7,9])
>>> ser1
1 0.426299
2 0.732439
3 0.951809
4 0.955885
5 0.183026
dtype: float64
>>> ser2
1 0.981828
3 0.162136
5 0.364654
7 0.607903
9 0.345988
dtype: float64
>>> ser1.combine_first(ser2)
1 0.426299
2 0.732439
3 0.951809
4 0.955885
5 0.183026
7 0.607903
9 0.345988
dtype: float64
>>> ser2.combine_first(ser1)
1 0.981828
2 0.732439
3 0.162136
4 0.955885
5 0.364654
7 0.607903
9 0.345988
dtype: float64
部分合并使用切片
>>> ser1[:4].combine_first(ser2[:4])
1 0.426299
2 0.732439
3 0.951809
4 0.955885
5 0.364654
7 0.607903
dtype: float64
4. 轴向旋转
4.1. 按等级索引旋转
stack():把列转换成行。
unstack():把行转换成列。
>>> frame1 = pd.DataFrame(np.arange(9).reshape(3,3), index=['white', 'black', 'red'], columns=['ball', 'pen', 'pencil'])
>>> frame1
ball pen pencil
white 0 1 2
black 3 4 5
red 6 7 8
>>> ser = frame1.stack()
>>> ser
white ball 0
pen 1
pencil 2
black ball 3
pen 4
pencil 5
red ball 6
pen 7
pencil 8
dtype: int32
>>> ser = frame1.unstack()
>>> ser
ball white 0
black 3
red 6
pen white 1
black 4
red 7
pencil white 2
black 5
red 8
dtype: int32
>>> ser.unstack(0)
ball pen pencil
white 0 1 2
black 3 4 5
red 6 7 8
>>> ser.unstack(1)
white black red
ball 0 3 6
pen 1 4 7
pencil 2 5 8
参数表示对第几层进行操作
4.2. 从"长"向"宽"旋转
有时候一类数据集各列都有数据项,每一列后面的数据和前面有重复,这类数据常为列表形式,将其称为长格式或栈格式。还有一种宽格式,可读性强,存储数据效率更高。因此有时候需要转换。
>>> longframe = pd.DataFrame( {'color':['white', 'white', 'white', 'red', 'red', 'red', 'black', 'black', 'black'], 'item':['ball','pen','mug','ball','pen','mug','ball','pen','mug'],'value':np.random.rand(9)} )
>>> longframe
color item value
0 white ball 0.657363
1 white pen 0.209334
2 white mug 0.878001
3 red ball 0.674560
4 red pen 0.278861
5 red mug 0.393061
6 black ball 0.956869
7 black pen 0.217121
8 black mug 0.611301
>>> wideframe = longframe.pivot('color', 'item')
>>> wideframe
value
item ball mug pen
color
black 0.956869 0.611301 0.217121
red 0.674560 0.393061 0.278861
white 0.657363 0.878001 0.209334
>>> longframe = pd.DataFrame( {'color':['white', 'white', 'white', 'red', 'red', 'red', 'black', 'black', 'black'], 'item':['ball','pen','mug','ball','pen','mug','ball','pen','mug'],'value':np.random.rand(9), 'game':np.arange(9)} )
>>> wideframe = longframe.pivot('color', 'item')
>>> wideframe
game value
item ball mug pen ball mug pen
color
black 6 8 7 0.122732 0.820089 0.505179
red 3 5 4 0.314163 0.964050 0.670957
white 0 2 1 0.219532 0.665007 0.833881
使用pivot()函数指定两个键,第一个参数的列变成索引名,第二个参数的列变成列名。这样数据的可读性就很高了。
5. 数据转换
5.1. 删除重复元素
使用duplicated()可以获取哪些是重复的,使用drop_duplicates()能够删除重复元素。
>>> frame = pd.DataFrame({'color':['white', 'white', 'red', 'red', 'white'], 'value':[1,2,3,3,2]})
>>> frame
color value
0 white 1
1 white 2
2 red 3
3 red 3
4 white 2
>>> frame.duplicated()
0 False
1 False
2 False
3 True
4 True
dtype: bool
>>> frame[frame.duplicated()]
color value
3 red 3
4 white 2
>>> frame.drop_duplicates()
color value
0 white 1
1 white 2
2 red 3
5.2. 映射
5.2.1. 替换元素replace()
使用replace()可以替换元素。可以传入一个字典,键为旧元素,值为新元素。
>>> frame
color value
0 white 1
1 white 2
2 red 3
3 red 3
4 white 2
>>> mp = {'white': 'black', 'red': 'yellow'}
>>> frame.replace(mp)
color value
0 black 1
1 black 2
2 yellow 3
3 yellow 3
4 black 2
>>> frame.replace('white', 'black')
color value
0 black 1
1 black 2
2 red 3
3 red 3
4 black 2
5.2.2. 添加元素map()
使用map()可以从另外一个数据结构获取元素并将其添加到目标数据结构的列中。
>>> frame
color value
0 white 1
1 white 2
2 red 3
3 red 3
4 white 2
>>> dic = {'white':'pure', 'red':'ignite'}
>>> frame['live'] = frame['color'].map(dic)
>>> frame
color value live
0 white 1 pure
1 white 2 pure
2 red 3 ignite
3 red 3 ignite
4 white 2 pure
5.2.3. 重命名轴索引rename()
使用rename()转换轴标签。
>>> frame
color value live
0 white 1 pure
1 white 2 pure
2 red 3 ignite
3 red 3 ignite
4 white 2 pure
>>> newindex = {0:'zero', 3:'three'}
>>> newcolumns = {'color':'col', 'value':'val'}
>>> frame.rename(index = newindex, columns = newcolumns)
col val live
zero white 1 pure
1 white 2 pure
2 red 3 ignite
three red 3 ignite
4 white 2 pure
# 如果要将原来的frame替换掉,设置inplace参数为True
>>> frame.rename(index = newindex, columns = newcolumns, inplace = True)
>>> frame
col val live
zero white 1 pure
1 white 2 pure
2 red 3 ignite
three red 3 ignite
4 white 2 pure
6. 离散化和面元划分
6.1. cut()
cut()函数可以将一个数组中的数据切分成几个部分。
将数据分为几个部分,就称为几个面元。
cut(数据数组,面元数组)
>>> array = [3, 60, 43, 100, 52, 36, 37, 0, 80, 1000] # 数组
>>> bins = [0, 25, 50, 75, 100] # 切割成什么
>>> cat = pd.cut(array, bins)
>>> cat # cat是一个Categorical(类别型)类型
[(0, 25], (50, 75], (25, 50], (75, 100], (50, 75], (25, 50], (25, 50], NaN, (75, 100], NaN]
Categories (4, interval[int64]): [(0, 25] < (25, 50] < (50, 75] < (75, 100]]
>>> cat.codes # 数组原来的元素数据第几个面元
array([ 0, 2, 1, 3, 2, 1, 1, -1, 3, -1], dtype=int8)
>>> pd.value_counts(cat) # 每个面元有多少个元素
(25, 50] 3
(75, 100] 2
(50, 75] 2
(0, 25] 1
dtype: int64
还可以不指定面元的界限,直接传入一个整数参数,cut()会按照指定的数字,将元素划分为相应的几部分。
>>> pd.cut(array, 5)
[(-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (800.0, 1000.0]]
Categories (5, interval[float64]): [(-1.0, 200.0] < (200.0, 400.0] < (400.0, 600.0] < (600.0, 800.0] < (800.0, 1000.0]]
6.2. qcut()
cut()函数划分得到的面元,每个面元的数量不同。而qcut()可以保证每个面元的数量相同,且每个面元的区间大小不等。
>>> pd.qcut(array, 5)
[(-0.001, 29.4], (55.2, 84.0], (40.6, 55.2], (84.0, 1000.0], (40.6, 55.2], (29.4, 40.6], (29.4, 40.6], (-0.001, 29.4], (55.2, 84.0], (84.0, 1000.0]]
Categories (5, interval[float64]): [(-0.001, 29.4] < (29.4, 40.6] < (40.6, 55.2] < (55.2, 84.0] < (84.0, 1000.0]]
>>> cat = pd.qcut(array, 5)
>>> pd.value_counts(cat)
(84.0, 1000.0] 2
(55.2, 84.0] 2
(40.6, 55.2] 2
(29.4, 40.6] 2
(-0.001, 29.4] 2
dtype: int64
6.3. 异常值检测和过滤
使用any()函数可以对每一列应用筛选条件。
>>> frame = pd.DataFrame(np.random.randn(10, 3))
>>> frame
0 1 2
0 -0.466623 -0.180515 -1.632522
1 0.928587 1.478555 -1.170217
2 1.366825 -0.266165 0.307137
3 1.811664 0.155917 -1.847898
4 -0.451448 1.668134 -0.584497
5 -0.819943 -0.028708 1.119363
6 0.039233 -0.316006 -1.232731
7 -2.721860 0.369594 0.482038
8 -0.320213 -0.456954 1.305954
9 -0.159289 -1.138182 0.452671
>>> frame.describe()
0 1 2
count 10.000000 10.000000 10.000000
mean -0.079307 0.128567 -0.280070
std 1.272859 0.861058 1.155481
min -2.721860 -1.138182 -1.847898
25% -0.462829 -0.303546 -1.217102
50% -0.239751 -0.104611 -0.138680
75% 0.706248 0.316174 0.474696
max 1.811664 1.668134 1.305954
>>> (np.abs(frame) > frame.std())
0 1 2
0 False False True
1 False True True
2 True False False
3 True False True
4 False True False
5 False False False
6 False False True
7 True False False
8 False False True
9 False True False
>>> (np.abs(frame) > frame.std()).any(0) # 参数0和参数1分别是axis参数的值
0 True
1 True
2 True
>>> (np.abs(frame) > frame.std()).any(1)
0 True
1 True
2 True
3 True
4 True
5 False
6 True
7 True
8 True
9 True
dtype: bool
>>> frame[(np.abs(frame) > frame.std()).any(1)] # 第五行被筛选掉了
0 1 2
0 -0.466623 -0.180515 -1.632522
1 0.928587 1.478555 -1.170217
2 1.366825 -0.266165 0.307137
3 1.811664 0.155917 -1.847898
4 -0.451448 1.668134 -0.584497
6 0.039233 -0.316006 -1.232731
7 -2.721860 0.369594 0.482038
8 -0.320213 -0.456954 1.305954
9 -0.159289 -1.138182 0.452671
7. 排序
使用permutation()函数可以创建一个随机顺序的数组。
使用take()函数可以采用新的索引次序。
>>> frame = pd.DataFrame(np.arange(25).reshape(5,5))
>>> frame
0 1 2 3 4
0 0 1 2 3 4
1 5 6 7 8 9
2 10 11 12 13 14
3 15 16 17 18 19
4 20 21 22 23 24
>>> order = np.random.permutation(5)
>>> order
array([2, 4, 1, 0, 3])
>>> frame.take(order)
0 1 2 3 4
2 10 11 12 13 14
4 20 21 22 23 24
1 5 6 7 8 9
0 0 1 2 3 4
3 15 16 17 18 19
# 对部分操作
>>> frame.take([3, 4, 1])
0 1 2 3 4
3 15 16 17 18 19
4 20 21 22 23 24
1 5 6 7 8 9
随机取样
>>> len(frame) # frame的行数
5
>>> sample = np.random.randint(0, len(frame), size = 2) # 分别是取值下限,取值上限,和取值的个数
>>> sample
array([1, 1])
>>> frame.take(sample)
0 1 2 3 4
1 5 6 7 8 9
1 5 6 7 8 9
8. 字符串处理
join()
'拼接字符'.join(string数组)
>>> strings = ['a', 'b', 'd', 'e', 'F']
>>> strings
['a', 'b', 'd', 'e', 'F']
>>> ';'.join(strings)
'a;b;d;e;F'
split() 和 strip()
string.split('切割字符')
string.strip() 去掉多余的空白字符(包括换行)
>>> string = '233 , 546'
>>> string
'233 , \t546'
>>> string.split(',')
['233 ', ' \t546']
>>> for s in string.split(','):
... print(s.strip())
...
233
546
find(s) 和 count(s) 和 replace(s1, s2)
分别是找到子串的下标,子串出现了多少次,将s1替换为s2.
正则表达式
9. 数据聚合
GroupBy 内部机制:SPLIT-APPLY-COMBINE(分组-用函数处理-合并结果)。
group[list1].groupby(list2)
list1表示要处理的数据的列名,list2表示根据哪些键(列名)处理。
>>> frame = pd.DataFrame( {'color': ['red', 'white', 'red', 'green', 'white'], 'object': ['pen', 'pencil', 'mug', 'ruler', 'pen'], 'price': [2, 3, 4, 1, 100]} )
>>> frame
color object price
0 red pen 2
1 white pencil 3
2 red mug 4
3 green ruler 1
4 white pen 100
>>> group = frame['price'].groupby(frame['color']) # 得到一个GroupBy对象
>>> group.groups
{'red': Int64Index([0, 2], dtype='int64'), 'green': Int64Index([3], dtype='int64'), 'white': Int64Index([1, 4], dtype='int64')}
>>> group.mean()
color
green 1.0
red 3.0
white 51.5
Name: price, dtype: float64
>>> group.sum()
color
green 1
red 6
white 103
Name: price, dtype: int64
agg()函数
还可以对组使用自定义函数,只需要使用agg(函数名)就行了。
>>> group = frame.groupby(frame['color'])
>>> def fun(series):
... return series.max() - series.min()
...
>>> group['price'].agg(fun)
color
green 0
red 2
white 97
Name: price, dtype: int64
- transfrom()函数
>>> frame = pd.DataFrame( {'color':['white', 'red', 'green', 'white', 'green'], 'val1':[5,6,7,8,9], 'val2':[15,16,17,18,19]} )
>>> frame
color val1 val2
0 white 5 15
1 red 6 16
2 green 7 17
3 white 8 18
4 green 9 19
>>> frame.groupby('color').transform(np.sum) # 函数必须是一个聚合函数
val1 val2
0 13 33
1 6 16
2 16 36
3 13 33
4 16 36
apply()函数
将键值分类再处理。
>>> frame['status'] = ['up', 'down', 'up', 'down', 'down']
>>> frame
color val1 val2 status
0 white 5 15 up
1 red 6 16 down
2 green 7 17 up
3 white 8 18 down
4 green 9 19 down
>>> frame.groupby(['color', 'status']).apply(lambda x: x.max())
color val1 val2 status
color status
green down green 9 19 down
up green 7 17 up
red down red 6 16 down
white down white 8 18 down
up white 5 15 up
Python之Pandas库学习(三):数据处理的更多相关文章
- Python之Pandas库学习(二):数据读写
1. I/O API工具 读取函数 写入函数 read_csv to_csv read_excel to_excel read_hdf to_hdf read_sql to_sql read_json ...
- Python之Pandas库学习(一):简介
官方文档 1. 安装Pandas windos下cmd:pip install pandas 导入pandas包:import pandas as pd 2. Series对象 带索引的一维数组 创建 ...
- python的pandas库学习笔记
导入: import pandas as pd from pandas import Series,DataFrame 1.两个主要数据结构:Series和DataFrame (1)Series是一种 ...
- Struts2框架学习(三) 数据处理
Struts2框架学习(三) 数据处理 Struts2框架框架使用OGNL语言和值栈技术实现数据的流转处理. 值栈就相当于一个容器,用来存放数据,而OGNL是一种快速查询数据的语言. 值栈:Value ...
- Python之Pandas库常用函数大全(含注释)
前言:本博文摘抄自中国慕课大学上的课程<Python数据分析与展示>,推荐刚入门的同学去学习,这是非常好的入门视频. 继续一个新的库,Pandas库.Pandas库围绕Series类型和D ...
- pandas库学习笔记(二)DataFrame入门学习
Pandas基本介绍——DataFrame入门学习 前篇文章中,小生初步介绍pandas库中的Series结构的创建与运算,今天小生继续“死磕自己”为大家介绍pandas库的另一种最为常见的数据结构D ...
- python爬虫解析库学习
一.xpath库使用: 1.基本规则: 2.将文件转为HTML对象: html = etree.parse('./test.html', etree.HTMLParser()) result = et ...
- Python的Pandas库简述
pandas 是 python 的数据分析处理库import pandas as pd 1.读取CSV.TXT文件 foodinfo = pd.read_csv("pandas_study. ...
- Python之matplotlib库学习:实现数据可视化
1. 安装和文档 pip install matplotlib 官方文档 为了方便显示图像,还使用了ipython qtconsole方便显示.具体怎么弄网上搜一下就很多教程了. pyplot模块是提 ...
随机推荐
- Swift 中使用 SwiftyJSON 制作一个比特币价格 APP
Swift 中处理 JSON 数据有很多种方式,可以使用原生的 NSJSONSerialization,也可以使用很多第三方库.原生的 NSJSONSerialization 方式这篇文章中介绍过.这 ...
- 【C#/WPF】调节图像的HSL(色相、饱和度、明亮度)
原文:[C#/WPF]调节图像的HSL(色相.饱和度.明亮度) 先说概念: HSL是一种描述颜色的方式(其他颜色描述方式还有大家熟悉的RGB值).HSL三个字母分别表示图像的Hue色相.Saturat ...
- WPF- 模拟触发Touch Events
原文:WPF- 模拟触发Touch Events 基于API: [DllImport("User32.dll")] public static extern bool Initia ...
- Emgu-WPF 激光雷达研究-定位实现
原文:Emgu-WPF 激光雷达研究-定位实现 特定位置或障碍物位置定位实现. 读取激光雷达数据并存储于本地作为测试数据.每一帧数据对同一障碍物的定位信息均存在偏差.所以先对需要定位的点进行数据取样. ...
- 备份一个个人用的WPF万能转换器
public class CommonCoverter : IValueConverter { /// 转换器参数语法: key1,value1 key2,value2 ... [other,defu ...
- huawei 通过BGP的团体属性进行路由控制
网络拓扑 XRV1的配置: =========================================================================== # sysname ...
- GIS基础软件及操作(八)
原文 GIS基础软件及操作(八) 练习八.地理建模 地理建模:Model Builder 土壤侵蚀危险性建模分析 认识ModelBuilder操作界面 1: 添加硬盘上的数据或工具到模型中,数据也可以 ...
- Android零基础入门第25节:最简单最常用的LinearLayout线性布局
原文:Android零基础入门第25节:最简单最常用的LinearLayout线性布局 良好的布局设计对于UI界面至关重要,在前面也简单介绍过,目前Android中的布局主要有6种,创建的布局文件默认 ...
- Redis简介和安装
Redis介绍 Redis是一种Key-Value存储系统(数据库),其提供了一组丰富的数据结构,如List,Sets,Hashes和Ordered Sets Redis安装 wget <Red ...
- CopyFile函數詳解
CopyFile函數,文件拷贝函数.其基本結構如下: copyfile( lpcstr lpexistingfilename, // 源文件路径 lpcstr lpnewfilename, //新文件 ...