merage#

pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来，语法如下：

merge(left, right, how='inner', on=None, left_on=None, right_on=None,

left_index=False, right_index=False, sort=True,

suffixes=('_x', '_y'), copy=True, indicator=False)

作为一个功能完善、强大的语言，python的pandas库中的merge()支持各种内外连接。

left与right：两个不同的DataFrame
how：指的是合并(连接)的方式有inner(内连接),left(左外连接),right(右外连接),outer(全外连接);默认为inner
on : 指的是用于连接的列索引名称。必须存在右右两个DataFrame对象中，如果没有指定且其他参数也未指定则以两个DataFrame的列名交集做为连接键
left_on：左则DataFrame中用作连接键的列名;这个参数中左右列名不相同，但代表的含义相同时非常有用。
right_on：右则DataFrame中用作连接键的列名
left_index：使用左则DataFrame中的行索引做为连接键
right_index：使用右则DataFrame中的行索引做为连接键
sort：默认为True，将合并的数据进行排序。在大多数情况下设置为False可以提高性能
suffixes：字符串值组成的元组，用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称，默认为('_x','_y')
copy：默认为True,总是将数据复制到数据结构中；大多数情况下设置为False可以提高性能
indicator：在 0.17.0中还增加了一个显示合并数据中来源情况；如只来自己于左边(left_only)、两者(both)

sql中的

SELECT *

FROM df1

INNER JOIN df2

ON df1.key = df2.key;

或

SELECT *

FROM df1,df2 where df1.key=df2.key

pandas中用：

1	`pd.merge(df1, df2, on='key')`

然后就是各种外连接了：

1	`pd.merge(df1, df2,` `on='key', how='left')`

how变成left/right。全链接outer。

示例##

#coding=utf-8

from pandas import Series,DataFrame,merge

import numpy as np

data=DataFrame([{"id":0,"name":'lxh',"age":20,"cp":'lm'},{"id":1,"name":'xiao',"age":40,"cp":'ly'},{"id":2,"name":'hua',"age":4,"cp":'yry'},{"id":3,"name":'be',"age":70,"cp":'old'}])

data1=DataFrame([{"id":100,"name":'lxh','cs':10},{"id":101,"name":'xiao','cs':40},{"id":102,"name":'hua2','cs':50}])

data2=DataFrame([{"id":0,"name":'lxh','cs':10},{"id":101,"name":'xiao','cs':40},{"id":102,"name":'hua2','cs':50}])

print "单个列名做为内链接的连接键\r\n",merge(data,data1,on="name",suffixes=('_a','_b'))

print "多列名做为内链接的连接键\r\n",merge(data,data2,on=("name","id"))

print '不指定on则以两个DataFrame的列名交集做为连接键\r\n',merge(data,data2) #这里使用了id与name

#使用右边的DataFrame的行索引做为连接键

##设置行索引名称

indexed_data1=data1.set_index("name")

print "使用右边的DataFrame的行索引做为连接键\r\n",merge(data,indexed_data1,left_on='name',right_index=True)

print '左外连接\r\n',merge(data,data1,on="name",how="left",suffixes=('_a','_b'))

print '左外连接1\r\n',merge(data1,data,on="name",how="left")

print '右外连接\r\n',merge(data,data1,on="name",how="right")

data3=DataFrame([{"mid":0,"mname":'lxh','cs':10},{"mid":101,"mname":'xiao','cs':40},{"mid":102,"mname":'hua2','cs':50}])

#当左右两个DataFrame的列名不同，当又想做为连接键时可以使用left_on与right_on来指定连接键

print "使用left_on与right_on来指定列名字不同的连接键\r\n",merge(data,data3,left_on=["name","id"],right_on=["mname","mid"])

输出为：

单个列名做为内链接的连接键

age cp id_a name cs id_b

0 20 lm 0 lxh 10 100

1 40 ly 1 xiao 40 101

多列名做为内链接的连接键

age cp id name cs

0 20 lm 0 lxh 10

不指定on则以两个DataFrame的列名交集做为连接键

age cp id name cs

0 20 lm 0 lxh 10

使用右边的DataFrame的行索引做为连接键

age cp id_x name cs id_y

0 20 lm 0 lxh 10 100

1 40 ly 1 xiao 40 101

左外连接

age cp id_a name cs id_b

0 20 lm 0 lxh 10 100

1 40 ly 1 xiao 40 101

2 4 yry 2 hua NaN NaN

3 70 old 3 be NaN NaN

左外连接1

cs id_x name age cp id_y

0 10 100 lxh 20 lm 0

1 40 101 xiao 40 ly 1

2 50 102 hua2 NaN NaN NaN

右外连接

age cp id_x name cs id_y

0 20 lm 0 lxh 10 100

1 40 ly 1 xiao 40 101

2 NaN NaN NaN hua2 50 102

使用left_on与right_on来指定列名字不同的连接键

age cp id name cs mid mname

0 20 lm 0 lxh 10 0 lxh

join方法提供了一个简便的方法用于将两个DataFrame中的不同的列索引合并成为一个DataFrame。

其中参数的意义与merge方法基本相同,只是join方法默认为左外连接how=left。

示例：

#coding=utf-8

from pandas import Series,DataFrame,merge

data=DataFrame([{"id":0,"name":'lxh',"age":20,"cp":'lm'},{"id":1,"name":'xiao',"age":40,"cp":'ly'},{"id":2,"name":'hua',"age":4,"cp":'yry'},{"id":3,"name":'be',"age":70,"cp":'old'}],index=['a','b','c','d'])

data1=DataFrame([{"sex":0},{"sex":1},{"sex":2}],index=['a','b','e'])

print '使用默认的左连接\r\n',data.join(data1) #这里可以看出自动屏蔽了data中没有的index=e 那一行的数据

print '使用右连接\r\n',data.join(data1,how="right") #这里出自动屏蔽了data1中没有index=c,d的那行数据；等价于data1.join(data)

print '使用内连接\r\n',data.join(data1,how='inner')

print '使用全外连接\r\n',data.join(data1,how='outer')

结果为：

使用默认的左连接

age cp id name sex

a 20 lm 0 lxh 0

b 40 ly 1 xiao 1

c 4 yry 2 hua NaN

d 70 old 3 be NaN

使用右连接

age cp id name sex

a 20 lm 0 lxh 0

b 40 ly 1 xiao 1

e NaN NaN NaN NaN 2

使用内连接

age cp id name sex

a 20 lm 0 lxh 0

b 40 ly 1 xiao 1

使用全外连接

age cp id name sex

a 20 lm 0 lxh 0

b 40 ly 1 xiao 1

c 4 yry 2 hua NaN

d 70 old 3 be NaN

e NaN NaN NaN NaN 2

还有一种连接方式：concat

concat方法相当于数据库中的全连接(UNION ALL),可以指定按某个轴进行连接,也可以指定连接的方式join(outer,inner 只有这两种)。

与数据库不同的是concat不会去重，要达到去重的效果可以使用drop_duplicates方法

1 2	`concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,` `keys=None, levels=None, names=None, verify_integrity=False, copy=True):`

示例：

#coding=utf-8

from pandas import Series,DataFrame,concat

df1 = DataFrame({'city': ['Chicago', 'San Francisco', 'New York City'], 'rank': range(1, 4)})

df2 = DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'], 'rank': [1, 4, 5]})

print '按轴进行内连接\r\n',concat([df1,df2],join="inner",axis=1)

print '进行外连接并指定keys(行索引)\r\n',concat([df1,df2],keys=['a','b']) #这里有重复的数据

print '去重后\r\n',concat([df1,df2],ignore_index=True).drop_duplicates()

输出结果为：

按轴进行内连接

city rank city rank

0 Chicago 1 Chicago 1

1 San Francisco 2 Boston 4

2 New York City 3 Los Angeles 5

进行外连接并指定keys(行索引)

city rank

a 0 Chicago 1

1 San Francisco 2

2 New York City 3

b 0 Chicago 1

1 Boston 4

2 Los Angeles 5

去重后

city rank

0 Chicago 1

1 San Francisco 2

2 New York City 3

4 Boston 4

5 Los Angeles 5

学习笔记9—python数据表的合并(join(), merge()和concat())的更多相关文章

python数据表的合并(python pandas join() 、merge()和concat()的用法)
merage# pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中 ...
MySQL学习笔记_2_MySQL创建数据表（上）
MySQL创建数据表(上) 一.创建数据表的SQL语句模型[弱类型] CREATETABLE [IF NOT EXISTS] 表名称( 字段名1列的类型[属性][索引], 字段名2 列的类型[属性][ ...
MySQL学习笔记_4_MySQL创建数据表（下）
MySQL创建数据表(下) 五.数据表类型及存储位置 1.MySQL与大多数数据库不同,MySQL有一个存储引擎概念.MySQL可以针对不同的存储需求选择不同的存储引擎. 2. showengines ...
MySQL学习笔记_3_MySQL创建数据表（中）
MySQL创建数据表(中) 三.数据字段属性 1.unsigned[无符号] 可以让空间增加一倍比如可以让-128-127增加到0-255 注意:只能用在数值型字段 2.zerofill[前导零] ...
Python学习笔记 | 关于python数据对象 hashable & unhashable 的理解
文章目录写在前面 hashable & unhashable mutable & immutable 实例检测后续思考参考文章写在前面 Hash(哈希.散列)是一个将大体量数据 ...
Django学习笔记（五）—— 表单
疯狂的暑假学习之 Django学习笔记(五)-- 表单參考:<The Django Book> 第7章 1. HttpRequest对象的信息 request.path ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
微信小程序开发：学习笔记[9]——本地数据缓存
微信小程序开发:学习笔记[9]——本地数据缓存快速开始说明本地数据缓存是小程序存储在当前设备上硬盘上的数据,本地数据缓存有非常多的用途,我们可以利用本地数据缓存来存储用户在小程序上产生的操作,在 ...
Noah的学习笔记之Python篇：命令行解析
Noah的学习笔记之Python篇: 1.装饰器 2.函数“可变长参数” 3.命令行解析注:本文全原创,作者:Noah Zhang (http://www.cnblogs.com/noahzn/) ...

随机推荐

leetcode [34] Find First and Last Position of Element in Sorted Array
Given an array of integers nums sorted in ascending order, find the starting and ending position of ...
python的类和实例化对象
一切皆对象,类也是对象,类来自于元类type,如果一个类没有声明自己的元类,默认它就是元类. 即类是元类的实例,通过type(类)会显示type,而实例来自于类. 类有两个属性,数据属性和函数属性,下 ...
encodeURI、encodeURIComponent
encodeURI是对整个uri进行编码的,而encodeURIComponent是对uri中部分内容进行编码. 在进行url的字符串拼接时,需要进行两次encodeURI. 只进行一次encodeU ...
SaaS的中年危机（转）
如果说SaaS软件和人有什么地方很像的话,中年危机一定是其中一个.另一个是交税. 经常有人问我,春阳,你觉得xx SaaS公司怎么样? 如果这是一家成立2年以上的公司,我的回答多半是“活的不是那么滋润 ...
解决c1xx fatal error C1083 Cannot open source file
在项目开发过程中,遇到一个问题,一个工程B导入另外一个工程A的生产代码,出现这个错误,最后查阅资料发现是文件路径太深,导致文件路径字符超过了217字符. 写了一个测试Demo来验证: 一.新建Win3 ...
JavaScript事件监听以及addEventListener参数分析
事件监听在Javascript中事件的监听是用来对某些操作做出反应的方法.例如监听一个按钮的pressdown, 或者获取鼠标左键按下时候鼠标的位置.这些都需要使用监听来完成.监听的函数很简单:ad ...
ERROR 3009 (HY000): Column count of mysql.user is wrong. Expected 45, found 42. Created with MySQL 50560, now running 50725. Please use mysql_upgrade to fix this error.
centos7.5 登入mysql,进行授权报错问题: mysql> grant all privileges on *.* to 'lvhanzhi'@'%' identified by ' ...
类中函数前、后、参数加const
1.参数加const:int fun(const int a) a在函数里不可被修改 2.函数前加const:const int* const fun() 这种一般是返回的指针或者是引用,加const ...
topcoder srm 490 div1
problem1 link 首先每$n*m$一定是一个循环,所以只需要考虑时间$[0,n*m-1]$即可.这个期间一共出现了$n$个,第i个的出现时间为$m*i$,离开的时间为$\left \lcei ...
(一)flutter第一天
import 'package:flutter/material.dart'; void main() => runApp(new MyApp()); class MyApp extends S ...

学习笔记9—python数据表的合并(join(), merge()和concat())

merage#

示例##

学习笔记9—python数据表的合并(join(), merge()和concat())的更多相关文章

随机推荐

热门专题