“真”pandas“假”sql
这篇博客利用了
pandas
对数据像sql
一样去处理。
读取测试数据
import pandas as pd
import numpy as np
url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'
tips = pd.read_csv(url) # 读取数据
tips.head()
测试数据的前5行如下:
SELECT(选择语句)
SQL语句:
SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;
Python语句:
tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
UPDATE(更新语句)
SQL语句:
UPDATE tips SET tip = tip*2 WHERE tip < 2;
Python语句:
tips.loc[tips['tip'] < 2, 'tip'] *= 2
DELETE(删除语句)
SQL语句:
DELETE FROM tips WHERE tip > 9;
Python语句:
tips = tips.loc[tips['tip'] <= 9]
WHERE (条件)
SQL语句:
SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;
Python语句:
tips[tips['time'] == 'Dinner'].head(5)
AND&OR
SQL语句:
SELECT * FROM tips WHERE time = 'Dinner' AND tip >5.00;
Python语句:
# pandas中用“&”表示and;用“|”表示or
tips[(tips['time'] == 'Dinner') & (tips['tip'] > 5.00)]
SQL语句:
SELECT * FROM tips WHERE size >= 5 OR total_bill > 45;
Python语句:
# 选出size大于5或者total_bill大于45的
tips[(tips['size'] >=5 ) | (tips['total_bill'] > 45)]
GROUP BY (分组聚合)
在pandas中,使用类似命名的 groupby()
方法执行SQL的GROUP BY操作。 groupby()
通常是指我们要将数据集拆分为组,应用一些函数(通常是聚合),然后将组合在一起的过程。
常见的SQL操作将在整个数据集中获取每个组中的记录计数。 例如,一个查询让我们得到性别剩余的提示数:
SQL语句:
SELECT sex, count(*) FROM tips GROUP BY sex;
/*
Female 87
Male 157
*/
Python语句:
# sql中的ocunt和pandas的count不一样,这里是size()达到我们的目的
tips.groupby('sex').size()
Python语句:
tips.groupby('sex').count()
Python语句:
# 对单独一列进行count
tips.groupby('sex')['total_bill'].count()
SQL语句:
SELECT day, AVG(tip), COUNT(*) FROM tips GROUP BY day;
/*
Fri 2.734737 19
Sat 2.993103 87
Sun 3.255132 76
Thur 2.771452 62
*/
也可以同时应用多种功能。 例如,假设我们希望看到技巧数量在星期几之间有所差异,那么 agg()
可以让您将一个字典传递到您分组的 DataFrame
,指示哪些功能适用于特定的列。
Python语句:
tips.groupby('day').agg({'tip':np.mean, 'day':np.size})
按多列分组
SQL语句:
SELECT smoker, day, COUNT(*), AVG(tip) FROM tips GROUP BY smoker, day;
/*
smoker day
No Fri 4 2.812500
Sat 45 3.102889
Sun 57 3.167895
Thur 45 2.673778
Yes Fri 15 2.714000
Sat 42 2.875476
Sun 19 3.516842
Thur 17 3.030000
*/
Python语句:
tips.groupby(['smoker','day']).agg({'tip':[np.size,np.mean]})
缺失值的检查使用 notnull()
和 isnull()
重新建立一个测试数据集:
df = pd.DataFrame({'col2':['A','B',np.NaN, 'C', 'D'],
'col1':['F', np.NaN, 'G','H','I']})
SQL语句:
SELECT * FROM df WHERE col2 IS NULL;
Python语句:
# 选择变量是col为null的行(观测)
df[df['col2'].isnull()]
SQL语句:
SELECT * FROM df WHERE col1 IS NOT NULL;
Python语句:
# 选择col1不是空值的行(观测)
df[df['col1'].notnull()]
JOIN
可以使用 join()
或 merge()
执行 JOIN
。 默认情况下, join()
将在其索引上加入 DataFrames
。 每个方法都有参数允许您指定要执行的连接类型(LEFT,RIGHT,INNER,FULL)或要加入的列(列名称或索引)。
df1 = pd.DataFrame({'key':['A','B','C','D'], 'value':np.random.randn(4)})
df2 = pd.DataFrame({'key':['B','D','D','E'], 'value':np.random.randn(4)})
INNER JOIN
SQL语句:
SELECT * FROM df1 INNER JOIN df2 ON df1.key = df2.key;
Python语句:
pd.merge(df1,df2, on = 'key')
indexed_df2 = df2.set_index('key')
pd.merge(df1, indexed_df2, left_on='key',right_index=True)
LEFT OUTER JOIN
SQL语句:
-- show all records from df2
SELECT * FROM df1 RIGHT OUTER JOIN df2 ON df1.key=df2.key;
Python语句:
pd.merge(df1, df2, on = 'key', how='left')
RIGHT OUTER JOIN
SQL语句:
-- show all records from both tables
SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;
Python语句:
pd.merge(df1, df2, on = 'key', how='right')
FULL JOIN
SQL语句:
-- show all records from both tables
SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;
Python语句:
pd.merge(df1, df2 , on = 'key', how = 'outer')
UNION
新建数据集:
df1 = pd.DataFrame({'city': ['Chicago', 'San Francisco', 'New York City'],
'rank': range(1, 4)})
df2 = pd.DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'],
'rank': [1, 4, 5]})
SQL语句:
SELECT city, rank FROM df1
UNION ALL
SELECT city, rank FROM df2;
/*
city rank
Chicago 1
San Francisco 2
New York City 3
Chicago 1
Boston 4
Los Angeles 5
*/
Python语句:
pd.concat([df1,df2])
SQL UNION类似于UNION ALL,但是UNION将删除重复的行。
SELECT city, rank FROM df1
UNION
SELECT city, rank FROM df2;
-- notice that there is only one Chicago record this time
/*
city rank
Chicago 1
San Francisco 2
New York City 3
Boston 4
Los Angeles 5
*/
在pandas中,您可以使用 concat()
与 drop_duplicate()
结合使用。
pd.concat([df1, df2]).drop_duplicates()
“真”pandas“假”sql的更多相关文章
- 真与假与c#,java中的不同之处
/************真与假************/ /*C语言中:真(非0).假(0) * Java.C#中:真(true).假(false) * JavaScript中:真(非0.true. ...
- pandas 读写sql数据库
如何从数据库中读取数据到DataFrame中? 使用pandas.io.sql模块中的sql.read_sql_query(sql_str,conn)和sql.read_sql_table(table ...
- JavaScript基本概念C - 真与假
真与假 与 c 和 c++ 非常相似, 但与 Java 不同, JS中被认为true或false范围很广.所有对象 (空字符串除外) 和非零数字都被视为 true.空字符串.零.null 和undef ...
- python入门:while循环里面True和False的作用,真和假
#!/usr/bin/env python # -*- coding:utf-8 -*- #while循环里面True和False的作用,真和假 """ n1等于真(Tr ...
- 【Pandas vs SQL】数据分析代码逐行比对,孰优孰劣?
在数据分析领域,pandas是python数据分析基础工具,SQL是数据库最常用分析语言.二者有相通的地方,也有很大的语法不同,做起数据分析来,谁将更胜一筹呢? 做过业务开发.跟数据库打交道比较多的小 ...
- Python的真和假
python和其他编程语言一样,,,0是假,非0是真,,python 一切皆对象,真假是每个对象的属性.像数据结构,,空的数据结构是False. eg: "spam" True & ...
- Pandas与SQL比较
由于许多潜在的Pandas用户对SQL有一定的了解,因此本文章旨在提供一些如何使用Pandas执行各种SQL操作的示例. import pandas as pd url = 'tips.csv' ti ...
- JavaScript中的真和假,==和===, 不等
咋JS中,下面这些值表示 “假”: "" (empty string) 0,-0,NaN (invalid number) null, undefined false 除了上面这些 ...
- PHP empty函数判断0返回真还是假?
最近项目中,遇到一个字段是 “是否启用”值为0,1 在查询时没想就写了 if ( isset($args_array['useFlg']) && !empty($args_array[ ...
随机推荐
- Prometheus 集成 Node Exporter
文章首发于公众号<程序员果果> 地址:https://mp.weixin.qq.com/s/40ULB9UWbXVA21MxqnjBxw 简介 Prometheus 官方和一些第三方,已经 ...
- Spring 2017 Assignments1
一.作业要求 原版:http://cs231n.github.io/assignments2017/assignment1/ 翻译:http://www.mooc.ai/course/268/lear ...
- 熔断器Hystrix
什么是服务雪崩? 单个服务发生故障,占用过多的系统资源,从而导致级联故障的情况称为服务雪崩. 什么是Hystrix? 在分布式环境中,许多服务依赖项中的一些必然会失败.(服务挂了) Hystrix是一 ...
- ExecutorService 的理解和使用
前言: 我们之前使用线程的时候都是使用new Thread来进行线程的创建,但是这样会有一些问题.如: a. 每次new Thread新建对象性能差.b. 线程缺乏统一管理,可能无限制新建线程,相互之 ...
- Java 8 为什么会引入lambda 表达式?
Java 8 为什么会引入lambda ? 在Java8出现之前,如果你想传递一段代码到另一个方法里是很不方便的.你几乎不可能将代码块到处传递,因为Java是一个面向对象的语言,因此你要构建一个属于某 ...
- Spring-Boot:多种配置注入方式
package com.example.el; import org.springframework.beans.factory.annotation.Value; import org.spring ...
- (springboot)自定义Starter
要引入的jar项目,即自定义的Starter项目: pom:(这里不能引入springboot整合否则测试项目注入失败) <?xml version="1.0" encodi ...
- python聚类算法解决方案(rest接口/mpp数据库/json数据/下载图片及数据)
1. 场景描述 一直做java,因项目原因,需要封装一些经典的算法到平台上去,就一边学习python,一边网上寻找经典算法代码,今天介绍下经典的K-means聚类算法,算法原理就不介绍了,只从代码层面 ...
- 以后可得记住了--Python笔试面试题小结
1.字符串处理 将字符串中的数字替换成其两倍的值,例如: 修改前:"AS7G123m (d)F77k" 修改后:"AS14G246m (d)F154k" 个 ...
- Python 基础1 - 位运算符
引言 本文主要介绍位运算符,实际上Python有以下7类运算符: [赋值运算符].[比较运算符].[算术运算符].[逻辑运算符].[身份运算符].[成员运算符].[位运算符] 位运算符 按位运算符是把 ...