Pandas学习(一)——数据的导入
欢迎加入python学习交流群 667279387
学习笔记汇总
Pandas学习(一)–数据的导入
pandas学习(二)–双色球数据分析
pandas学习(三)–NAB球员薪资分析
pandas学习(四)–数据的归一化
pandas学习(五)–pandas学习视频
本文所有的环境:python :3.5 pandas:0.19.2 numpy:1.12.1,sqlalchemy 1.1.9 如果你的环境和这样不一样可能会有 细微差别。
pandas支持的数据格式
pandas作为一个强大的数据处理包,支持比较多的数据处理格式,下面是一些常见格式数据的读取方法,更多请参考:链接
函数 | 描述 |
---|---|
read_table(filepath_or_buffer[, sep, …]) | 读取普通分隔的数据 |
read_csv(filepath_or_buffer[, sep, …]) | 读取csv格式的数据 |
read_excel(io[, sheetname, header, …]) | 读取excel格式的数据 |
read_json([path_or_buf, orient, typ, dtype, …]) | 读取json格式的数据 |
read_html(io[, match, flavor, header, …]) | 读取html格式的 数据 |
read_sql(sql, con[, index_col, …]) | 读取数据库中的数据 |
前面两个一般用的比较多。
常见格式读取示例
read_table举例
example.csv是一个用逗号隔开的数据格式。所以可以用read_table读取,需要指定间隔符为逗号。
import pandas as pd
data_csv = pd.read_table('example.csv',sep=',')
print("data_csv:")
print(data_csv)
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
但是有时隔符是不定个数的空格,这时可以用正则表达式。
import pandas as pd
data_txt = pd.read_table('example.txt',sep='\s+')
print("data_txt:")
print(data_txt)
此处由于数据中列名比数据列少1,read_table会推断第一行为列名。
A B C
aaa -0.264438 -1.026059 -0.619500
bbb 0.927272 0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382 1.100491
read_csv举例
import pandas as pd
data_csv2 = pd.read_csv('example.csv')
print("data_csv2:")
print(data_csv2)
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
read_exel示例
import pandas as pd
data_xlsx = pd.read_excel('example.xlsx')
print("data_xlsx:")
print(data_xlsx)
默认是读取第一个 sheet表格的,如果要制定读取sheet表格则需要指定 sheetname参数
data_xlsx2 = pd.read_excel('example.xlsx',sheetname="Sheet2")
print("data_xlsx2:")
print(data_xlsx2)
a b c d message
0 11 12 13 4 hello
1 15 16 17 18 world
2 19 20 21 12 foo
更多参数可以参考官方手册
read_json示例
data_json = pd.read_json('example.json')
print(data_json)
直接打开json文件的内容如下:
[{"a": 1, "b": 2, "c": 3},
{"a": 4, "b": 5, "c": 6},
{"a": 7, "b": 8, "c": 9}]
读取后 输出的格式如下
a b c
0 1 2 3
1 4 5 6
2 7 8 9
read_sql、read_sql_table和read_sql_query示例
import pymysql
import pandas as pd
con = pymysql.connect(host="127.0.0.1",user="root",password="password",db="world")
data_sql=pd.read_sql("select * from city limit 10",con)
print(data_sql)
数据库用的是mysql,数据是里面自带的测试数据。
ID Name CountryCode District Population
0 1 Kabul AFG Kabol 1780000
1 2 Qandahar AFG Qandahar 237500
2 3 Herat AFG Herat 186800
3 4 Mazar-e-Sharif AFG Balkh 127800
4 5 Amsterdam NLD Noord-Holland 731200
在使用read_sql_table和read_sql_query时需要使用sqlalchemy对数据库进行连接。这里仍然使用mysql为例,其他数据库的链接方式有细微差别。
import pandas as pd
import pymysql
from sqlalchemy import create_engine
con = create_engine('mysql+pymysql://root:password@localhost:3306/world')
data_sql2 = pd.read_sql_table("city", con)
print(data_sql2)
data_sql3 = pd.read_sql_query("select * from city limit 5", con)
print(data_sql3)
read_html示例
能够读取带有table标签的网页中的表格。
import pandas as pd
data = pd.DataFrame()
url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
url_list.append(url)
for url in url_list:
data = data.append(pd.read_html(url), ignore_index=True)
data = data[[x.startswith('$') for x in data[3]]]
data.to_csv('NAB_salaries.csv',header=['RK','NAME','TEAM','SALARY'], index=False)
获取的数据详情请见pandas学习(三)–NAB球员薪资分析
本文示例代码和文件下载地址:链接
提取密码:l5wo
欢迎python爱好者加入:学习交流群 667279387
Pandas学习(一)——数据的导入的更多相关文章
- Pandas学习1 --- 数据载入
import numpy as np import pandas as pd 数据加载 首先,我们需要将收集的数据加载到内存中,才能进行进一步的操作.pandas提供了非常多的读取数据的函数,分别应用 ...
- pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 de ...
- pandas学习(四)--数据的归一化
欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...
- pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录 数据分组与分组运算 离散化处理 数据合并 数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
- pandas学习(创建多层索引、数据重塑与轴向旋转)
pandas学习(创建多层索引.数据重塑与轴向旋转) 目录 创建多层索引 数据重塑与轴向旋转 创建多层索引 隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或 ...
- pandas学习(创建数据,基本操作)
pandas学习(一) Pandas基本数据结构 Series类型数据 Dataframe类型 基本操作 Pandas基本数据结构 两种常用数据结构: Series 一维数组,与Numpy中的一维ar ...
- GIS案例学习笔记-CAD数据分层导入现有模板实例教程
GIS案例学习笔记-CAD数据分层导入现有模板实例教程 联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 1. 原始数据: CAD数据 目标模板 2. 任务:分5个图层 ...
- 【转】Pandas学习笔记(二)选择数据
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
- Solr7.x学习(4)-导入数据
导入配置可参考官网:http://lucene.apache.org/solr/guide,http://lucene.apache.org/solr/guide/7_7/ 1.数据准备(MySQL8 ...
随机推荐
- 使用 element-ui 级联插件遇到的坑
需求描述[省市区三级联动] 组件:Cascader 级联选择器 后端需要所选中的地区的名字,如:['北京市', '北京市', '东城区'] 获取后端省市区具体列表的接口返回数据: // 省 - 参数1 ...
- pip的简单用法
pip的用法: 其实跟linux的yum很像,它可以帮我们安装python所需要的环境包,并且可以包解决依赖关系 eg: 列出已安装的包 pip list 安装要安装的包 pip install xx ...
- 误删tree命令如何恢复
误删tree命令如何恢复 考察rpm,yum的用法 一.删除tree命令,tree命令不可用 [root@centos7 ~]# which tree /usr/bin/tree [root@cent ...
- [ISE调试] 在ISE调试过程中,遇到过的error以及消除办法
1.Incompatible IOB's are locked to the same bank 15,具体如右图, 于是去查引脚配置,发现 也就是说,在bank=15的这组IO里面,我既选了LVAM ...
- 别翻了,这篇文章就是要让你入门java多线程!
目录 1. 理解线程与进程 2.理解并行和并发 3.特殊的一个单线程:主线程(Main线程) 4. 创建多线程的四种方式 5.使用匿名内部类方式创建线程 6.线程安全问题 7.解决线程安全问题:线程同 ...
- nyoj 26-孪生素数问题(打表)
26-孪生素数问题 内存限制:64MB 时间限制:3000ms Special Judge: No accepted:10 submit:43 题目描述: 写一个程序,找出给出素数范围内的所有孪生素数 ...
- Vue学习之Vue模拟后台数据
前后端项目的开发,需要前端和后端同时进行开发,有时后端开发人员还未完成API接口可以提供给前端调用,因此就需要模拟前端请求后端接口,后端返回数据.一般开发中都是返回json数据格式来完成前后端的交互. ...
- three.js使用gpu选取物体并计算交点位置
光线投射法 使用three.js自带的光线投射器(Raycaster)选取物体非常简单,代码如下所示: var raycaster = new THREE.Raycaster(); var mouse ...
- ArrayList和LinkedList的源码学习,理解两者在插入、删除、和查找的性能差异
List的使用 List的子类 1). ArrayList 数据结构:数组 2). Vector 数据结构:数组 3). LinkedList 数据结构:循环双向链表 ArrayList .Vecto ...
- 读写分离很难吗?springboot结合aop简单就实现了
目录 前言 环境部署 开始项目 注意 參考: 前言 入职新公司到现在也有一个月了,完成了手头的工作,前几天终于有时间研究下公司旧项目的代码.在研究代码的过程中,发现项目里用到了Spring Aop来实 ...