Python -- 数据加载、存储与文件格式

标签（空格分隔）： Python

读入读出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用Web API操作网络资源。

读写文本格式的数据

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数，如下表所示：

函数	说明
read_csv	从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为`,`
read_table	从文件、URL、文件型对象中加载带分隔符的数据，默认的分隔符为制表符`"\t"`
read_fwf	读取定宽列格式数据 -- 木有分隔符的
read_clipboard	读取剪贴板中的数据，可以看做read_table的剪贴板。将网页转换为表格时很有用

for example:

In[]: import pandas as pd

In[]: df = pd.read_csv('ex1.csv') # ''内写入文件所在的详细目录

In[]: df = pd.read_table('ex1.csv', sep = ',') # 或者使用table并指定分隔符

# 当你要读入的文件没有标题行时：

In[]: df = pd.read_csv('ex2.csv', header = None) # 让pandas为其分配默认的列名

In[]: df = pd.read_csv('ex2.csv', names = ['a','b','c','d','message']) # 自己定义标题行

In [8]: names = ['a','b','c','d','message']

# 让其中的某列作为列索引

In [9]: pd.read_csv('ex2.csv', names = names, index_col = 'message')

Out[9]:

         a   b   c   d

message

hello    1   2   3   4

world    5   6   7   8

foo      9  10  11  12

In[]: pd.read_csv('ex4.csv', skiprows = [0, 2, 3]) # 略过第0,2,3行不读取

# 用一个字典为各列指定不同的NA标记值

In[]: patterns = {'message':['foo', 'NA'], 'something':['two']}

In[]: pd.read_csv('ex5.csv', na_values=patterns)

read_csv/read_table函数的参数

参数	说明
path	表示文件系统位置、URL、文件型对象的字符串
sep/delimiter	用于对行中各字段进行拆分的字符序列或正则表达式
header	用作列名的行号。如果没有header行就应该设置为None
index_col	用作行索引的列编号或列名，可以是单个名称/数字或由多个名称/数字组成的列表
names	用于结果的列名列表，结合header = None
skiprows	需要忽略的行数
na_values	一组用于替换NA的值
comment	用于将注释信息从行尾拆分出去的字符
parse_dates	尝试将数据解析为日期
nrows	需要读取的行数
skip_footer	需要忽略的行数

逐块读取文本文件

In[]: pd.read_csv('ex6.csv', nrows=5)

将数据写出到文本

In[]: data = pd.read_csv('ex5.csv')

In[]: data.to_csv('out.csv') # 将data中的数据写出到当前目录中的out.csv中

In[]: data.to_csv(sys.stdout, sep='|') # 打印到屏幕

In[]: data.to_csv(sys.stdout, na_rep='NULL') # 空字符处显示为NULL

In[]: data.to_csv(sys.stdout, index=False, header=False) # 禁用行和列的标签

In[]: data.to_csv(sys.stdout, index=False, cols=['a', 'b', 'c']) # 按照指定的顺序显示列

# Series中的to_csv方法

In [39]: dates = pd.date_range('1/1/2000', periods = 7)

In [40]: dates

Out[40]:

DatetimeIndex(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04', '2000-01-05', '2000-01-06', '2000-01-07'], dtype='datetime64[ns]', freq='D')

In [45]: ts = Series(np.arange(7), index = dates)

In [46]: ts

Out[46]:

2000-01-01    0

2000-01-02    1

2000-01-03    2

2000-01-04    3

2000-01-05    4

2000-01-06    5

2000-01-07    6

Freq: D, dtype: int64

In [47]: ts.to_csv('tseries.csv')

In [48]: cat tseries.csv

2000-01-01,0

2000-01-02,1

2000-01-03,2

2000-01-04,3

2000-01-05,4

2000-01-06,5

2000-01-07,6

In[]: Series.from_csv('tseries.csv',parse_dates = False) # 从文件中读入到Series

手工处理分隔符

In [50]: cat ex7.csv

"a","b","c"

"1","2","3"

"1","2","3","4"

In [51]: import csv

In [52]: f = open('ex7.csv')

In [53]: reader = csv.reader(f)

In [54]: for line in reader:

    ...:     print line

    ...:

['a', 'b', 'c']

['1', '2', '3']

['1', '2', '3', '4']

# 可以对数据做一些处理

In[]: lines = list(csv.reader(open('ex7.csv')))

In[]: header, values = lines[0], lines[1:]

In[]: data_dict = {h:v for h,v in zip(header, zip(*values))}

CSV语支选项

参数	说明
delimiter	用于分割字段的单字符字符串，默认为','
lineterminator	用于写操作的行结束符，默认为'\r\n'。读操作将忽略此选项
quotechar	用于带有特殊字符的字段的引用符号，默认为'"'

JSON数据

JSON(JavaScript Object Notation)已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。

import json

In [65]: obj = """{"name":"Wes", "places_lived":["United States", "Spain", "Germany"], "pet":nu

...: ll, "siblings":[{"name":"Scott","age":25,"pet":"Zuko"},{"name":"Katy","age":33,"pet":"

...: Cisco"}]}"""

In [68]: res = json.loads(obj) # 将JSON字符串转换为Python形式

In [69]: res

Out[69]:

{u'name': u'Wes',

 u'pet': None,

 u'places_lived': [u'United States', u'Spain', u'Germany'],

 u'siblings': [{u'age': 25, u'name': u'Scott', u'pet': u'Zuko'},

  {u'age': 33, u'name': u'Katy', u'pet': u'Cisco'}]}

# 将Python转换为json

In [71]: asjson = json.dumps(res)

In [72]: asjson

Out[72]: '{"pet": null, "siblings": [{"pet": "Zuko", "age": 25, "name": "Scott"}, {"pet": "Cisco", "age": 33, "name": "Katy"}], "name": "Wes", "places_lived": ["United States", "Spain", "Germany"]}'

In[]: data = DataFrame(res['siblings'], columns=['name', 'age'])

In [75]: data

Out[75]:

    name  age

0  Scott   25

1   Katy   33

使用HTML和Web API

import requests

In[]: url = 'http://www.baidu.com'

In[]: resp = requests.get(url)

In[]: import json

In[]: data = json.loads(resp.text) # Response对象的text属性含有GET请求的内容，大多返回JSON对象，加载到Python对象中

In[]: data.keys()

使用数据库

In[]: import sqlite3

In[]: query = """create table test(a varchar(20), b varchar(20), c real, d integer);"""

In[]: con = sqlite3.connect(':memory:') # 连接数据库

In[]: con.execute(query)

In[]: con.commit()

In[]: data = [('Atlanta', 'Georgia', 1.25, 6), ('Tall', 'Flor', 2.6, 3), ('Saca', 'Calif', 1.7, 5)]

In[]: stmt = "insert into test values(?, ?, ?, ?)"

In[]: con.execute(stmt, data)

In[]: con.commit()

In[]: datas = con.execute('select * from test')

In[]: lines = datas.fetchall() # 从表中读取数据，将返回一个元祖列表

In[]: datas.description # 获得列名

In[]: DataFrame(rows, columns=zip(*datas.description)[0])

In[]: import pandas.io.sql as sql

In[]: sql.read_frame('select * from test', con) # 传入sql语句和连接对象

Python -- 数据加载、存储与文件格式的更多相关文章

利用python进行数据分析之数据加载存储与文件格式
在开始学习之前,我们需要安装pandas模块.由于我安装的python的版本是2.7,故我们在https://pypi.python.org/pypi/pandas/0.16.2/#downloads ...
python多种格式数据加载、处理与存储
多种格式数据加载.处理与存储实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
Python之pandas数据加载、存储
Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读 ...
利用python进行数据加载和存储
1.文本文件 (1)pd.read_csv加载分隔符为逗号的数据:pd.read_table从文件.URL.文件型对象中加载带分隔符的数据.默认为制表符.(加载为DataFrame结构) 参数name ...
python数据分析笔记——数据加载与整理]
[ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...
arcgis python 使用光标和内存中的要素类将数据加载到要素集学习:http://zhihu.esrichina.com.cn/article/634
学习:http://zhihu.esrichina.com.cn/article/634使用光标和内存中的要素类将数据加载到要素集 import arcpy arcpy.env.overwriteOu ...
MPP 二、Greenplum数据加载
Loading external data into greenplum database table using different ways... Greenplum 有常规的COPY加载方法,有 ...
科学计算三维可视化---TVTK入门（数据加载）
一:数据加载大多数可视化应用的数据并非是在TVTK库中构建的,很多都是通过接口读取外部数据文件 (一)使用vtkSTLReader来读取外部文件 .stl 文件是在计算机图形应用系统中,用于表示三角 ...
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler 目录 [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampl ...

随机推荐

css初始化样式代码
为什么要初始化CSS? CSS初始化是指重设浏览器的样式.不同的浏览器默认的样式可能不尽相同,所以开发时的第一件事可能就是如何把它们统一.如果没对CSS初始化往往会出现浏览器之间的页面差异.每次新开发 ...
本机，同机房，同城，异地，不同城，腾讯云ping延时值
本机,同机房,同城,异地,不同城,腾讯云ping延时值 ping本机: 0.01ms ping同机房机器: 0.1ms ping同城机器: 1ms ping不同城机器: 20ms 北(南)方ping南 ...
委托学习笔记后续：泛型委托及委托中所涉及到匿名方法、Lambda表达式
引言: 最初学习c#时,感觉委托.事件这块很难,其中在学习的过程中还写了一篇学习笔记:委托.事件学习笔记.今天重新温故委托.事件,并且把最近学习到和委托相关的匿名方法.Lambda表达式及泛型委托记录 ...
SQLite如何测试
原文 http://www.sqlite.org/testing.html 目录 1. 介绍 1.1. 执行总结 2. 测试套件 3.异常测试 3.1 内存溢出测试 3.2 I/O错误测试 3.3 c ...
PCB的封装尺寸
PCB封装主要分为贴片式与插件式 1)贴片元件封装说明发光二极管:颜色有红.黄.绿.蓝之分,亮度分普亮.高亮.超亮三个等级,常用的封装形式有三类:0805.1206.121 (常用封装为RB.1/. ...
a biped was detected but cannot be configured properly (Bipe导入Unity 无法正确识别)
OP stated "I export the biped with 'animation' and 'bake animation' ticked and the correct fram ...
Windows api实现桌面任务栏隐藏\显示
//隐藏任务栏 HWND hWnd = ::FindWindow(TEXT("Shell_traywnd"),TEXT("")); ::SetWindowPos ...
mac下使用gcc
1.下载安装macports:http://www.macports.org/install.php 安装完成之后,打开终端 2.在终端中输入 port install gcc_select 3.使用 ...
TCP/IP协议与UDP协议的区别
TCP(Transmission Control Protocol,传输控制协议)是面向连接的协议,也就是说,在收发数据前,必须和对方建立可靠的连接.一个TCP连接必须要经过三次“对话”才能建立起来, ...
[转] 经典SQL练习题
原题目来自qaz13177_58_CSDN博客 http://blog.csdn.net/qaz13177_58_/article/details/5575711/#sql 只是更新个人答案供参考表 ...