本文主要对Python如何读取结构化数据进行总结梳理,涵盖从文本文件,尤其是excel文件(用于离线数据探索分析),以及结构化数据库(以Mysql为例)中读取数据等内容。

约定:

import numpy as np
import pandas as pd

1、从文本文件中读取

(1)使用Python标准库中的read、readline、readlines方法读取

a. 一般流程:

step1: 通过open方法创建一个文件对象

setp2: 通过read、readline、readlines方法读取文件内容

step3: 通过close方法关闭文件对象

b. 区别:

示例:test.txt

read方法:读取全部数据,结果为一个字符串(所有行合并为一个字符串)

#打开文件
f = open('/labcenter/python/pandas/test.txt')
#使用read方法读取文件
data1 = f.read()
print data1
type(data1)
#关闭文件
f.close()

结果:

col1    col2    col3
101 20 0.68
102 30 0.79
103 50 0.72
104 60 0.64
105 70 0.55
str

readline方法:读取一行数据,结果为一个字符串,需要seek\next等指针操作方法配合实现所有记录的遍历。

#打开文件
f = open('/labcenter/python/pandas/test.txt')
#使用readline方法读取文件
data2 = f.readline()
print data2
type(data2)
#关闭文件
f.close()

结果:

col1    col2    col3
str

readlines方法:读取全部数据,结构为一个列表(一行为列表中的一个元素)

#打开文件
f = open('/labcenter/python/pandas/test.txt')
#使用readlines方法读取文件
data3 = f.readlines()
print data3
type(data3)
for line in data3:
print line
#关闭文件
f.close()

结果:

['col1    col2    col3\r\n', '101 20  0.68\r\n', '102 30  0.79\r\n', '103 50  0.72\r\n', '104 60  0.64\r\n', '105 70  0.55']
list
col1 col2 col3
101 20 0.68
102 30 0.79
103 50 0.72
104 60 0.64
105 70 0.55

c. 支持文件范围:

txt\csv\tsv及所有以固定分隔符分隔的文本文件。

(2)使用Numpy库中的loadtxt、load、fromfile方法读取

a. loadtxt方法

从txt文本文件中读取,返回一个数组。

np.loadtxt('/labcenter/python/pandas/test.txt',skiprows=1)

Out[413]:

array([[ 101. , 20. , 0.68],

[ 102. , 30. , 0.79],

[ 103. , 50. , 0.72],

[ 104. , 60. , 0.64],

[ 105. , 70. , 0.55]])

b. load方法

读取Numpy专用的二进制数据文件,该文件通常基于Numpy的save或savez方法生成。

write = np.array([[1,2,3,4],[5,6,7,8]])
np.save('output',write)
data = np.load('output.npy')
print data
type(data)

结果:

[[1 2 3 4]
[5 6 7 8]]
numpy.ndarray

c. fromfile方法

读取简单的文本文件和二进制文件,该文件通常基于Numpy的tofile方法生成。

write = np.array([[1,2,3,4],[5,6,7,8]])
write.tofile('output')
data = np.fromfile('output',dtype='float32')
print data
type(data)

结果:

[  1.40129846e-45   0.00000000e+00   2.80259693e-45 ...,   0.00000000e+00
1.12103877e-44 0.00000000e+00]
numpy.ndarray

(3)使用Pandas库中的read_csv、read_table、read_excel等方法读取

a. read_csv方法

读取csv文件,返回一个DataFrame对象或TextParser对象。

示例:

test.csv

data = pd.read_csv('/labcenter/python/pandas/test.csv')
print data
type(data)

结果:

   col1  col2  col3
0 101 20 0.68
1 102 30 0.79
2 103 50 0.72
3 104 60 0.64
4 105 70 0.55
pandas.core.frame.DataFrame

b. read_table方法

读取通用分隔符分隔的文本文件,返回一个DataFrame对象或TextParser对象。

data = pd.read_table('/labcenter/python/pandas/test.csv',sep=',')
print data
type(data)

结果:

   col1  col2  col3
0 101 20 0.68
1 102 30 0.79
2 103 50 0.72
3 104 60 0.64
4 105 70 0.55
pandas.core.frame.DataFrame

c. read_excel方法

读取excel文件,返回一个DataFrame对象或TextParser对象。

示例:

test.xlsx

data = pd.read_excel('/labcenter/python/pandas/test.xlsx')
print data
type(data)

结果:

   col1  col2  col3
0 101 21 22.6
1 102 31 31.2
2 103 41 32.7
3 104 51 28.2
4 105 61 18.9
pandas.core.frame.DataFrame

d. 其他方法

read_sql方法:读取sql请求或者数据库中的表。

read_json方法:读取json文件。

(4)如何选择?

a. 选取自己最熟悉的方法。

b. 根据场景选择:

① 对纯文本、非结构化的数据:标准库的三种方法

② 对结构化、数值型,并且要用于矩阵计算、数据建模的:Numpy的loadtxt方法

③ 对于二进制数据:Numpy的load和fromfile方法

④ 对于结构化的数据,并且要用于数据探索分析的:Pandas方法

2、从Excel文件中读取

excel往往是在进行离线数据探索分析时提供的数据文件格式,因此这里单独拿出来多总结一下。

(1)使用Pandas库的read_excel方法

见上文1.3.c内容。

(2)使用其他第三方库

以xlrd库为例, xlrd模块实现对excel文件内容读取。

import xlrd
#打开一个excel文件
xlsx=xlrd.open_workbook('/labcenter/python/pandas/test.xlsx')
#读取sheet清单
sheets=xlsx.sheet_names()
sheets
#获取一个sheet数据
sheet1=xlsx.sheets()[0]
#获取指定sheet的名称
sheet1.name
#获取指定sheet的行数
sheet1.nrows
#获取指定sheet的列数
sheet1.ncols
#获取指定sheet某行的数据
sheet1.row_values(1)
#获取指定sheet某列的数据
sheet1.col_values(1)
#获取指定sheet某单元格的数据
sheet1.row(1)[2].value
sheet1.cell_value(1,2)
#逐行获取指定sheet的数据
for i in range(sheet1.nrows):
print sheet1.row_values(i)

结果:

[u'Sheet1', u'Sheet2']
u'Sheet1'
6
3
[101.0, 21.0, 22.6]
[u'col2', 21.0, 31.0, 41.0, 51.0, 61.0]
22.6
22.6
[u'col1', u'col2', u'col3']
[101.0, 21.0, 22.6]
[102.0, 31.0, 31.2]
[103.0, 41.0, 32.7]
[104.0, 51.0, 28.2]
[105.0, 61.0, 18.9]

##3、从结构化数据库中读取
根据数据库选择相应的库,如:mysql数据库使用MySQLdb库,oracle数据库使用cx_Oracle库,teradata数据库使用teradata库,等等。
一般流程:
step1: 建立数据库连接
step2: cursor方法获取游标
step3: execute方法执行SQL语句
step4: fetchall方法获取返回的记录
step5: close方法关闭游标
step6: close方法断开数据库连接
示例:

import MySQLdb
#建立数据库连接
conn = MySQLdb.connect("localhost", "root", "root", "testdb", charset='utf8')
#获取游标
cursor = conn.cursor()
#执行SQL语句
cursor.execute("select * from mytab1;")
#获取返回的记录
results = cursor.fetchall()
#逐行打印
for result in results:
print result
#关闭游标
cursor.close()
#断开数据库连接
conn.close()

结果:

(1L, u'aaa')
(2L, u'bbb')
(3L, u'ccc')
(4L, u'ddd')
(5L, u'eee')

可通过命令pip install MySql-Python安装库MySQLdb。

4.参考与感谢

[1] Python数据分析与数据化运营

重拾Python(5):数据读取的更多相关文章

  1. 重拾python所要知道的一些主干知识点

    前言:因为有一段时间没有用python了,最近需要用到,只能回头过去看B站视频补一补,因为语言都是相通的,而且一些细节都可以去查表解决,所以呢,我们只需要知道一些python与其他语言的不同和常见的优 ...

  2. 重拾python

    前一段碰到几次关于日期计算的题:给出一个日期,计算下一天的日期.虽然不限语言,可是我就C/C++还算熟悉,别的都是刚了解皮毛,根本不会用现成的库啊,无奈啊...只好用c语言一点点实现了,当时真是无比怀 ...

  3. 重拾Python(3):Pandas之Series对象的使用

    Pandas是Python下最强大的数据分析和探索库,是基于Numpy库构建的,支持类似SQL的结构化数据的增.删.查.改,具有丰富的数据处理函数.Pandas有两大数据结构:Series和DataF ...

  4. python + Excel数据读取(更新)

    data.xlsx 数据如下: import xlrd#1.读取Excel数据# table = xlrd.open_workbook("data.xlsx","r&qu ...

  5. 重拾Python(2):如何安装第三方库(Windows)

    使用python进行数据分析或者数据处理时,往往需要使用一些库,而使用库之前必须安装它.Anaconda内置了很多常用的第三方库,可以满足绝大部分需求,比如numpy.pandas.matplotli ...

  6. 重拾Python(1):使用Anaconda搭建Python开发环境(Windows7)

    1.为什么选择Anaconda? Anaconda解决了Python使用痛点. Python好用但是令人头疼的就是库管理与Python不同版本的问题,特别是Windows环境下. 2.什么是Anaco ...

  7. 重拾Python(4):Pandas之DataFrame对象的使用

    Pandas有两大数据结构:Series和DataFrame,之前已对Series对象进行了介绍(链接),本文主要对DataFrame对象的常用用法进行总结梳理. 约定: import pandas ...

  8. Python: 文件操作与数据读取

    文件及目录操作 python中对文件.文件夹(文件操作函数)的操作需要涉及到os模块,主要用到的几个函数是, import os 返回指定目录下的所有文件和目录名: os.listdir() 重命名: ...

  9. 【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

    本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). ...

随机推荐

  1. 把文件每隔三行合并成一行(awk之RS、ORS与FS、OFS)

    比如文本如下:123abc合并后的结果是:1 2 3a b c #.txt a b c awk之RS.ORS与FS.OFS 转自http://www.cnblogs.com/fhefh/archive ...

  2. 团队作业7——第二次项目冲刺(Beta版本12.08-12.10)

    1.当天站立式会议照片 本次会议内容:1:每个人汇报自己完成的工作.2:组长分配各自要完成的任务. 2.每个人的工作 黄进勇:项目整合,后台代码. 李勇:前台界面优化. 何忠鹏:数据库模块. 郑希彬: ...

  3. 项目Beta冲刺Day5

    项目进展 李明皇 今天解决的进度 服务器端还未完善,所以无法进行联动调试.对页面样式和逻辑进行优化 明天安排 前后端联动调试 林翔 今天解决的进度 完成维护登录态,实现图片上传,微信开发工具上传图片不 ...

  4. 利用python处理文档中各字段出现的次数并排序

    import string path = 'waldnn' with open(path,'r') as text: words = [raw_word.strip(string.punctuatio ...

  5. 201421123042 《Java程序设计》第9周学习总结

    1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结集合与泛型相关内容. 2. 书面作业 本次作业题集集合 1. List中指定元素的删除(题集题目) 1.1 实验总结.并回答:列举至 ...

  6. 第四十三条:返回零长度的数组或者集合,而不是null

    如果一个方法的返回值类型是集合或者数组 ,如果在方法内部需要返回的集合或者数组是零长度的,也就是没有实际对象在里面, 我们也应该放回一个零长度的数组或者集合,而不是返回null.如果返回了null,客 ...

  7. idea搭建springdata+mongodb+maven+springmvc

    idea搭建springdata+mongodb+maven+springmvc 今天我们来学习一下SpringData操作MongoDB. 项目环境:IntelliJ IDEA2017+maven3 ...

  8. vue 的模板编译—ast(抽象语法树) 详解与实现

    首先AST是什么? 在计算机科学中,抽象语法树(abstract syntax tree或者缩写为AST),或者语法树(syntax tree),是源代码的抽象语法结构的树状表现形式,这里特指编程语言 ...

  9. 数据故障的恢复-MSSQL ndf文件大小变为0 KB恢复过程

    一.故障描述 成都某客户,存储损坏,数据库崩溃.重组存储,恢复数据库文件,发现有四个ndf文件大小变为0 KB.数据库大小约80TB.数据库中有1223个文件,数据库每10天生成一个NDF文件,每个N ...

  10. python 面向对象之封装与类与对象

    封装 一,引子 从封装本身的意思去理解,封装就好像是拿来一个麻袋,把小猫,小狗,小王八,小老虎一起装进麻袋,然后把麻袋封上口子.照这种逻辑看,封装='隐藏',这种理解是相当片面的 二,先看如何隐藏 在 ...