申明：本系列文章是自己在学习《利用Python进行数据分析》这本书的过程中，为了方便后期自己巩固知识而整理。

1 pandas读取文件的解析函数

read_csv 读取带分隔符的数据，默认分隔符逗号

read_table 读取带分隔符的数据，默认分隔符 “\t”

read_fwf 读取定宽、列格式数据（无分隔符）

read_clipboard 读取剪贴板中的数据（将网页转换为表格）

1.1 读取excel数据

import pandas as pd

import numpy as np

file = 'D:\example.xls'

pd = pd.read_excel(file)

pd

运行结果：

1.1.1 不显示表头

pd = pd.read_excel(file,header=None)

运行结果：

1.1.2 设置表头

pd = pd.read_excel(file,names=['Year','Name','Math','Chinese','EngLish','Avg'])

运行结果：

1.1.3 指定索引

pd = pd.read_excel(file,index_col= '姓名')

运行结果：

2 读取CSV数据

import pandas as pd

import numpy as np

pd = pd.read_csv("d:\\test.csv",engine='python')

pd

运行结果：

import pandas as pd

import numpy as np

pd = pd.read_table("d:\\test.csv",engine='python')

pd

运行结果：

import pandas as pd

import numpy as np

pd = pd.read_fwf("d:\\test.csv",engine='python')

pd

运行结果：

3 将数据写出到文本格式

将数据写出到csv格式，默认分隔符逗号

import pandas as pd

import numpy as np

pd = pd.read_fwf("d:\\test.csv",engine='python')

pd.to_csv("d:\\test1.csv",encoding='gbk')

运行结果：

4 手工处理分隔符格式

单字符分隔符文件，直接用csv模块

import pandas as pd
import numpy as np
import csv
file = 'D:\\test.csv'
pd = pd.read_csv(file,engine='python')
pd.to_csv("d:\\test1.csv",encoding='gbk',sep='/')
f = open("d:\\test1.csv")
reader = csv.reader(f)
for line in reader:
print(line)

运行结果：

4.1 缺失值填充

import pandas as pd

import numpy as np

import csv

file = 'D:\\test.csv'

pd = pd.read_csv(file,engine='python')

pd.to_csv("d:\\test1.csv",encoding='gbk',sep='/',na_rep='NULL')

f = open("d:\\test1.csv")

reader = csv.reader(f)

for line in reader:

    print(line)

运行结果：

4.2 JSON

4.2.1 json.loads 可将JSON字符串转换成Python形式

import pandas as pd

import numpy as np

import json

obj = """{

  "sucess" : "1",

  "header" : {

    "version" : 0,

    "compress" : false,

    "times" : 0

  },

  "data" : {

    "name" : "BankForQuotaTerrace",

    "attributes" : {

      "queryfound" : "1",

      "numfound" : "1",

      "reffound" : "1"

    },

    "columnmeta" : {

      "a0" : "DATE",

      "a1" : "DOUBLE",

      "a2" : "DOUBLE",

      "a3" : "DOUBLE",

      "a4" : "DOUBLE",

      "a5" : "DOUBLE",

      "a6" : "DATE",

      "a7" : "DOUBLE",

      "a8" : "DOUBLE",

      "a9" : "DOUBLE",

      "b0" : "DOUBLE",

      "b1" : "DOUBLE",

      "b2" : "DOUBLE",

      "b3" : "DOUBLE",

      "b4" : "DOUBLE",

      "b5" : "DOUBLE"

    },

    "rows" : [ [ "2017-10-28", 109.8408691012081, 109.85566362201733, 0.014794520809225841, 1.0, null, "", 5.636678251676443, 5.580869556115291, 37.846934105222246, null, null, null, null, null, 0.061309012867495856 ] ]

  }

}

"""

result = json.loads(obj)

result

运行结果：

4.2.2 json.dumps可将Python字符串转换成JSON形式

result = json.loads(obj)
asjson=json.dumps(result)
asjson

运行结果：

4.2.3 JSON数据转换成DataFrame

import pandas as pd

import numpy as np

from pandas import DataFrame

import json

obj = """{

  "sucess" : "1",

  "header" : {

    "version" : 0,

    "compress" : false,

    "times" : 0

  },

  "data" : {

    "name" : "BankForQuotaTerrace",

    "attributes" : {

      "queryfound" : "1",

      "numfound" : "1",

      "reffound" : "1"

    },

    "columnmeta" : {

      "a0" : "DATE",

      "a1" : "DOUBLE",

      "a2" : "DOUBLE",

      "a3" : "DOUBLE",

      "a4" : "DOUBLE",

      "a5" : "DOUBLE",

      "a6" : "DATE",

      "a7" : "DOUBLE",

      "a8" : "DOUBLE",

      "a9" : "DOUBLE",

      "b0" : "DOUBLE",

      "b1" : "DOUBLE",

      "b2" : "DOUBLE",

      "b3" : "DOUBLE",

      "b4" : "DOUBLE",

      "b5" : "DOUBLE"

    },

    "rows" : [ [ "2017-10-28", 109.8408691012081, 109.85566362201733, 0.014794520809225841, 1.0, null, "", 5.636678251676443, 5.580869556115291, 37.846934105222246, null, null, null, null, null, 0.061309012867495856 ] ]

  }

}

"""

result = json.loads(obj)

result

jsondf = DataFrame(result['data'],columns = ['name','attributes','columnmeta'],index={1,2,3})

jsondf

运行结果：

备注：其中attributes和columnmeta，存在嵌套，这个问题后面再补充。

4.3 XML和HTML

爬取同花顺网页中的列表数据，并转换成DataFrame

在爬取的时候，我这里没有考虑爬分页的数据，有兴趣的可以自己尝试，我这里主要是想尝试爬取数据后转成DataFrame

代码如下：

import pandas as pd

import numpy as np

from pandas.core.frame import DataFrame

from lxml.html import parse

import requests

from bs4 import BeautifulSoup

import time

url = 'http://data.10jqka.com.cn/market/longhu/'

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

response = requests.get(url = url,headers = headers)

html = response.content

soup = BeautifulSoup(html, 'lxml')

s = soup.find_all('div','yyb')

# 获取dataframe所需的columns

def getcol():

    col = []

    for i in s:

        lzs = i.find_all('thead')

        for k in lzs:

            lbs = k.find_all('th')

            for j in lbs:

                col.append(j.text.strip('\n'))

            return col

# 获取dataframe所需的values

def getvalues():

    val = []

    for j in s:

        v = j.find_all('tbody')

        for k in v:

            vv = k.find_all('tr')

            list = []

            for l in vv:

                tdlist = []

                vvv = l.find_all('td')

                for m in vvv:

                    tdlist.append(m.text)

                list.append(tdlist)

            return(list)

if __name__ == "__main__":

    cols = getcol()

    values = getvalues()

    data=DataFrame(values,columns=cols)

    print(data)

运行结果：

4.4 二进制数据格式

pandas对象的save方法保存，load方法读回到Python

4.5 HDF5格式

HDF是层次型数据格式，HDF5文件含一个文件系统式的节点结构，支持多个数据集、元数据，可以高效的分块读写。Python中的HDF5库有2个接口：PyTables和h5py。

海量数据应该考虑用这个，现在我没用着，先不研究了。

4.6 使用HTML和Web API

import requests
import pandas as pd
from pandas import DataFrame
import json
url = 'http://t.weather.sojson.com/api/weather/city/101030100'
resp = requests.get(url)
data = json.loads(resp.text)#这里的data是一个dict
jsondf = DataFrame(data['cityInfo'],columns =['city','cityId','parent','updateTime'],index=[1])#实例化
jsondf

运行结果：

4.7 使用数据库

4.7.1 sqlite3

import sqlite3

import pandas.io.sql as sql

con = sqlite3.connect()

sql.read_frame('select * from test',con)#con 是一个连接对象

4.7.1 MongoDB

没装。先搁置。

利用Python进行数据分析_Pandas_数据加载、存储与文件格式的更多相关文章

利用python进行数据分析之数据加载存储与文件格式
在开始学习之前,我们需要安装pandas模块.由于我安装的python的版本是2.7,故我们在https://pypi.python.org/pypi/pandas/0.16.2/#downloads ...
利用Python进行数据分析_Pandas_数据清理、转换、合并、重塑
1 合并数据集 pandas.merge pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, le ...
python数据分析笔记——数据加载与整理]
[ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...
利用Python进行数据分析_Pandas_处理缺失数据
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 1 读取excel数据 import pandas as pd import ...
利用Python进行数据分析_Pandas_数据结构
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 首先,需要导入pandas库的Series和DataFrame In [21] ...
利用Python进行数据分析_Pandas_层次化索引
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 层次化索引主要解决低纬度形式处理高纬度数据的问题 import pandas ...
利用Python进行数据分析_Pandas_基本功能
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 第一重新索引 Series的reindex方法 In [15]: obj = ...
利用Python进行数据分析_Pandas_汇总和计算描述统计
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. In [1]: import numpy as np In [2]: impo ...
利用python进行数据分析之数据规整化
数据分析和建模大部分时间都用在数据准备上,数据的准备过程包括:加载,清理,转换与重塑. 合并数据集 pandas对象中的数据可以通过一些内置方法来进行合并: pandas.merge可根据一个或多个键 ...

随机推荐

python ros 四元数转欧拉角
#! /usr/bin/python import PyKDL import rospy from sensor_msgs.msg import Imu from nav_msgs.msg impor ...
Codeforces Round #591 (Div. 2, based on Technocup 2020 Elimination Round 1)
Virtual participate 的,D题不会做,打了1:30就打不动了,过了ABCE. A - CME 题意:? 题解:? void test_case() { int n; scanf(&q ...
走进JavaWeb技术世界16：极简配置的SpringBoot
一位阿里 Java 工程师的技术小站.作者黄小斜,专注 Java 相关技术:SSM.SpringBoot.MySQL.分布式.中间件.集群.Linux.网络.多线程,偶尔讲点Docker.ELK,同时 ...
jmeter 常用插件
一.下载安装及使用下载地址:https://jmeter-plugins.org/install/Install/ 安装:下载后文件为plugins-manager.jar格式,将其放入jmeter ...
黑马vue---33、vue-resource 实现 get, post, jsonp请求
黑马vue---33.vue-resource 实现 get, post, jsonp请求一.总结一句话总结: vue-resource使用非常非常非常简单:this.$http.get('htt ...
ORACLE中声明变量：define variable declare
在sqlplus 环境中,声明变量的关键字:define variable declare 一.define关键字(host变量) host变量的作用是一个替换作用,是主机环境与oracle进行交互的 ...
Nginx可以说是标配组件，但是主要场景还是负载均衡、反向代理、代理缓存、限流等场景；而把Nginx作为一个Web容器使用的还不是那么广泛。
Nginx可以说是标配组件,但是主要场景还是负载均衡.反向代理.代理缓存.限流等场景:而把Nginx作为一个Web容器使用的还不是那么广泛. 用Nginx+Lua(OpenResty)开发高性能Web ...
虎牙在全球 DNS 秒级生效上的实践集群内通过 raft 协议同步数据，毫秒级别完成同步。
https://mp.weixin.qq.com/s/9bEiE4QFBpukAfNOYhmusw 虎牙在全球 DNS 秒级生效上的实践原创: 周健&李志鹏阿里巴巴中间件今天
简易的CRM系统案例之Servlet+Jsp+MySQL版本
数据库配置 datebase.properties driver=com.mysql.jdbc.Driver url=jdbc:mysql://127.0.0.1:3306/infos usernam ...
Keyframe类-动画中关键帧概念
package com.loaderman.customviewdemo; import android.animation.Animator; import android.animation.Ke ...

利用Python进行数据分析_Pandas_数据加载、存储与文件格式

1 pandas读取文件的解析函数

1.1 读取excel数据

1.1.1 不显示表头

1.1.2 设置表头

1.1.3 指定索引

2 读取CSV数据

3 将数据写出到文本格式

4 手工处理分隔符格式

4.1 缺失值填充

4.2 JSON

4.2.1 json.loads 可将JSON字符串转换成Python形式

4.2.2 json.dumps可将Python字符串转换成JSON形式

4.2.3 JSON数据转换成DataFrame

4.3 XML和HTML

4.4 二进制数据格式

4.5 HDF5格式

4.6 使用HTML和Web API

4.7 使用数据库

4.7.1 sqlite3

4.7.1 MongoDB

利用Python进行数据分析_Pandas_数据加载、存储与文件格式的更多相关文章

随机推荐

热门专题