本文对应代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

  在上一篇文章中我们对geopandas中的坐标参考系有了较为深入的学习,而在日常空间数据分析工作中矢量文件的读入和写出,是至关重要的环节。

  作为基于geopandas的空间数据分析系列文章的第三篇,通过本文你将会学习到geopandas中的文件IO

2 文件IO

2.1 矢量文件的读入

  geopandasfiona作为操纵矢量数据读写功能的后端,使用geopandas.read_file()读取对应类型文件,而在后端实际上是使用fiona.open来读入数据,即两者参数是保持一致的,读入的数据自动转换为GeoDataFrame,下面是geopandas.read_file()主要参数:

filename:str类型,传入文件对应的路径或url

layer:str类型,当要读入的数据格式为地理数据库.gdbQGIS中的.gpkg时,传入对应图层的名称

  下面结合上述参数,来介绍一下使用geopandas.read_file()在不同情况下读取常见格式矢量数据的方法,使用到的示例数据为中国地图,CRSEPSG:4326,本文使用到的所有数据都可以在文章开头提及的Github仓库对应本文路径下找到:

图1

2.1.1 shapefile

  作为非常常见的一种矢量文件格式,geopandasshapefile提供了很好的读取和写出支持,下面分为不同情况来介绍:

  • 完整的shapefile

  如图2,这是一个完整的shapefile

图2

  使用geopandas来读取这种形式的shapefile很简单:

import geopandas as gpd

data = gpd.read_file('geometry/china_provinces/china_provinces.shp')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行

图3

  • 缺少投影的shapefile

  当shapefile中缺失.prj文件时,使用geopandas读入后形成的GeoDataFrame会缺失crs属性:

  

图4

  如果已经知道数据对应的CRS,可以在读入数据后补充上crs信息以进行其他操作:

import pyproj

data.crs = pyproj.CRS.from_user_input('EPSG:4326')
data.crs

图5

  • 直接读取文件夹

  当文件夹下只有单个shapefile时,可以直接读取该文件夹:

图6

  • 读取zip压缩包中的文件

  geopandas通过传入特定语法格式的文件路径信息,以支持直接读取.zip格式压缩包中的shapefile文件,主要分为两种情况。

  当文件在压缩包内的根目录时,使用下面的语法规则来读取数据:

zip://路径/xxx.zip

  譬如我们要读取图7所示的压缩包内文件:

图7

  按照对应的语法规则,读取该类型数据方式如下:

图8

  而当文件在压缩包内的文件夹中时,如图9:

  

图9

  使用下面的语法规则来读取数据:

zip://路径/xxx.zip!压缩包内指定文件路径

  将上述语法运用到上述文件:

图10

2.1.2 gdb与gpkg

  对于Arcgis中的地理数据库gdb,以及QGIS中的GeoPackage,要读取其包含的矢量数据,就要涉及到图层的概念,对应geopandas.read_file()layer参数,只需要将gdbgpkg文件路径作为filename参数,再将对应的图层名称作为layer参数传入:

  • gdb
data = gpd.read_file('geometry/china_provinces.gdb',
layer='china_provinces')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行

图11

  • gpkg

  类似读入gdb文件:

data = gpd.read_file('geometry/china_provinces.gpkg',
layer='china_provinces',
encoding='utf-8')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行

图12

2.1.3 GeoJSON

  作为web地图中最常使用的矢量数据格式,GeoJSON几乎被所有在线地图框架作为数据源格式,在geopandas中读取GeoJSON非常简单,只需要传入文件路径名称即可,下面我们来读入图13所示的文件:

图13
图14

2.1.4 过滤

  geopandas在0.1.0版本中新增了bbox过滤,在0.7.0版本中新增了蒙版过滤行过滤功能,可以辅助我们根据自己的需要读入原始数据中的子集,下面一一进行介绍:

  • bbox过滤

  bbox过滤允许我们在read_file()中传入一个边界框作为参数bbox,格式为(左下角x, 左下角y, 右上角x, 右上角y),这样在读入的过程中只会保留几何对象与bbox有相交的数据记录,下面我们仍然以上文中使用过的中国地图数据为例,我们在读入的过程中,传入边界框:

from shapely import geometry

data = gpd.read_file('geometry/china_provinces.json',
bbox=(100, 20, 110, 30)) %matplotlib widget
ax = data.plot()
# 绘制bbox框示意
ax = gpd.GeoSeries([geometry.box(minx=100,
miny=20,
maxx=110,
maxy=30).boundary]).plot(ax=ax, color='red')

图15

  可以看到只有跟红色框有相交的几何对象被读入。

  • 蒙版过滤

  蒙版过滤bbox过滤功能相似,都是筛选与指定区域相交的数据记录,不同的是蒙版过滤通过mask参数可以传入任意形状的多边形,不再像bbox过滤那样只接受矩形:

data = gpd.read_file('geometry/china_provinces.json',
mask=geometry.Polygon([(100, 20), (110, 30), (120, 20)])) ax = data.plot()
# 绘制bbox框示意
ax = gpd.GeoSeries([geometry.Polygon([(100, 20),
(110, 30),
(120, 20)]).boundary]).plot(ax=ax, color='red')

图16

  可以看到只有跟红色多边形相交的几何对象被读入。

  • 行过滤

  行过滤的功能就比较简单,通过参数rows控制读入原数据的前若干行,可以用于在读取大型数据时先快速查看前几行以了解整个数据的格式:

图17

2.2 矢量文件的写出

  在geopandas中使用to_file()来将GeoDataFrameGeoSeries写出为矢量文件,主要支持shapefileGeoJSON以及GeoPackage,不像geopandas.read_file()可以根据传入的文件名称信息自动推断类型,我们在写出矢量数据时就需要使用driver参数来声明文件类型:

  • ESRI Shapefile

  我们将上文最后一次读入的GeoDataFrame写出为ESRI Shapefile,设置driver参数为ESRI Shapefile,如果你对文件编码有要求,这里可以使用encoding参数来指定,譬如这里我们指定为utf-8

'''在工程根目录下创建output文件夹'''
import os try:
os.mkdir('output')
except FileExistsError:
pass data.to_file('output/output.shp',
driver='ESRI Shapefile',
encoding='utf-8')

  可以看到在output文件夹下,成功导出了完整的shapefile

图18

  而如果导出的文件名不加后缀扩展名,则会生成包含在新目录下的shapefile

data.to_file('output/output_shapefile',
driver='ESRI Shapefile',
encoding='utf-8')

图19

  也可以向指定的文件夹下追加图层:

data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer1',
encoding='utf-8') data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer2',
encoding='utf-8') data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer3',
encoding='utf-8')

图20

  • GeoPackage

  对于gdb文件,由于ESRI的限制,暂时无法在开源的geopandas中导出,但我们可以用QGIS中的GeoPackage作为替代方案(开源世界万岁O(∩_∩)O~~),只需要将driver参数设置为GPKG即可,这里需要注意一个bug:在使用geopandas导出GeoPackage文件时,可能会出现图21所示错误:

图21

  但我观察到即使出现了上述错误,GeoPackage文件也是成功保存到路径下的且整个程序并未被打断,因此可以无视上述错误:

图22

  • GeoJSON

  写出为GeoJSON非常容易,只需要设置driver='GeoJSON'即可:

图23

  以上就是本文的全部内容,如有笔误望指出!

(数据科学学习手札77)基于geopandas的空间数据分析——文件IO的更多相关文章

  1. (数据科学学习手札89)geopandas&geoplot近期重要更新

    本文示例代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 最近一段时间(本文写作于2020-07-1 ...

  2. (数据科学学习手札129)geopandas 0.10版本重要新特性一览

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 就在前不久,我们非常熟悉的Python地理 ...

  3. (数据科学学习手札111)geopandas 0.9.0重要新特性一览

    本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 就在几天前,geopandas释放了其最新正式版 ...

  4. (数据科学学习手札63)利用pandas读写HDF5文件

    一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...

  5. (数据科学学习手札146)geopandas中拓扑非法问题的发现、诊断与修复

    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,geopandas作为在Pyt ...

  6. (数据科学学习手札139)geopandas 0.11版本重要新特性一览

    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,就在几天前,geopandas ...

  7. (数据科学学习手札75)基于geopandas的空间数据分析——坐标参考系篇

    本文对应代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一篇文章中我们对geopandas中的数据结 ...

  8. (数据科学学习手札82)基于geopandas的空间数据分析——geoplot篇(上)

    本文示例代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在前面的基于geopandas的空间数据分 ...

  9. (数据科学学习手札84)基于geopandas的空间数据分析——空间计算篇(上)

    本文示例代码.数据及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在本系列之前的文章中我们主要讨论了g ...

随机推荐

  1. (分块)Holes CodeForces - 13E

    题意 n(n≤105)个洞排成一条直线,第ii个洞有力量值ai,当一个球掉进洞ii时就会被立刻弹到i+ai,直到超出n.进行m(m≤105)次操作: ·修改第i个洞的力量值ai. ·在洞xx上放一个球 ...

  2. [HAOI2015]树上操作(树链剖分)

    [HAOI2015]树上操作(luogu) Description 题目描述 有一棵点数为 N 的树,以点 1 为根,且树点有边权.然后有 M 个操作,分为三种: 操作 1 :把某个节点 x 的点权增 ...

  3. OpenCV里的颜色空间

    RGB三原色组合方式是最常用的 RGB色彩空间: R:红色分量 G:绿色分量 B:蓝色分量 HSV色彩空间: H - 色调(主波长). S - 饱和度(纯度/色调). V - 明度(强度). LAB色 ...

  4. JS-01-js的三种引入方式

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...

  5. 当vps服务器被墙,如果用xshell连接

    当然你的被墙了,肯定是访问不了,你得去找一个新的可用的节点去访问,在xshell里面设置代理就能连接上.上图. 然后是两个不同的结点 鼠标放在小火箭上面就能显示

  6. CTF--HTTP服务--SSI注入

    开门见山 1. 扫描靶场ip,发现VM 192.168.31.160 2. 扫描主机服务信息和服务版本 3. 快速扫描靶场全部信息 4. 探测开放的http的敏感信息 5. 再用dirb扫描敏感页面 ...

  7. Docker底层架构之简介

    简介 Docker 底层的核心技术包括 Linux 上的命名空间(Namespaces) 控制组(Control groups) Union 文件系统(Union file systems) 容器格式 ...

  8. Informatica9.5.1配置域名错误(ICMD_10033,INFASETUP_10002,RSVCSHARED_00021)

    错误信息: OutPut : [ICMD_10033] Command [defineDomain] failed with error [[INFASETUP_10002] Cannot creat ...

  9. innobackupex 恢复脚本

    此脚本需要与我前几天写的备份脚本配套才能使用 这里也对innobackupex吐槽下,当使用innobackupex进行恢复的时候,必须要清除所有原数据文件,但是一旦恢复失败,则连实例都将丢失,不成功 ...

  10. centos7 手动设置时间

    date -s "2020-02-03 23:13:00" hwclock -w clock -w