(数据科学学习手札77)基于geopandas的空间数据分析——文件IO
本文对应代码和数据已上传至我的
Github
仓库https://github.com/CNFeffery/DataScienceStudyNotes
1 简介
在上一篇文章中我们对geopandas
中的坐标参考系有了较为深入的学习,而在日常空间数据分析工作中矢量文件的读入和写出,是至关重要的环节。
作为基于geopandas的空间数据分析系列文章的第三篇,通过本文你将会学习到geopandas
中的文件IO。
2 文件IO
2.1 矢量文件的读入
geopandas
将fiona
作为操纵矢量数据读写功能的后端,使用geopandas.read_file()
读取对应类型文件,而在后端实际上是使用fiona.open
来读入数据,即两者参数是保持一致的,读入的数据自动转换为GeoDataFrame
,下面是geopandas.read_file()
主要参数:
filename:str类型,传入文件对应的路径或url
layer:str类型,当要读入的数据格式为地理数据库.gdb
或QGIS
中的.gpkg
时,传入对应图层的名称
下面结合上述参数,来介绍一下使用geopandas.read_file()
在不同情况下读取常见格式矢量数据的方法,使用到的示例数据为中国地图,CRS
为EPSG:4326
,本文使用到的所有数据都可以在文章开头提及的Github
仓库对应本文路径下找到:
图1
2.1.1 shapefile
作为非常常见的一种矢量文件格式,geopandas
对shapefile
提供了很好的读取和写出支持,下面分为不同情况来介绍:
- 完整的shapefile
如图2,这是一个完整的shapefile
:
图2
使用geopandas
来读取这种形式的shapefile
很简单:
import geopandas as gpd
data = gpd.read_file('geometry/china_provinces/china_provinces.shp')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行
图3
- 缺少投影的shapefile
当shapefile
中缺失.prj
文件时,使用geopandas
读入后形成的GeoDataFrame
会缺失crs
属性:
图4
如果已经知道数据对应的CRS
,可以在读入数据后补充上crs
信息以进行其他操作:
import pyproj
data.crs = pyproj.CRS.from_user_input('EPSG:4326')
data.crs
图5
- 直接读取文件夹
当文件夹下只有单个shapefile时,可以直接读取该文件夹:
图6
- 读取zip压缩包中的文件
geopandas
通过传入特定语法格式的文件路径信息,以支持直接读取.zip
格式压缩包中的shapefile
文件,主要分为两种情况。
当文件在压缩包内的根目录时,使用下面的语法规则来读取数据:
zip://路径/xxx.zip
譬如我们要读取图7所示的压缩包内文件:
图7
按照对应的语法规则,读取该类型数据方式如下:
图8
而当文件在压缩包内的文件夹中时,如图9:
图9
使用下面的语法规则来读取数据:
zip://路径/xxx.zip!压缩包内指定文件路径
将上述语法运用到上述文件:
图10
2.1.2 gdb与gpkg
对于Arcgis
中的地理数据库gdb
,以及QGIS
中的GeoPackage
,要读取其包含的矢量数据,就要涉及到图层的概念,对应geopandas.read_file()
的layer
参数,只需要将gdb
或gpkg
文件路径作为filename
参数,再将对应的图层名称作为layer
参数传入:
- gdb
data = gpd.read_file('geometry/china_provinces.gdb',
layer='china_provinces')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行
图11
- gpkg
类似读入gdb
文件:
data = gpd.read_file('geometry/china_provinces.gpkg',
layer='china_provinces',
encoding='utf-8')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行
图12
2.1.3 GeoJSON
作为web地图中最常使用的矢量数据格式,GeoJSON
几乎被所有在线地图框架作为数据源格式,在geopandas
中读取GeoJSON
非常简单,只需要传入文件路径名称即可,下面我们来读入图13所示的文件:
图13
图14
2.1.4 过滤
geopandas
在0.1.0版本中新增了bbox过滤,在0.7.0版本中新增了蒙版过滤和行过滤功能,可以辅助我们根据自己的需要读入原始数据中的子集,下面一一进行介绍:
- bbox过滤
bbox过滤允许我们在read_file()
中传入一个边界框作为参数bbox
,格式为(左下角x, 左下角y, 右上角x, 右上角y)
,这样在读入的过程中只会保留几何对象与bbox
有相交的数据记录,下面我们仍然以上文中使用过的中国地图数据为例,我们在读入的过程中,传入边界框:
from shapely import geometry
data = gpd.read_file('geometry/china_provinces.json',
bbox=(100, 20, 110, 30))
%matplotlib widget
ax = data.plot()
# 绘制bbox框示意
ax = gpd.GeoSeries([geometry.box(minx=100,
miny=20,
maxx=110,
maxy=30).boundary]).plot(ax=ax, color='red')
图15
可以看到只有跟红色框有相交的几何对象被读入。
- 蒙版过滤
蒙版过滤和bbox过滤功能相似,都是筛选与指定区域相交的数据记录,不同的是蒙版过滤通过mask
参数可以传入任意形状的多边形,不再像bbox过滤那样只接受矩形:
data = gpd.read_file('geometry/china_provinces.json',
mask=geometry.Polygon([(100, 20), (110, 30), (120, 20)]))
ax = data.plot()
# 绘制bbox框示意
ax = gpd.GeoSeries([geometry.Polygon([(100, 20),
(110, 30),
(120, 20)]).boundary]).plot(ax=ax, color='red')
图16
可以看到只有跟红色多边形相交的几何对象被读入。
- 行过滤
行过滤的功能就比较简单,通过参数rows
控制读入原数据的前若干行,可以用于在读取大型数据时先快速查看前几行以了解整个数据的格式:
图17
2.2 矢量文件的写出
在geopandas
中使用to_file()
来将GeoDataFrame
或GeoSeries
写出为矢量文件,主要支持shapefile
、GeoJSON
以及GeoPackage
,不像geopandas.read_file()
可以根据传入的文件名称信息自动推断类型,我们在写出矢量数据时就需要使用driver
参数来声明文件类型:
- ESRI Shapefile
我们将上文最后一次读入的GeoDataFrame
写出为ESRI Shapefile
,设置driver
参数为ESRI Shapefile
,如果你对文件编码有要求,这里可以使用encoding
参数来指定,譬如这里我们指定为utf-8
:
'''在工程根目录下创建output文件夹'''
import os
try:
os.mkdir('output')
except FileExistsError:
pass
data.to_file('output/output.shp',
driver='ESRI Shapefile',
encoding='utf-8')
可以看到在output文件夹下,成功导出了完整的shapefile
:
图18
而如果导出的文件名不加后缀扩展名,则会生成包含在新目录下的shapefile
:
data.to_file('output/output_shapefile',
driver='ESRI Shapefile',
encoding='utf-8')
图19
也可以向指定的文件夹下追加图层:
data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer1',
encoding='utf-8')
data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer2',
encoding='utf-8')
data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer3',
encoding='utf-8')
图20
- GeoPackage
对于gdb
文件,由于ESRI
的限制,暂时无法在开源的geopandas
中导出,但我们可以用QGIS
中的GeoPackage
作为替代方案(开源世界万岁O(∩_∩)O~~),只需要将driver
参数设置为GPKG
即可,这里需要注意一个bug:在使用geopandas
导出GeoPackage
文件时,可能会出现图21所示错误:
图21
但我观察到即使出现了上述错误,GeoPackage
文件也是成功保存到路径下的且整个程序并未被打断,因此可以无视上述错误:
图22
- GeoJSON
写出为GeoJSON
非常容易,只需要设置driver='GeoJSON'
即可:
图23
以上就是本文的全部内容,如有笔误望指出!
(数据科学学习手札77)基于geopandas的空间数据分析——文件IO的更多相关文章
- (数据科学学习手札89)geopandas&geoplot近期重要更新
本文示例代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 最近一段时间(本文写作于2020-07-1 ...
- (数据科学学习手札129)geopandas 0.10版本重要新特性一览
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 就在前不久,我们非常熟悉的Python地理 ...
- (数据科学学习手札111)geopandas 0.9.0重要新特性一览
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 就在几天前,geopandas释放了其最新正式版 ...
- (数据科学学习手札63)利用pandas读写HDF5文件
一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...
- (数据科学学习手札146)geopandas中拓扑非法问题的发现、诊断与修复
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,geopandas作为在Pyt ...
- (数据科学学习手札139)geopandas 0.11版本重要新特性一览
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,就在几天前,geopandas ...
- (数据科学学习手札75)基于geopandas的空间数据分析——坐标参考系篇
本文对应代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一篇文章中我们对geopandas中的数据结 ...
- (数据科学学习手札82)基于geopandas的空间数据分析——geoplot篇(上)
本文示例代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在前面的基于geopandas的空间数据分 ...
- (数据科学学习手札84)基于geopandas的空间数据分析——空间计算篇(上)
本文示例代码.数据及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在本系列之前的文章中我们主要讨论了g ...
随机推荐
- Vs中提交了代码但是不想推送到Git中
1:首先就是我fix code 是要提交上去的,所以我就开始提交呢,但是,一看提交后,还没有推送到git就是现在下面的这个状态 上面这个是==> 这是先新增的文件,第一步.但是第一步就差推送了, ...
- springcloud复习1
1.SpringCloud是什么?SpringCloud=分布式微服务架构下的一站式解决方案,是各个微服务架构落地技术的集合体,俗称微服务全家桶. 2.SpringCloud和SpringBoot是什 ...
- Excel大数据排查重复行内容方法,三步搞定!
首先第一步,我们找到一个空白列D输入公式“=A1&B1&C1”: 然后第二步,再选择下一空白列输入公式“=IF(COUNTIF(D:D,D1)>1,"重复", ...
- ASP.NET 开源导入导出库Magicodes.IE 导出Pdf教程
基础教程之导出Pdf收据 说明 本教程主要说明如何使用Magicodes.IE.Pdf完成Pdf收据导出 要点 导出PDF数据 自定义PDF模板 导出单据 如何批量导出单据 导出特性 PdfExpor ...
- scrapy selector选择器
这部分内容属于补充内容 1.xpath() 2.css() 3.正则表达式 # 多个值,列表 response.xpath('//a/text()').re('(.*?):\s(.*)') # 取第一 ...
- http请求头中的content-type属性
在HTTP请求中,我们每天都在使用Content-Type来指定不同格式的请求信息,但是却很少有人去全面了解Content-Type中允许的值有多少,因此这里来了解一下Content-Type的可用值 ...
- .net core 连接数据库(通过数据库生成Modell)
创建数据库 (扫盲贴还劳烦大神们勿喷,谢谢) 打开数据库 输入如下代码 创建数据库 CREATE DATABASE [Blogging]; GO USE [Blogging]; GO CREATE T ...
- Error:Cannot build artifact 'XXX:war exploded' because it is included into a circular dependency (artifact 'XXXX:war exploded', artifact 'XXX:war exploded') Idea启动项目报错解决方案
在Idea中使用Maven创建父子工程,第一个Model的那个项目可以很好的运行,在创建一个Model运行时报这个错.原因是tomcat部署了多个Web项目,可能最开始是两个项目的配置文件混用用,最后 ...
- L1和L2:损失函数和正则化
作为损失函数 L1范数损失函数 L1范数损失函数,也被称之为最小绝对值误差.总的来说,它把目标值$Y_i$与估计值$f(x_i)$的绝对差值的总和最小化. $$S=\sum_{i=1}^n|Y_i-f ...
- redis server can not continue