本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

  大家好我是费老师,前不久我在一篇文章中给大家分享过geopandas在其0.11版本中为我们带来的一些重要新特性,其中提到过新的矢量读写后端,使得我们在read_file()以及to_file()中添加参数engine='pyogrio'即可获得500%的性能提升。

  而新引擎带来的不仅是性能上的大幅提升,还带来了诸多实用功能以方便我们读写常见矢量文件,今天我就来给大家详细介绍这些新功能。

2 详解geopandas中的pyogrio读写引擎

  geopandas0.11版本之后新增的pyogrio引擎,基于geopandas团队开发的同名Python库,其基于OGR,而OGR则是著名的开源栅格空间数据转换框架GDAL的重要分支库,专注于矢量数据的高性能转换。

2.1 基于pyogrio的矢量文件读取

  对于0.11及以后版本的geopandas,向read_file()中传入engine='pyogrio'后,即可切换至底层基于pyogrio.read_dataframe()的读取引擎,获取大幅度性能提升的同时也拥有了众多的新功能参数,其中比较实用的有:

2.1.1 利用columns参数指定需要读入的字段

  开启pyogrio引擎后,我们可以通过设置参数columns来读入指定的若干字段,当你的矢量文件有很多无关紧要的字段时,可以利用此特性来整洁数据以及减少读入数据的内存消耗:

2.1.2 利用read_geometry参数设置是否忽略矢量列

  如果你不需要矢量文件中的矢量信息,只需要将其当作普通表格数据进行读入,开启pyogrio引擎后,设置read_geometry=False即可,所形成对象的类型也会变为普通的DataFrame

2.1.3 利用force_2d参数强制忽略z轴信息

  有些情况下,矢量数据中的坐标信息带有z轴高度信息,如果分析过程中用不上该维度信息,可以在开启pyogrio引擎后设置force_2d=True强制转换为2D矢量,非常方便:

2.1.4 利用skip_features与max_features参数控制读入数据规模

  在开启pyogrio引擎后,通过设置参数skip_features可以控制从数据第0行开始需要跳过的要素记录数量:

  而通过设置参数max_features则可以控制最多读取多少行要素记录,当我们的矢量文件记录行很多,而我们又只想简单查看几行看看数据长什么样时,这个参数就很实用了:

2.1.5 利用参数where对矢量文件进行条件过滤

  这个新特性非常实用,我们可以像写SQL查询语句那样传入我们的过滤条件,从而帮助我们在读取数据时就实现比较丰富自由的条件过滤效果,值得注意的是,针对中文等由unicode字符构成的字段名,需要将其包裹在""中进行定义,参考下图中我的做法:

2.1.6 利用sql参数在原数据上直接进行sql查询

  前面我们介绍了多种用于过滤原数据的实用参数,而在在开启pyogrio引擎后还有个非常实用的参数sql,可以帮助我们直接书写SQL语句对原数据进行提取(注意,其执行顺序先于上述其他过滤类参数):

  但要注意的是,目前pyogrio引擎的sql参数,在读取诸如含有中文等unicode字符信息的shapefile文件时,不能正常的解析内容,而针对GeoJSONgpkg等其他格式矢量文件时则一切正常:

  • GeoJSON文件正常

  • gpkg文件正常

  • shapefile文件乱码,亲测即使指定encoding也无效

  所以现阶段建议读取shapefile文件时,可以使用columns+where的组合方式代替sql以实现同样的效果。

2.2 基于pyogrio的矢量文件写出

  相较于文件的读取,新引擎中涉及文件写出的功能参数就寡淡很多,只发现一个比较特别的promote_to_multi参数,用于强制将单部件要素转换为多部件要素:

2.3 pyogrio引擎支持的所有矢量文件类型

  你可以通过pyogrio.list_drivers()查看新引擎所支持的全部矢量文件格式,基本上只有你想不到没有它覆盖不到:

  更多相关内容,可以前往https://pyogrio.readthedocs.io/en/latest/api.html?#geopandas-integration阅读了解更多。


  以上就是本文的全部内容,欢迎在评论区与我进行讨论~

(数据科学学习手札140)详解geopandas中基于pyogrio的矢量读写引擎的更多相关文章

  1. (数据科学学习手札96)在geopandas中叠加在线地图

    本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 国庆期间,抽空给大家分享在geopandas中叠 ...

  2. (数据科学学习手札44)在Keras中训练多层感知机

    一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度 ...

  3. (数据科学学习手札143)为geopandas添加gdb文件写出功能

    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,很多读者朋友跟随着我先前写作的 ...

  4. (数据科学学习手札93)利用geopandas与PostGIS进行交互

    本文完整代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 PostGIS作为postgresql针对 ...

  5. (数据科学学习手札130)利用geopandas快捷绘制在线地图

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一篇文章中,我为大家介绍了不久前发布的 ...

  6. (数据科学学习手札133)利用geopandas绘制拓扑着色地图

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在绘制某些地图时,为了凸显出每个独立的 ...

  7. (数据科学学习手札125)在Python中操纵json数据的最佳方式

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在日常使用Python的过程中,我们经常会 ...

  8. (数据科学学习手札127)在Python中使用icecream实现高效debug

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 尽管有那么多花里胡哨的debug工具和方式 ...

  9. (数据科学学习手札71)在Python中制作个性化词云图

    本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 词云图是文本挖掘中用来表征词频的数据可视化 ...

随机推荐

  1. java中的stream是啥?

    函数式编程的执行是惰性的,按顺序真正执行的时候才会执行相应的代码.方法: 函数式编程是安全的,用的是monad架构 1 public class StreamTest { 2 3 public sta ...

  2. 开发并发布npm包,支持TypeScript提示,rollup构建打包

    前言: 工作了几年,想把一些不好找现成的库的常用方法整理一下,发布成npm包,方便使用.也学习一下开发发布流程. 主要用到的工具:npm. 开发库:babel.typescript.rollup.es ...

  3. C#自定义配置文件(一)

    C#自定义配置文件 .NET程序中,经常使用Config文件来配置应用程序中经常使用的值,比如数据库连接字符串.最近项目遇到一个需要配置好多节点在配置文件中的需求.为了使配置节点整洁易维护,在代码调用 ...

  4. Python最强IDE(PyCharm)安装教程

    欢迎关注公众号[Python开发实战],免费领取Python学习电子书! PyCharm是目前最流行.使用最广泛的Python IDE(Integrated Development Environme ...

  5. CTF中常见密码学

    前言 参考,我们任课老师的WORD和PPT,结合自己的理解,在结合网上文章的理解. 一.BASE64编码 BASE64编码中,特征和所拥有的字符字母:A-Z a-z;数字:0-9;符号:+ / ,然后 ...

  6. 中国电子云数据库 Mesh 项目 DBPack 的实践

    作者:刘晓敏 2022 年 4 月,中国电子云开源了其云原生数据库 Mesh 项目 DBPack.该项目的诞生,旨在解决用户上云过程中面临的一些技术难点,诸如分布式事务.分库分表等.由于它数据库 Me ...

  7. visio 画泳道图

    参考

  8. MySQL深入学习-day1

    书名<MySQL是怎样运行的:从根儿上理解MySQL>可自行百度 以下是知识点总结 重新认识Mysql MySQL是一个C/S架构的软件. 在Windows安装后首先注册成服务,然后会在开 ...

  9. 152. Maximum Product Subarray - LeetCode

    Question 152. Maximum Product Subarray Solution 题目大意:求数列中连续子序列的最大连乘积 思路:动态规划实现,现在动态规划理解的还不透,照着公式往上套的 ...

  10. Android shape与selector标签使用

    原文地址:Android shape与selector标签使用 Android中提供一种xml的方式,让我们可以自由地定义背景,比较常用的就是shape标签和selector标签 shape shap ...