另类爬虫：从PDF文件中爬取表格数据

简介

本文将展示一个稍微不一样点的爬虫。

以往我们的爬虫都是从网络上爬取数据，因为网页一般用HTML,CSS,JavaScript代码写成，因此，有大量成熟的技术来爬取网页中的各种数据。这次，我们需要爬取的文档为PDF文件。本文将展示如何利用Python的camelot模块从PDF文件中爬取表格数据。

在我们的日常生活和工作中，PDF文件无疑是最常用的文件格式之一，小到教材、课件，大到合同、规划书，我们都能见到这种文件格式。但如何从PDF文件中提取其中的表格，这却是一个大难题。因为PDF中没有一个内部的表示方式来表示一个表格。这使得表格数据很难被抽取出来做分析。那么，我们如何做到从PDF中爬取表格数据呢？

答案是Python的camelot模块！

camelot是Python的一个模块，它能够让任何人轻松地从PDF文件中提取表格数据。可以使用以下命令安装camelot模块（安装时间较长）：

pip install camelot-py

camelot模块的官方文档地址为：https://camelot-py.readthedocs.io/en/master/。

下面将展示如何利用camelot模块从PDF文件中爬取表格数据。

例1

首先，让我们看一个简单的例子：eg.pdf，整个文件只有一页，这一页中只有一个表格，如下：

使用以下Python代码就可以提取该PDF文件中的表格：

import camelot

# 从PDF文件中提取表格

tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream')

# 表格信息

print(tables)

print(tables[0])

# 表格数据

print(tables[0].data)

输出结果为：

<TableList n=1>

<Table shape=(4, 4)>

[['ID', '姓名', '城市', '性别'], ['1', 'Alex', 'Shanghai', 'M'], ['2', 'Bob', 'Beijing', 'F'], ['3', 'Cook', 'New York', 'M']]

分析代码，camelot.read_pdf()为camelot的从表格中提取数据的函数，输入的参数为PDF文件的路径，页码（pages）和表格解析方法（有stream和lattice两个方法）。对于表格解析方法，默认的方法为lattice，而stream方法默认会把整个PDF页面当做一个表格来解析，如果需要指定解析页面中的区域，可以使用table_area这个参数。

camelot模块的便捷之处还在于它提供了将提取后的表格数据直接转化为pandas，csv，JSON，html的函数，如tables[0].df，tables[0].to_csv()函数等。我们以输出csv文件为例：

import camelot

# 从PDF文件中提取表格

tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream')

# 将表格数据转化为csv文件

tables[0].to_csv('E://eg.csv')

得到的csv文件如下：

例2

在例2中，我们将提取PDF页面中的某一区域的表格的数据。PDF文件的页面（部分）如下：

为了提取整个页面中唯一的表格，我们需要定位表格所在的位置。PDF文件的坐标系统与图片不一样，它以左下角的顶点为原点，向右为x轴，向上为y轴，可以通过以下Python代码输出整个页面的文字的坐标情况：

import camelot

# 从PDF中提取表格

tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \

                          flavor='stream')

# 绘制PDF文档的坐标，定位表格所在的位置

tables[0].plot('text')

输出结果为：

UserWarning: No tables found on page-53 [stream.py:292]

整个代码没有找到表格，这是因为stream方法默认将整个PDF页面当作表格，因此就没有找到表格。但是绘制的页面坐标的图像如下：

仔细对比之前的PDF页面，我们不难发现，表格对应的区域的左上角坐标为（50,620），右下角的坐标为（500,540）。我们在read_pdf()函数中加入table_area参数，完整的Python代码如下：

import camelot

# 识别指定区域中的表格数据

tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \

                          flavor='stream', table_area=['50,620,500,540'])

# 绘制PDF文档的坐标，定位表格所在的位置

table_df = tables[0].df

print(type(table_df))

print(table_df.head(n=6))

输出的结果为：

<class 'pandas.core.frame.DataFrame'>

         0               1                2           3

0  Student  Pre-test score  Post-test score  Difference

1        1              70               73           3

2        2              64               65           1

3        3              69               63          -6

4        …               …                …           …

5       34              82               88           6

总结

在具体识别PDF页面中的表格时，除了指定区域这个参数，还有上下标、单元格合并等参数，详细地使用方法可参考camelot官方文档网址：https://camelot-py.readthedocs.io/en/master/user/advanced.html。

注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape），欢迎大家关注哦~~

参考文献

camelot模块的官方文档：https://camelot-py.readthedocs.io/en/master/
Camelot：一个从pdf抽取表格数据的Python库：https://blog.csdn.net/qq_40925239/article/details/83153599

另类爬虫：从PDF文件中爬取表格数据的更多相关文章

爬虫(十)：AJAX、爬取AJAX数据
1. AJAX 1.1 什么是AJAX AJAX即“Asynchronous JavaScript And XML”(异步JavaScript和XML)可以使网页实现异步更新,就是不重新加载整个网页的 ...
慕课网python分布式爬虫打造搜索引擎视频中爬取伯乐网文章
代码:https://github.com/longbigbeard/scrapy_demo
爬虫从网页中去取的数据中包含 空格
爬虫从网页中爬取的数据中带了一个这样的空格,使用trim()函数和replace(" ", "")去掉不了,找了一下资料发现,空格有两种一种是从键盘输入的对应 ...
使用Python从PDF文件中提取数据
前言数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中
1.下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮上面这张图直接Next 把bin路径添加 ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
一个月入门Python爬虫，轻松爬取大规模数据
Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...

随机推荐

使用IDEA进行版本控制
1.使用IDEA进行版本控制创建git repository add-添加到暂存区 commit-提交到本地库 push-推送指定远程库(自己的) idea上的pull指的是合并(merge),并非 ...
Python Moment.js api
moment.js(js date)日期格式化处理插件强大,官方网站:http://momentjs.com/你也可以查看官方网站E文原版moment.js api.当前日期格式化 moment(). ...
banner
依赖 compile 'com.youth.banner:banner:+' 主Activity private void bannerLunBo() { MyBanner.setImageLoade ...
CentOS7 openssh7.9p1安装
先安装telnet,以防安装ssh出现问题,无法远程登录设备. 最新版openssh下载地址:http://www.openssh.com/ftp.html 一.安装telnet和xinetd: 1. ...
轻松读懂IL
轻松读懂IL先说说学IL有什么用,有人可能觉得这玩意平常写代码又用不上,学了有个卵用.到底有没有卵用呢,暂且也不说什么学了可以看看一些语法糖的实现,或对.net理解更深一点这些虚头巴脑的东西.最重要的 ...
像纸质笔记本一样给div,textarea添加行的分割线
想要给textarea添加一个背景图来实现但是背景图有几个问题, 1.每个div或者textarea的line-height不一样,对于每个不同的line-height都需要一个不同的背景图 2.当 ...
Ettercap 实施中间人攻击
中间人攻击(MITM)该攻击很早就成为了黑客常用的一种古老的攻击手段,并且一直到如今还具有极大的扩展空间,MITM攻击的使用是很广泛的,曾经猖獗一时的SMB会话劫持.DNS欺骗等技术都是典型的MITM ...
JavaScript工作体系中不可或缺的函数
一.函数的概念日常生活中,我们要完成一件事,总是习惯先有一个计划,后期按照计划,一步一步执行,则能够完成,并且达到一定效果实现一定的功能.在编程的世界里,“功能”可称呼为“函数”,因此“函数”即一段 ...
FFmpeg Android 学习(一)：Android 如何调用 FFMPEG 编辑音视频
一.概述在Android开发中,我们对一些音视频的处理比较无力,特别是编辑音视频这部分.而且在Android上对视频编辑方面,几乎没有任何API做支持,MediaCodec(硬编码)也没有做支持.那 ...
吴恩达机器学习笔记47-K均值算法的优化目标、随机初始化与聚类数量的选择（Optimization Objective & Random Initialization & Choosing the Number of Clusters of K-Means Algorithm）
一.K均值算法的优化目标 K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Distortion function)为: 其中

另类爬虫：从PDF文件中爬取表格数据

简介

例1

例2

总结

参考文献

另类爬虫：从PDF文件中爬取表格数据的更多相关文章

随机推荐

热门专题