技术背景

对于各行各业的研究人员来说，经常会面临这样的一个问题：有一篇不错的文章里面有很好的数据，但是这个数据在文章中仅以图片的形式出现。而假如我们希望可以从该图片中提取出数据，这样就可以用我们自己的形式重新来展现这些数据，还可以额外再附上自己优化后的数据。因此从论文图片中提取数据，是一个非常实际的需求。这里以前面写的量子退火的博客为例，博客中有这样的一张图片：

在这篇文章中，我们将介绍如何使用python从图片上把数据抠取出来。

plotdigitizer的安装

这里我们使用pip来安装python第三方库plotdigitizer，该库的主要功能就是可以自动化的从图片中提取出数据，我们可以使用腾讯的pip镜像源来加速我们的安装过程：

[dechin@dechin-manjaro plotdigitizer]$ python3 -m pip install -i https://mirrors.cloud.tencent.com/pypi/simple plotdigitizer

Looking in indexes: https://mirrors.cloud.tencent.com/pypi/simple

Collecting plotdigitizer

  Downloading https://mirrors.cloud.tencent.com/pypi/packages/89/bb/ff753093458c05ce3b52fd17527b6b0622ca096aadcf561c6316320ab793/plotdigitizer-0.1.3-py3-none-any.whl (20 kB)

Collecting loguru<0.6.0,>=0.5.3

  Downloading https://mirrors.cloud.tencent.com/pypi/packages/6d/48/0a7d5847e3de329f1d0134baf707b689700b53bd3066a5a8cfd94b3c9fc8/loguru-0.5.3-py3-none-any.whl (57 kB)

     |████████████████████████████████| 57 kB 521 kB/s

Collecting opencv-python<5.0.0,>=4.5.1

  Downloading https://mirrors.cloud.tencent.com/pypi/packages/2a/9a/ff309b530ac1b029bfdb9af3a95eaff0f5f45f6a2dbe37b3454ae8412f4c/opencv_python-4.5.1.48-cp38-cp38-manylinux2014_x86_64.whl (50.4 MB)

     |████████████████████████████████| 50.4 MB 467 kB/s

Collecting numpy<2.0.0,>=1.19.5

  Downloading https://mirrors.cloud.tencent.com/pypi/packages/c7/e6/dccac76b7e825915ffb906beeba5a953597b6cfe1fe686b5276e122cb07c/numpy-1.20.1-cp38-cp38-manylinux2010_x86_64.whl (15.4 MB)

     |████████████████████████████████| 15.4 MB 20.4 MB/s

Collecting matplotlib<4.0.0,>=3.3.4

  Downloading https://mirrors.cloud.tencent.com/pypi/packages/ab/20/60cfe5d611ac86df07b7b1f9b9582f22f7eda5edbe2124ba85bdf3133822/matplotlib-3.3.4-cp38-cp38-manylinux1_x86_64.whl (11.6 MB)

     |████████████████████████████████| 11.6 MB 4.4 MB/s

Requirement already satisfied: python-dateutil>=2.1 in /home/dechin/anaconda3/lib/python3.8/site-packages (from matplotlib<4.0.0,>=3.3.4->plotdigitizer) (2.8.1)

Requirement already satisfied: cycler>=0.10 in /home/dechin/anaconda3/lib/python3.8/site-packages (from matplotlib<4.0.0,>=3.3.4->plotdigitizer) (0.10.0)

Requirement already satisfied: pillow>=6.2.0 in /home/dechin/anaconda3/lib/python3.8/site-packages (from matplotlib<4.0.0,>=3.3.4->plotdigitizer) (8.0.1)

Requirement already satisfied: kiwisolver>=1.0.1 in /home/dechin/anaconda3/lib/python3.8/site-packages (from matplotlib<4.0.0,>=3.3.4->plotdigitizer) (1.3.0)

Requirement already satisfied: pyparsing!=2.0.4,!=2.1.2,!=2.1.6,>=2.0.3 in /home/dechin/anaconda3/lib/python3.8/site-packages (from matplotlib<4.0.0,>=3.3.4->plotdigitizer) (2.4.7)

Requirement already satisfied: six>=1.5 in /home/dechin/anaconda3/lib/python3.8/site-packages (from python-dateutil>=2.1->matplotlib<4.0.0,>=3.3.4->plotdigitizer) (1.15.0)

Installing collected packages: loguru, numpy, opencv-python, matplotlib, plotdigitizer

  Attempting uninstall: numpy

    Found existing installation: numpy 1.19.2

    Uninstalling numpy-1.19.2:

      Successfully uninstalled numpy-1.19.2

  Attempting uninstall: matplotlib

    Found existing installation: matplotlib 3.3.2

    Uninstalling matplotlib-3.3.2:

      Successfully uninstalled matplotlib-3.3.2

Successfully installed loguru-0.5.3 matplotlib-3.3.4 numpy-1.20.1 opencv-python-4.5.1.48 plotdigitizer-0.1.3

通过运行帮助指令，我们可以查看是否安装成功：

[dechin@dechin-manjaro plotdigitizer]$ plotdigitizer -h

usage: plotdigitizer [-h] --data-point DATA_POINT [--location LOCATION] [--plot PLOT] [--output OUTPUT]

                     [--preprocess] [--debug]

                     INPUT

Digitize image.

positional arguments:

  INPUT                 Input image file.

optional arguments:

  -h, --help            show this help message and exit

  --data-point DATA_POINT, -p DATA_POINT

                        Datapoints (min 3 required). You have to click on them later. At least 3 points

                        are recommended. e.g -p 0,0 -p 10,0 -p 0,1 Make sure that point are comma

                        separated without any space.

  --location LOCATION, -l LOCATION

                        Location of a points on figure in pixels (integer). These values should appear in

                        the same order as -p option. If not given, you will be asked to click on the

                        figure.

  --plot PLOT           Plot the final result. Requires matplotlib.

  --output OUTPUT, -o OUTPUT

                        Name of the output file else trajectory will be written to <INPUT>.traj.csv

  --preprocess          Preprocess the image. Useful with bad resolution images.

  --debug               Enable debug logger

执行指令与输出图片

先把需要抠取数据的图片放到当前目录下，然后运行如下指令：

plotdigitizer ./test1.png -p 0,-1 -p 20,0 -p 0,0.1 --plot output.png

该指令会将test1.png中的数据提取出来，可以使用-o存储为csv格式的数据表格。这里实际使用中我们发现，即使不用plot指令，也会在Manjaro Linux系统下不断的输出打印图片，只有通过kill -9的方式才能强行将进程杀死，有可能是开源库中存在的某个bug。这里展示一下用新的数据绘制出来的效果图：

执行结束后，该图片会被输出到临时文件夹tmp/plotdigitizer/下，但是注意前面产生的图片会被后来的临时文件所覆盖。

总结概要

这里我们仅仅是介绍和演示了plotdigitizer的基本使用方法，这样一个使用python制作的图像数据工具更加符合pythoner的使用习惯和逻辑。虽然实际使用过程中工具可能出现各种各样的问题，但是基本上是一个比较好的工具，值得推荐。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/plotdigitizer.html

作者ID：DechinPhy

更多原著文章请参考：https://www.cnblogs.com/dechinphy/

使用python模块plotdigitizer抠取论文图片中的数据的更多相关文章

Python 3.6 抓取微博m站数据
Python 3.6 抓取微博m站数据 2019.05.01 更新内容 containerid 可以通过 "107603" + user_id 组装得到,无需请求个人信息获取: 优 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
Python实例之抓取淘宝商品数据（json型数据）并保存为TXT
本实例实现了抓取淘宝网中以‘python’为关键字的搜索结果,经详细查看数据存储于html文档中的js脚本中,数据类型为JSON 具体实现代码如下: import requests import re ...
Python爬虫：抓取手机APP的数据
摘要大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包表单: 表单中包括了用户名和密码,当然都是加密 ...
Python实例之抓取HTML中的数据并保存为TXT
本实例实现了抓取捧腹网中存储于html中的笑话数据(非JSON数据) 通过浏览器相关工具发现捧腹网笑话页面的数据存储在HTML页面而非json数据中,因此可以直接使用soup.select()方法来抓 ...
Python scrapy框架爬取瓜子二手车信息数据
项目实施依赖: python,scrapy ,fiddler scrapy安装依赖的包: 可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 pywi ...

随机推荐

牛客小白月赛28 D.位运算之谜 (位运算)
题意:给你两个正整数\(x\)和\(y\),求两个正整数\(a\),\(b\),使得\(a+b=x\),\(a\)&\(b\)=\(y\),如果\(a\),\(b\),输出\(a\ xor \ ...
AtCoder Beginner Contest 170 D - Not Divisible (数学)
题意:有一长度为\(n\)的数组,求该数组中有多少元素不能整除其它任一元素的个数. 题解:刚开始写了个分解质因数(我是傻逼),后来发现直接暴力枚举因子即可,注意某个元素出现多次时肯定不满足情况,再特判 ...
使用Github+jsDelivr搭建图床和存储服务
使用元素我的博客NLNet 并未搭建自己的博客,使用博客园(cnblogs),自定义了主题NLNet-Theme. 写作工具Typora 优秀的Markdown编辑器.参考NLNet-Theme,我 ...
洛谷P1462-通往奥格瑞玛的道路-二分+最短路
洛谷P1462-通往奥格瑞玛的道路题目描述在艾泽拉斯,有\(n\)个城市.编号为\(1,2,3,...,n\). 城市之间有\(m\)条双向的公路,连接着两个城市,从某个城市到另一个城市,会遭到联 ...
ACM ICPC 2017 Warmup Contest 1 D
Daydreaming Stockbroker Gina Reed, the famous stockbroker, is having a slow day at work, and between ...
渗透技巧——如何逃逸Linux的受限制shell执行任意命令
导语:本文介绍了如何在受限制的shell中执行任意命令,实现交互.其相应的利用场景是说当我们通过一些手段拿到当前Linux机器的shell时,由于当前shell的限制,很多命令不能执行,导致后续的渗透 ...
element-ui UI 组件库剖析
element-ui UI 组件库剖析 /* Automatically generated by './build/bin/build-entry.js' */ https://github.com ...
Serverless & Cloudflare Workers
Serverless & Cloudflare Workers https://dash.cloudflare.com/6f3d5e68ab80892a372313b7c9b02a85/wor ...
Android低功耗蓝牙（蓝牙4.0）——BLE开发（上）
段时间,公司项目用到了手机APP和蓝牙设备的通讯开发,这里也正好对低功耗蓝牙(蓝牙4.0及以后标准)的开发,做一个总结. 蓝牙技术联盟在2010年6月30号公布了蓝牙4.0标准,4.0标准在蓝牙3.0 ...
JavaScript Semicolon Insertion
JavaScript Semicolon Insertion https://blog.izs.me/2010/12/an-open-letter-to-javascript-leaders-rega ...

使用python模块plotdigitizer抠取论文图片中的数据