C# 提取PDF中的表格

本文介绍在C#程序中（附VB.NET代码）提取PDF中的表格的方法，调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容；代码内容中涉及到的主要类及方法归纳如下表，供参考：

类型	描述
PdfDocument Class	Represents a pdf document model.
PdfDocument.LoadFromFile(string filename) Method	Loads a PDF document.
PdfTableExtractor Class	Represents the PDF table extractor.
PdfTable Class	Defines a PDF table.
PdfTableExtractor. ExtractTable(int pageIndex) Method	Extracts table from page.
PdfTable.GetText(int rowIndex,int columnIndex) Method	Gets Text in cell.
File.WriteAllText() Method	Saves extracted text in table to a .txt file.

环境配置

Visual Studio 2017
.net framework 4.6.1
PDF测试文档
库：Spire.PDF for .NET 7.10.4

引用dll文件的2种方法：

方法1：通过NuGet安装。

【步骤】

鼠标右键点击“引用”，“管理NuGet程序包”，

点击“浏览”，在搜索框中输入，点击“安装”，

或者使用PM控制台安装:

PM>Install-Package Spire.PDF -Version 7.10.4

方法2：手动添加引用。

【步骤】

鼠标右键点击“引用”，“添加引用”，

点击“浏览”，“浏览”，将本地路径下的dll文件（需提前下载到本地，并解压）添加到引用列表

点击OK,完成引用：

代码示例

using Spire.Pdf;

using Spire.Pdf.Utilities;

using System.IO;

using System.Text;

namespace ExtractTable

{

    class Program

    {

        static void Main(string[] args)

        {

            //加载PDF文档

            PdfDocument pdf = new PdfDocument();

            pdf.LoadFromFile("sample.pdf");

            StringBuilder builder = new StringBuilder();

            //抽取表格

            PdfTableExtractor extractor = new PdfTableExtractor(pdf);

            PdfTable[] tableLists = null;

            for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)

            {

                tableLists = extractor.ExtractTable(pageIndex);

                if (tableLists != null && tableLists.Length > 0)

                {

                    foreach (PdfTable table in tableLists)

                    {

                        int row = table.GetRowCount();

                        int column = table.GetColumnCount();

                        for (int i = 0; i < row; i++)

                        {

                            for (int j = 0; j < column; j++)

                            {

                                string text = table.GetText(i, j);

                                builder.Append(text + " ");

                            }

                            builder.Append("\r\n");

                        }

                    }

                }

            }

            //保存提取的表格内容到txt文档

            File.WriteAllText("ExtractedTable.txt", builder.ToString());

        }

    }

}

VB.NET

Imports Spire.Pdf

Imports Spire.Pdf.Utilities

Imports System.IO

Imports System.Text

Namespace ExtractTable

    Class Program

        Private Shared Sub Main(args As String())

            '加载PDF文档

            Dim pdf As New PdfDocument()

            pdf.LoadFromFile("sample.pdf")

            Dim builder As New StringBuilder()

            '抽取表格

            Dim extractor As New PdfTableExtractor(pdf)

            Dim tableLists As PdfTable() = Nothing

            For pageIndex As Integer = 0 To pdf.Pages.Count - 1

                tableLists = extractor.ExtractTable(pageIndex)

                If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then

                    For Each table As PdfTable In tableLists

                        Dim row As Integer = table.GetRowCount()

                        Dim column As Integer = table.GetColumnCount()

                        For i As Integer = 0 To row - 1

                            For j As Integer = 0 To column - 1

                                Dim text As String = table.GetText(i, j)

                                builder.Append(text & Convert.ToString(" "))

                            Next

                            builder.Append(vbCr & vbLf)

                        Next

                    Next

                End If

            Next

            '保存提取的表格内容到txt文档

            File.WriteAllText("ExtractedTable.txt", builder.ToString())

        End Sub

    End Class

End Namespace

表格内容提取结果：

其他注意事项：

代码中的PDF文件以及生成的.txt文件路径为 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。
注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。

—End—

C# 提取PDF中的表格的更多相关文章

利用python第三方库提取PDF文件的表格内容
小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据.接到这个任务的第一时间,小爬决定搜集各个地区各个时间段的电子发票文件,看看其中的差异点.粗略统计下来,PDF文件的表格框架是统一的 ...
Java 读取PDF中的表格
一.概述本文以Java示例展示读取PDF中的表格的方法.这里导入Spire.PDF for Javah中的jar包,并使用其提供的相关及方法来实现获取表格中的文本内容.下表中整理了本次代码使用到的主 ...
在线提取PDF中图片和文字
无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字.如下图所示:结果本人测 ...
Java 添加、提取PDF中的图片
Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...
java 如何在pdf中生成表格
1.目标在pdf中生成一个可变表头的表格,并向其中填充数据.通过泛型动态的生成表头,通过反射动态获取实体类(我这里是User)的get方法动态获得数据,从而达到动态生成表格. 每天生成一个文件夹存储 ...
170120、java 如何在pdf中生成表格
1.目标在pdf中生成一个可变表头的表格,并向其中填充数据.通过泛型动态的生成表头,通过反射动态获取实体类(我这里是User)的get方法动态获得数据,从而达到动态生成表格. 每天生成一个文件夹存储 ...
Java 在PDF中添加表格
本文将介绍通过Java编程在PDF文档中添加表格的方法.添加表格时,可设置表格边框.单元格对齐方式.单元格背景色.单元格合并.插入图片.设置行高.列宽.字体.字号等. 使用工具:Free Spire. ...
在Asp.Net中操作PDF – iTextSharp - 使用表格
使用Asp.Net生成PDF最常用的元素应该是表格,表格可以帮助比如订单或者发票类型的文档更加格式化和美观.本篇文章并不会深入探讨表格,仅仅是提供一个使用iTextSharp生成表格的方法介绍使用i ...
【译】在Asp.Net中操作PDF – iTextSharp - 使用表格
原文 [译]在Asp.Net中操作PDF – iTextSharp - 使用表格使用Asp.Net生成PDF最常用的元素应该是表格,表格可以帮助比如订单或者发票类型的文档更加格式化和美观.本篇文章并 ...

随机推荐

VS Code闪现，巨头纷纷入局的Web IDE缘何崛起？
我发了,我装的. 就在前几天,微软简短的发布了Visual Studio Code for the Web 的公告,而没过一阵,这则公告就被删除了,现在点经相关内容已经是404状态了.虽然公告的内容已 ...
jenkins AWS CodeDeploy不停机部署
此项目的特点是把Jenkins与CodeDeploy相结合做的CICD做的蓝绿发布,CI与CD 是分开的,CI构建完以后以BuildNumber的形式把war包存至AWS的S3桶中.同时在java项目 ...
WEB漏洞——RCE
RCE(remote command/code execute)远程命令/代码执行漏洞,可以让攻击者直接向后台服务器远程注入操作系统命令或者代码,从而控制后台系统. RCE漏洞应用程序有时需要调用一 ...
Docker入门之zabbix-agent篇
在client端启动zabbix-agent服务启动zabbix-agent有如下2种方式: agent start root@lykj-45:/srv# ls leyao zabbix zabbi ...
关于Golang的学习路线
基础安装golang环境 Golang基础,流程控制,函数,方法,面向对象网络编程(自己做一个简单的tcp的聊天室,websocket,http,命令行工具) 并发(可以看一下并发爬虫或者下载器的 ...
数据治理中Oracle SQL和存储过程的数据血缘分析
数据治理中Oracle SQL和存储过程的数据血缘分析数据治理中的一个重要基础工作是分析组织中数据的血缘关系.有了完整的数据血缘关系,我们可以用它进行数据溯源.表和字段变更的影响分析.数据合规性 ...
SQL:1999基本语法
SQL:1999基本语法 SELECT [DISTINCT] * | 列名称 [AS]别名,........ FROM 表名称1 [别名1][CROSS JOIN表名称2 别名2]| [NATURAL ...
洛谷P1208——P1208 [USACO1.3]Mixing Milk（贪心）
题目描述由于乳制品产业利润很低,所以降低原材料(牛奶)价格就变得十分重要.帮助Marry乳业找到最优的牛奶采购方案. Marry乳业从一些奶农手中采购牛奶,并且每一位奶农为乳制品加工企业提供的价格是 ...
洛谷P1125——笨小猴（简易模拟）
https://www.luogu.org/problem/show?pid=1125 题目描述笨小猴的词汇量很小,所以每次做英语选择题的时候都很头疼.但是他找到了一种方法,经试验证明,用这种方法去 ...
Jmeter系列（7）- 分析源码，创建下单、用户注销接口请求
源码分析下单用户注销创建请求下单用户注销请求调整将信息头管理器从[02.浏览订单]请求中抽出来就变成公用的.[03,04]请求不需要单独再加信息头管理器 DeBug取样器添加DeBug ...

C# 提取PDF中的表格

环境配置

代码示例

C# 提取PDF中的表格的更多相关文章

随机推荐

热门专题