Excel催化剂开源第31波-pdf相关功能实现及类库介绍
在Excel催化剂刚推出的pdf相关功能中,反馈很热烈,不止是用户层面好多人喜欢,也听到在.NET开发群里有询问pdf在winform上展现的功能诉求,一段时间没写开源篇,生怕大家以为Excel催化剂太小气了,不再开发了,赶紧趁着还有余温,补上一篇pdf相关的技术要点和好用轮子简介
pdf转图片
pdf转图片的功能,找了好久,百度肯定是没答案的了,或者找到的都是一堆堆的软文,指向云csdn下载破解版dll,这种事情在我大中华出现多了,也不足为怪了。
在google上也找了好大一圈,好多的方案还是不好用或者没看懂,其中一个方案是要求以COM的方式云调用Adobe的pdf软件,这肯定没有吸引力的,虽然我大中国是很有办法找Adobe的破解版软件,但听说Adobe咬起人来,比狼还要狠,动不动罚你个天价不为奇,程序员就不要往这里靠了。
最后,在github上一个很无名的小项目上抄到了代码,不敢独占,也献上了一个宝贵星星。

调用的是PdfiumViewer轮子。这个轮子又依赖于PDFium轮子,PDFium好像分86和64两个版本。

直接在nuget上搜PDFium会有多个版本,用PdfiumViewer搜索,好像可以搜索到不分86和64的版本,现在用着是它,没测试过32位机器是否不会出问题。

PdfiumViewer更多的用途可以在winform上显示pdf文档,这里只是借用了人家直接pdf转图片的小部分功能。
pdf抽取表格内容
同样最后在github上找到了,寻找过程也是很曲折,不展开了。大家用到时,不妨多多给原作者打个星星。

这个类库的调用,有点奇怪,他拿到Table后,不能很方便地取到Table上的内容,结果只能用Table.ToString()拿到文本,再自己云拆解。里面提供的Table的行、列坐标,貌似测试了好久,不能用来在itextSharp上提取到数据。
pdf提取内容
这个用的是itextSharp,但听说这个是开源有限制的,5.0高版本的不能用在商业软件上。有大牛可以用最后的开源无限制版本写一下提取文本的代码给我下就最好,现在暂时还是用着人家5.0的版本,在中国应该问题不大吧,还好Excel催化剂是免费的,应该不算是商业用途吧。求专业人士指导下。网络上的代码都是基于5.0写出来的,实在抄不到4.x版本的代码。
代码很简单,随便一搜就有,包括百度,可能文章长度有限制就不帖代码了。
pdf提取图片
这个也是用的itextSharp,厚道点,这里直接给大家贴代码,不用花时间找了。
public static Dictionary<string, System.Drawing.Image> ExtractImages(string filename)
{
var images = new Dictionary<string, System.Drawing.Image>();
using (var reader = new PdfReader(filename))
{
var parser = new PdfReaderContentParser(reader);
ImageRenderListener listener = null;
for (var i = 1; i <= reader.NumberOfPages; i++)
{
parser.ProcessContent(i, (listener = new ImageRenderListener()));
var index = 1;
if (listener.Images.Count > 0)
{
foreach (var pair in listener.Images)
{
images.Add(string.Format("{0}_Page_{1}_{2}{3}",
System.IO.Path.GetFileNameWithoutExtension(filename), i.ToString("D3"), index.ToString("D3"), pair.Value), pair.Key);
index++;
}
}
}
return images;
}
}
}
internal class ImageRenderListener : IRenderListener
{
Dictionary<System.Drawing.Image, string> images = new Dictionary<System.Drawing.Image, string>();
public Dictionary<System.Drawing.Image, string> Images
{
get { return images; }
}
public void BeginTextBlock() { }
public void EndTextBlock() { }
public void RenderImage(ImageRenderInfo renderInfo)
{
try
{
PdfImageObject image = renderInfo.GetImage();
PdfName filter = (PdfName)image.Get(PdfName.FILTER);
if (filter != null)
{
System.Drawing.Image drawingImage = image.GetDrawingImage();
string extension = ".";
if (filter == PdfName.DCTDECODE)
{
extension += PdfImageObject.ImageBytesType.JPG.FileExtension;
}
else if (filter == PdfName.JPXDECODE)
{
extension += PdfImageObject.ImageBytesType.JP2.FileExtension;
}
else if (filter == PdfName.FLATEDECODE)
{
extension += PdfImageObject.ImageBytesType.PNG.FileExtension;
}
else if (filter == PdfName.LZWDECODE)
{
extension += PdfImageObject.ImageBytesType.CCITT.FileExtension;
}
this.Images.Add(drawingImage, extension);
}
}
catch (Exception)
{
}
}
public void RenderText(TextRenderInfo renderInfo)
{
}
}
图片转pdf
这个也是用的itextSharp,因为想做到按图片大小来调整当前页的尺寸,测试了好久,还是厚道着给大家献上劳动成果吧。
private static void InsertPicToPdf(string saveFilePath, List<(string FilePath, float Width, float Height, byte[] ImageData)> listImageInfo)
{
var firstImage = listImageInfo.FirstOrDefault();
var rec = new Rectangle(firstImage.Width, firstImage.Height);
Document doc = new Document(rec, 0, 0, 0, 0);
PdfWriter.GetInstance(doc, new FileStream(saveFilePath, FileMode.Create));
doc.Open();
var firstImagePage = iTextSharp.text.Image.GetInstance(firstImage.ImageData);
firstImagePage.ScalePercent(24F);
doc.Add(firstImagePage);
int ipage = 0;
foreach (var item in listImageInfo.Skip(1))
{
ipage++;
if (ipage > 1)
{
doc.NewPage();
}
var rectangle = new Rectangle(item.Width, item.Height);
doc.SetPageSize(rectangle);
doc.SetMargins(0, 0, 0, 0);
var inertImage = iTextSharp.text.Image.GetInstance(item.ImageData);
inertImage.ScalePercent(24F);
doc.Add(inertImage);
}
doc.Close();
}
private static List<(string FilePath, float width, float Height, byte[] ImageData)> GetImageInfos(List<string> filePaths)
{
List<(string FilePath, float width, float Height, byte[] ImageData)> listImageInfo = new List<(string FilePath, float width, float Height, byte[] ImageData)>();
foreach (var picPath in filePaths)
{
string ext = Path.GetExtension(picPath).ToLower();
ImageFormat imageFormat = ext == ".png" ? ImageFormat.Png : ext == ".bmp" ? ImageFormat.Bmp : ext == ".gif" ? ImageFormat.Gif : ImageFormat.Jpeg;
System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
float height = image.Height * 0.24F;
float width = image.Width * 0.24F;
MemoryStream mstream = new MemoryStream();
image.Save(mstream, imageFormat);
byte[] byData = new Byte[mstream.Length];
mstream.Position = 0;
mstream.Read(byData, 0, byData.Length);
mstream.Close();
listImageInfo.Add((picPath, width, height, byData));
}
return listImageInfo;
}
搞了好久老是错位,最终才测试出第2页时不要NewPage才行。
if (ipage > 1)
{
doc.NewPage();
}
代码出处的作者,大概意思是pdf的分辨率是72pi,不是打印机的300pi,所以要缩小为原大小的24%,打印效果才比较好。
System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
float height = image.Height * 0.24F;
float width = image.Width * 0.24F;
结语
Excel催化剂不是什么造轮子大户,只会到处找轮子,水平也有限,但还是尽上微博之力,给一些水平也是一般的后来者带去一点点的便利,希望大家喜欢,也期待整个分享的社区文化越来越好。我助人人,人人助我。
技术交流QQ群
QQ群名:Excel催化剂开源讨论群, QQ群号:788145319

关于Excel催化剂
Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!
Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!
Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q


取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。
最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!
关于Excel催化剂作者
姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)
技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。
擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。
2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。
和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。
Excel催化剂开源第31波-pdf相关功能实现及类库介绍的更多相关文章
- Excel催化剂开源第23波-VSTO开发辅助录入功能关键技术
Excel催化剂开源第23波-VSTO开发辅助录入功能关键技术 Excel催化剂 2019.01.12 14:10* 字数 2948 阅读 41评论 0喜欢 0 编辑文章 在Excel催化剂的几大 ...
- Excel催化剂开源第22波-VSTO的帮助文档在哪里?
Excel催化剂开源第22波-VSTO的帮助文档在哪里? Excel催化剂 2019.01.12 14:10 字数 2930 阅读 55评论 0喜欢 0 编辑文章 对于专业程序猿来说,查找文档不是 ...
- Excel催化剂开源第50波-Excel与PowerBIDeskTop互通互联之第四篇
答应过的全盘分享,也必承诺到底,此篇PowerBI功能分享的最后一篇,讲述如何导出数据模型的元数据,笔者定义其为模型的数据字典. 此篇对应功能实现出自:第6波-导出PowerbiDesktop模型数据 ...
- Excel催化剂开源第16波-VSTO开发之脱离传统COM交互以提升性能
在VSTO开发或其他COM技术开发过程中,甚至VBA也是,在和Excel交互中,难免会遇到性能瓶颈问题,COM技术的交互实在太慢,对大量数据读写等操作,耗时太长,容易卡用户界面以为是程序死机等等. 在 ...
- Excel催化剂开源第12波-VSTO开发遍历功能区所有菜单按钮及自定义函数清单
在插件开发过程中,随着功能越来越多,用户找寻功能入口将变得越来越困难,在Excel催化剂 ,将采用遍历所有功能的方式,让用户可以轻松使用简单的查找功能找到想要功能所在位置,查找的范围有:功能按钮的显示 ...
- Excel催化剂开源第10波-VSTO开发之用户配置数据与工作薄文件一同存储
在传统的VBA开发中,若是用的是普通加载项方法,是可以存储数据在xlam上的,若用的是Com加载项方法同时是Addins程序级别的项目开发的,配置文件没法保存到工作薄中,一般另外用配置文件来存放供调用 ...
- Excel催化剂开源第51波-Excel催化剂遍历单元格操作性能保障
在Excel催化剂推出的这一年多时间里,经常性听到一种声音,大概意思是真正会写代码的人,都不会看上Excel催化剂写出来的功能,自己造一个更舒服贴心,仿佛会一点VBA就可以天下无敌一般,也好像Exce ...
- Excel催化剂开源第49波-Excel与PowerBIDeskTop互通互联之第三篇
在PowerBIDeskTop开启的SSAS服务,和Sqlserver所开启的一个本质的区别是,前者其端口号是随机生成的,即上一次打开获得的端口号,下一次关闭后再打开,系统分配给它新的端口号,而后者因 ...
- Excel催化剂开源第47波-Excel与PowerBIDeskTop互通互联之第一篇
当国外都在追求软件开源,并且在GitHub等平台上产生了大量优质的开源代码时,但在国内却在刮着一股收割小白智商税的知识付费热潮,实在可悲. 互联网的精神乃是分享,让分享带来更多人的受益. 在Power ...
随机推荐
- QT5---应用程序发布(使用windeployqt和NSIS)
采用动态编译的方式发布程序,即release版本. 找齐动态依赖库(.dll) 方法一 用Dependency Walker这个工具去找少了那些dll,不过这个工具也不怎么靠谱,一个比较靠谱但 ...
- Python魔法方法__getattr__和__getattribute__详解
在Python中有这两个魔法方法容易让人混淆:__getattr__和getattribute.通常我们会定义__getattr__而从来不会定义getattribute,下面我们来看看这两个的区别. ...
- PHP实现WebService服务
第一步,安装PHP扩展SOAP并开启扩展,是否开启成功以phpinfo为准. 第二步,创建服务端文件server.php <?php Class server { public function ...
- Windows下OSGEarth的编译过程
目录 1. 依赖 1) OpenSceneGraph 2) GDAL 3) CURL 4) GEOS 5) 其他 2. 编译 1) 设置参数 2) 配置路径 3) 生成编译 3. 参考文献 1. 依赖 ...
- 使用burpsuite进行重放攻击
原创博客,转载请注出处! 我的公众号,正在建设中,欢迎关注: 1.安装好burpsuite后打开程序,切换至proxy->intercipt,因为是重放攻击不用拦截数据包所以关闭intercep ...
- 解决wireshark打开错误
错误提示如下: Lua: Error during loading: [string "/usr/share/wireshark/init.lua"]:44: dofile has ...
- 【协议】TCP与UDP
转载地址:https://blog.csdn.net/qq_34988624/article/details/85856848 1.为什么会有TCP/IP协议 在世界上各地,各种各样的电脑运行着各自不 ...
- nginx连接操作memcahe
nginx配置连接操作memcache nginx配置连接memcache: location / { set $memcached_key "$uri"; #设置memcache ...
- Python基础(九) 常用模块汇总
3.8 json模块重点 json模块是将满足条件的数据结构转化成特殊的字符串,并且也可以反序列化还原回去. 不同语言都遵循的一种数据转化格式,即不同语言都使用的特殊字符串.(比如Python的一个列 ...
- zabbix2.4汉化
zabbix的2.4版本安装完后,这里的语言界面选择没有中文,其实是这个版本把中文的屏蔽了. [root@zabbix-server opt]# vim /var/www/html/include/l ...