在Excel催化剂刚推出的pdf相关功能中,反馈很热烈,不止是用户层面好多人喜欢,也听到在.NET开发群里有询问pdf在winform上展现的功能诉求,一段时间没写开源篇,生怕大家以为Excel催化剂太小气了,不再开发了,赶紧趁着还有余温,补上一篇pdf相关的技术要点和好用轮子简介

pdf转图片

pdf转图片的功能,找了好久,百度肯定是没答案的了,或者找到的都是一堆堆的软文,指向云csdn下载破解版dll,这种事情在我大中华出现多了,也不足为怪了。

在google上也找了好大一圈,好多的方案还是不好用或者没看懂,其中一个方案是要求以COM的方式云调用Adobe的pdf软件,这肯定没有吸引力的,虽然我大中国是很有办法找Adobe的破解版软件,但听说Adobe咬起人来,比狼还要狠,动不动罚你个天价不为奇,程序员就不要往这里靠了。

最后,在github上一个很无名的小项目上抄到了代码,不敢独占,也献上了一个宝贵星星。

 
github上的示例

调用的是PdfiumViewer轮子。这个轮子又依赖于PDFium轮子,PDFium好像分86和64两个版本。

 
源代码节录

直接在nuget上搜PDFium会有多个版本,用PdfiumViewer搜索,好像可以搜索到不分86和64的版本,现在用着是它,没测试过32位机器是否不会出问题。

 
PdfiumViewer关键词下好像有一个86和64合成版

PdfiumViewer更多的用途可以在winform上显示pdf文档,这里只是借用了人家直接pdf转图片的小部分功能。

pdf抽取表格内容

同样最后在github上找到了,寻找过程也是很曲折,不展开了。大家用到时,不妨多多给原作者打个星星。

 
github上的轮子

这个类库的调用,有点奇怪,他拿到Table后,不能很方便地取到Table上的内容,结果只能用Table.ToString()拿到文本,再自己云拆解。里面提供的Table的行、列坐标,貌似测试了好久,不能用来在itextSharp上提取到数据。

pdf提取内容

这个用的是itextSharp,但听说这个是开源有限制的,5.0高版本的不能用在商业软件上。有大牛可以用最后的开源无限制版本写一下提取文本的代码给我下就最好,现在暂时还是用着人家5.0的版本,在中国应该问题不大吧,还好Excel催化剂是免费的,应该不算是商业用途吧。求专业人士指导下。网络上的代码都是基于5.0写出来的,实在抄不到4.x版本的代码。

代码很简单,随便一搜就有,包括百度,可能文章长度有限制就不帖代码了。

pdf提取图片

这个也是用的itextSharp,厚道点,这里直接给大家贴代码,不用花时间找了。


public static Dictionary<string, System.Drawing.Image> ExtractImages(string filename)
{
var images = new Dictionary<string, System.Drawing.Image>();
using (var reader = new PdfReader(filename))
{
var parser = new PdfReaderContentParser(reader);
ImageRenderListener listener = null;
for (var i = 1; i <= reader.NumberOfPages; i++)
{
parser.ProcessContent(i, (listener = new ImageRenderListener()));
var index = 1;
if (listener.Images.Count > 0)
{ foreach (var pair in listener.Images)
{
images.Add(string.Format("{0}_Page_{1}_{2}{3}",
System.IO.Path.GetFileNameWithoutExtension(filename), i.ToString("D3"), index.ToString("D3"), pair.Value), pair.Key);
index++;
}
}
}
return images;
}
}
}
internal class ImageRenderListener : IRenderListener
{ Dictionary<System.Drawing.Image, string> images = new Dictionary<System.Drawing.Image, string>(); public Dictionary<System.Drawing.Image, string> Images
{
get { return images; }
} public void BeginTextBlock() { }
public void EndTextBlock() { }
public void RenderImage(ImageRenderInfo renderInfo)
{
try
{
PdfImageObject image = renderInfo.GetImage();
PdfName filter = (PdfName)image.Get(PdfName.FILTER);
if (filter != null)
{
System.Drawing.Image drawingImage = image.GetDrawingImage();
string extension = ".";
if (filter == PdfName.DCTDECODE)
{
extension += PdfImageObject.ImageBytesType.JPG.FileExtension;
}
else if (filter == PdfName.JPXDECODE)
{
extension += PdfImageObject.ImageBytesType.JP2.FileExtension;
}
else if (filter == PdfName.FLATEDECODE)
{
extension += PdfImageObject.ImageBytesType.PNG.FileExtension;
}
else if (filter == PdfName.LZWDECODE)
{
extension += PdfImageObject.ImageBytesType.CCITT.FileExtension;
}
this.Images.Add(drawingImage, extension);
}
}
catch (Exception)
{ }
} public void RenderText(TextRenderInfo renderInfo)
{ } }

图片转pdf

这个也是用的itextSharp,因为想做到按图片大小来调整当前页的尺寸,测试了好久,还是厚道着给大家献上劳动成果吧。

        private static void InsertPicToPdf(string saveFilePath, List<(string FilePath, float Width, float Height, byte[] ImageData)> listImageInfo)
{
var firstImage = listImageInfo.FirstOrDefault();
var rec = new Rectangle(firstImage.Width, firstImage.Height); Document doc = new Document(rec, 0, 0, 0, 0);
PdfWriter.GetInstance(doc, new FileStream(saveFilePath, FileMode.Create));
doc.Open();
var firstImagePage = iTextSharp.text.Image.GetInstance(firstImage.ImageData);
firstImagePage.ScalePercent(24F);
doc.Add(firstImagePage); int ipage = 0;
foreach (var item in listImageInfo.Skip(1))
{
ipage++;
if (ipage > 1)
{
doc.NewPage();
} var rectangle = new Rectangle(item.Width, item.Height);
doc.SetPageSize(rectangle);
doc.SetMargins(0, 0, 0, 0);
var inertImage = iTextSharp.text.Image.GetInstance(item.ImageData);
inertImage.ScalePercent(24F);
doc.Add(inertImage); } doc.Close();
} private static List<(string FilePath, float width, float Height, byte[] ImageData)> GetImageInfos(List<string> filePaths)
{
List<(string FilePath, float width, float Height, byte[] ImageData)> listImageInfo = new List<(string FilePath, float width, float Height, byte[] ImageData)>();
foreach (var picPath in filePaths)
{
string ext = Path.GetExtension(picPath).ToLower();
ImageFormat imageFormat = ext == ".png" ? ImageFormat.Png : ext == ".bmp" ? ImageFormat.Bmp : ext == ".gif" ? ImageFormat.Gif : ImageFormat.Jpeg;
System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
float height = image.Height * 0.24F;
float width = image.Width * 0.24F; MemoryStream mstream = new MemoryStream();
image.Save(mstream, imageFormat);
byte[] byData = new Byte[mstream.Length];
mstream.Position = 0;
mstream.Read(byData, 0, byData.Length);
mstream.Close(); listImageInfo.Add((picPath, width, height, byData)); }
return listImageInfo;
}

搞了好久老是错位,最终才测试出第2页时不要NewPage才行。

                if (ipage > 1)
{
doc.NewPage();
}

代码出处的作者,大概意思是pdf的分辨率是72pi,不是打印机的300pi,所以要缩小为原大小的24%,打印效果才比较好。

                System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
float height = image.Height * 0.24F;
float width = image.Width * 0.24F;

结语

Excel催化剂不是什么造轮子大户,只会到处找轮子,水平也有限,但还是尽上微博之力,给一些水平也是一般的后来者带去一点点的便利,希望大家喜欢,也期待整个分享的社区文化越来越好。我助人人,人人助我。

技术交流QQ群

QQ群名:Excel催化剂开源讨论群, QQ群号:788145319

 
Excel催化剂开源讨论群二维码

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

 
联系作者
 
公众号

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。

Excel催化剂开源第31波-pdf相关功能实现及类库介绍的更多相关文章

  1. Excel催化剂开源第23波-VSTO开发辅助录入功能关键技术

    Excel催化剂开源第23波-VSTO开发辅助录入功能关键技术 Excel催化剂   2019.01.12 14:10* 字数 2948 阅读 41评论 0喜欢 0 编辑文章 在Excel催化剂的几大 ...

  2. Excel催化剂开源第22波-VSTO的帮助文档在哪里?

    Excel催化剂开源第22波-VSTO的帮助文档在哪里? Excel催化剂   2019.01.12 14:10 字数 2930 阅读 55评论 0喜欢 0 编辑文章 对于专业程序猿来说,查找文档不是 ...

  3. Excel催化剂开源第50波-Excel与PowerBIDeskTop互通互联之第四篇

    答应过的全盘分享,也必承诺到底,此篇PowerBI功能分享的最后一篇,讲述如何导出数据模型的元数据,笔者定义其为模型的数据字典. 此篇对应功能实现出自:第6波-导出PowerbiDesktop模型数据 ...

  4. Excel催化剂开源第16波-VSTO开发之脱离传统COM交互以提升性能

    在VSTO开发或其他COM技术开发过程中,甚至VBA也是,在和Excel交互中,难免会遇到性能瓶颈问题,COM技术的交互实在太慢,对大量数据读写等操作,耗时太长,容易卡用户界面以为是程序死机等等. 在 ...

  5. Excel催化剂开源第12波-VSTO开发遍历功能区所有菜单按钮及自定义函数清单

    在插件开发过程中,随着功能越来越多,用户找寻功能入口将变得越来越困难,在Excel催化剂 ,将采用遍历所有功能的方式,让用户可以轻松使用简单的查找功能找到想要功能所在位置,查找的范围有:功能按钮的显示 ...

  6. Excel催化剂开源第10波-VSTO开发之用户配置数据与工作薄文件一同存储

    在传统的VBA开发中,若是用的是普通加载项方法,是可以存储数据在xlam上的,若用的是Com加载项方法同时是Addins程序级别的项目开发的,配置文件没法保存到工作薄中,一般另外用配置文件来存放供调用 ...

  7. Excel催化剂开源第51波-Excel催化剂遍历单元格操作性能保障

    在Excel催化剂推出的这一年多时间里,经常性听到一种声音,大概意思是真正会写代码的人,都不会看上Excel催化剂写出来的功能,自己造一个更舒服贴心,仿佛会一点VBA就可以天下无敌一般,也好像Exce ...

  8. Excel催化剂开源第49波-Excel与PowerBIDeskTop互通互联之第三篇

    在PowerBIDeskTop开启的SSAS服务,和Sqlserver所开启的一个本质的区别是,前者其端口号是随机生成的,即上一次打开获得的端口号,下一次关闭后再打开,系统分配给它新的端口号,而后者因 ...

  9. Excel催化剂开源第47波-Excel与PowerBIDeskTop互通互联之第一篇

    当国外都在追求软件开源,并且在GitHub等平台上产生了大量优质的开源代码时,但在国内却在刮着一股收割小白智商税的知识付费热潮,实在可悲. 互联网的精神乃是分享,让分享带来更多人的受益. 在Power ...

随机推荐

  1. .net的数据类型说明

    C#提供称为简单类型的预定义结构类型集,简单类型通过保留字标识, 而这些保留字只是System命名空间中预定义结构类型的别名. 保留字与预定义结构类型的对应如下: 保留字 预定义结构类型 sbyte ...

  2. FastMM、FastCode、FastMove的使用(详细讲解了怎么安装与使用)good

    http://blog.csdn.net/akof1314/article/details/6524767

  3. Rendering in Delphi using TCanvas (FMX)

    BY CRAIG CHAPMAN · PUBLISHED 2015-08-05 · UPDATED 2015-08-20   I have a customer with an application ...

  4. 教你如何快速使用Github

    以前看过几篇github的使用教程,感觉还是不是很清晰,自从看到了这篇,通俗易懂,也学会基本的使用了,在此为大家推荐.(转自知乎,为了能让更多的人看到,请允许我使用 “原创”,如果侵权请联系.) Gi ...

  5. 还可以使用Q_SIGNAL,Q_EMIT,Q_SLOT避免第三方库的关键字冲突

    You can define the QT_NO_KEYWORDS macro, that disables the “signals” and “slots” macros. If you use ...

  6. 全面解析ECMAScript 6模块系统

    快速使用Romanysoft LAB的技术实现 HTML 开发Mac OS App,并销售到苹果应用商店中.   <HTML开发Mac OS App 视频教程> 土豆网同步更新:http: ...

  7. SetWinEventHook 事件钩子(有些windows事件并没有消息对应,譬如弹出菜单,切换窗口,获得焦点,滚动条滚动等)good

    相信消息钩子大家听的比较多,消息钩子能够在应用程序处理系统消息之前将其截获,提前处理并可以决定是否继续将消息往下传送,有些windows事件并没有消息对应,譬如弹出菜单,切换窗口,获得焦点,滚动条滚动 ...

  8. 层次关系表格,不用递归,快速检索。HierarchyId

    最近这几天写了个T4自动实现EF code first和Ado的存储过程.使用过程中发现了一个Sql的类型为HierarchyId.看到时真是百思不得齐姐.算了查一下MSDN吧.从微软官网找到了Hie ...

  9. Python Re 模块超全解读!

    re模块下的函数 compile(pattern):创建模式对象 import repat=re.compile('A')m=pat.search('CBA')                     ...

  10. Flask学习之旅--简易留言板

    一.写在前面 正所谓“纸上得来终觉浅,方知此事要躬行”,在看文档和视频之余,我觉得还是要动手做点什么东西才能更好地学习吧,毕竟有些东西光看文档真的难以理解,于是就试着使用Flask框架做了一个简易留言 ...