前言

只有光头才能变强

之前有读者问过我：“3y你的博客有没有电子版的呀？我想要份电子版的”。我说：“没有啊，我没有弄过电子版的，我这边有个文章导航页面，你可以去文章导航去找来看呀”..然后就没有然后了。

最近也有个读者提过这个问题，然后这两天也没什么事做，所以打算折腾折腾，看看怎么把博客转成PDF。

一、准备工作

要将博客转成PDF，我首先想到的是能不能将markdown文件转成PDF(因为平时我就是用markdown来写博客的)。

想了一下，原生markdown显示的话，代码是没有高亮的，格式也不会太好看。
所以就放弃了这个想法。

于是就去想一下，可不可以将HTML转成PDF呢。就去GitHub搜了有没有相关的轮子，也搜到了一些关于Python的爬虫啥的，感觉还是蛮复杂的。

后来，终于搜到了个不错的：

https://github.com/petterobam/my-html2file

介绍：收集一系列html转文档的开源插件，做成html页面转文件的微服务集成Web应用，目前包含 html转PDF、html转图片、html转markdown等等。

功能：

网页转PDF（参用wkhtml2pdf插件）
网页转图片（参用wkhtml2pdf插件）
网页转Markdown（参用jHTML2Md）
网页转WORD（参用Apache POI）

这里我主要用到的网页转PDF这么一个功能，对应的插件是wkhtml2pdf。

1.1踩坑

发现了一个不错的轮子了，感觉可行，于是就去下载来跑一下看看怎么样。启动的时候倒没有出错，但在调接口的时候，老是抛出异常。

于是就开始查一下路径，url有没有问题啦，查来查去发现都没问题啊。

后来才发现我的wkhtml2pdf.exe文件打不开，说我缺少几个dll文件。于是，我首先想到的是去wkhtml2pdf官网看看有没有相关的问题，想重新下载一个，但官网都进不去...(不是墙的问题)

https://wkhtmltopdf.org/
(ps：一个周末过去了，发现又能打开了。)

好吧，于是就去找‘dll文件缺失怎么办’。后面发现，安装一下Visual C++ Redistributable for Visual Studio 2015就好了(没有网上说得那么复杂)

https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=48145

完了之后，发现可以将一个HTML转成PDF了，效果还不错：

有目录
可复制粘贴
可跳转到链接
清晰度好评

缺点：

页面加载速度慢的HTML，图片还没加载出来就已经生成PDF了
- 所以我选用了博客园(速度快)
在PDF的末尾有好几页不相关的(评论，广告啥的)

本来想着能不能只截取HTML博文的部分啊(评论，广告和其他不相关的不截取)。于是就去搜了一下，感觉是挺麻烦的，自己做了几次试验都没弄出来，最后放弃了。

后来又想了一下，我不是有一个没有广告的博客平台吗，刚好可以拿来用了。但是，我自己写完的markdown是没有全部保存在硬盘上的，后来发现简书可以下载已发布文章的所有markdown。

下载下来的文章，我想全部导入到之前那个无广告的博客平台上。但发现导出来的markdown没有高亮语法..

// 没有语法高亮咋看啊，所以到这里我就放弃了，将就用一下博客园生成的PDF吧

1.2爬虫学习

上面GitHub提供的接口是一个URL生成一个PDF文件，我是不可能一个一个将链接和标题放上去生成的(因为博客园上发的也将近200篇了)。

而我是一点也不会爬虫的，于是也去搜了一下Java的爬虫轮子，发现一个很出名(WebMagic)

https://github.com/code4craft/webmagic

于是就跟着文档学习，也遇到了坑...文档给出的版本是0.7.3，我使用的JDK版本是8，用它的例子跑的时候抛出了SSLException异常(然而网上的0.6.x版本是没有问题的)

折腾完折腾去，也找到了0.7.3版本在JDK8上如何解决SSLException异常的办法了：

http://www.cnblogs.com/vcmq/p/9484418.html

修改HttpClientDownloader和HttpClientGenerator这两个类的部分代码就好了。

但是，我还是死活写不出能用的代码出来(真的菜!)..后来去问了一下同事(公众号：Rude3Knife)咋搞，他用Python几分钟就写好了。



def get_blog_yuan(blog_name, header):

    for i in range(1, 6):

        url = 'https://www.cnblogs.com/' + blog_name + '/default.html?page=' + str(i)

        r = requests.get(url, headers=header, timeout=6)

        selector = etree.HTML(r.text)

        names = selector.xpath("//*[@class='postTitle']/a/text()")

        links = selector.xpath("//*[@class='postTitle']/a/@href")

        for num in range(len(names)):

            print(names[num], links[num])

        time.sleep(5)

我也不纠结了..直接用他爬下来的数据吧(:

WebMagic中文文档：

http://webmagic.io/docs/zh/

最后

最后我就生成了好多PDF文件了：

// 这篇文章简单记录下我这个过程吧，还有很多要改善的[//假装TODO]。如果你遇到过这种需求，有更好的办法的话不妨在评论区下告诉我~~

WebMagic我的Demo还没写好！！！如果有兴趣或者用过WebMagic的同学，有空的话不妨也去爬爬我的博客园的文章，给我一份代码(hhhhh)

分析可能的原因：博客园反爬虫or爬取规则没写好

部门的前辈建议我去了解一下机器学习，我也想扩展一下眼界，所以这阵子会去学一下简单的机器学习知识。(当然啦，我后面也会补笔记的)

乐于分享和输出干货的Java技术公众号：Java3y。关注即可领取海量的视频资源！

文章的目录导航：

https://github.com/ZhongFuCheng3y/3y

我是如何将博客转成PDF的的更多相关文章

将博客转成pdf
前些天无意间看到了“birdben”的博客,写的比较详细,但是最新的文章更新时间是“2017-05-07”,时间很是久远,本打算有时间认真学习一下博主所写的文章,但是担心网站会因为某些原因停止服务,于 ...
将Medium中的博客导出成markdown
Medium(https://medium.com)(需要翻墙访问)是国外非常知名的一个博客平台.上面经常有很多知名的技术大牛在上面发布博客,现在一般国内的搬运的技术文章大多数都是来自于这个平台. M ...
我叫Twenty，我是要成为博客王的博客框架
标题套用了路飞的格式,其实我想说的是大多数都不相信你的梦想,直到你快走到了. 不废话了,介绍一下twenty: 这是基于CMS框架 zerojs打造一个博客.zerojs 的架构介绍在这里http:/ ...
爬取王垠的博客并生成pdf
尚未完善,有待改进 #!/usr/bin/env python3 # -*- coding: utf-8 -*- __author__ = 'jiangwenwen' import pdfkit im ...
ahk打印成pdf记录
软工课程后记: 要求将博客打印成pdf存档.为了偷懒,不想自己点鼠标一个个保存,所以写了一个ahk小程序.博客教程推荐,建议一试,不难.还很方便.我也只学了点点皮毛,满足需求即止. 第一个成功的小例子 ...
推荐一款自己的软件作品[豆约翰博客备份专家]，新浪博客，QQ空间，CSDN，cnblogs博客备份，导出CHM,PDF(转载)
推荐一款自己的软件作品[豆约翰博客备份专豆约翰博客备份专家是完全免费,功能强大的博客备份工具,博客电子书(PDF,CHM和TXT)生成工具,博文离线浏览工具,软件界面美观大方,支持多个主流博客网站( ...
使用 github Pages 服务建立个人独立博客全过程
你是否有这样子的需求,只是想简单的写写文章,记录下自己的学习心得.成长经历等,都是些文字内容,不需要配置使用数据库.不想购买服务器自己搭建站点,只是想安安静静的用比较舒服的方式来写篇文章. 静态博客就 ...
2019基于Hexo快速搭建个人博客，打造一个炫酷博客(1)-奥怪的小栈
本文转载于:奥怪的小栈这篇文章告诉你如何在2019快速上手搭建一个像我一样的博客:基于HEXO+Github搭建.并完成SEO优化,打造一个炫酷博客. 本站基于HEXO+Github搭建.所以你需要 ...
从零开始，搭建博客系统MVC5+EF6搭建框架（4）上,前后台页面布局页面实现，介绍使用的UI框架以及JS组件
一.博客系统进度回顾以及页面设计 1.1页面设计说明紧接前面基础基本完成了框架搭建,现在开始设计页面,前台页面设计我是模仿我博客园的风格来设计的,后台是常规的左右布局风格. 1.2前台页面风格主页 ...

随机推荐

cocos2d-x 开发常见问题：
更改Andriod项目的显示横屏还是竖屏问题: 打开项目中的proj.android/AndroidManifest.xml文件中,更改screenOrientation配置信息: screenOri ...
ccos2d-x 学习
渲染驱动方式,事件驱动方式 this->addChild(pSprite, 0); 的第二个参数(int zOrder)表示要添加到this类对象中的顺序.是由里向外的方向.值越大表示越在外面. ...
python logging method 02
基本用法下面的代码展示了logging最基本的用法. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 ...
jQuery事件处理了解一下
>>> JQuery 事件处理一.事件绑定方式 1.事件绑定的快捷方式: 缺点:绑定的事件,无法取消 $("button:eq(0)").dblclick(fu ...
java语言浅显理解
从厉害的c语言.到经久不衰的java语言.到不太火的安卓和IOS,到当下流行的python,这些都是软件开发中的一员. 之前在传智播客上的免费视频资源上,听了老师对java语言的介绍,感觉挺好了.今天 ...
原生javascript写自己的运动库（匀速运动篇）
网上有很多JavaScript的运动库,这里和大家分享一下用原生JavaScript一步一步写一个运动函数的过程,如读者有更好的建议欢迎联系作者帮助优化完善代码.这个运动函数完成后,就可以用这个运动函 ...
sql中关于存在就不做操作的代码块
前言: 在开发中,经常会对数据库表进行新增修改操作,那么如果表中的属性信息已然存在啦!就没必要去做重复的操作了... 代码块 BEGIN SELECT "COUNT"(*) int ...
mysql 和 oracle 的一些小知识
有很多应用项目, 刚起步的时候用MYSQL数据库基本上能实现各种功能需求,随着应用用户的增多,数据量的增加,MYSQL渐渐地出现不堪重负的情况:连接很慢甚至宕机,于是就有把数据从MYSQL迁到ORAC ...
resteasy上传文件写法
resteasy服务器代码 @Path(value = "file") public class UploadFileService { private final String ...
Ubuntu系统下解决“YourUserName不在sudoers文件中。此事将被报告”的问题
本文由荒原之梦原创,原文链接:http://zhaokaifeng.com/?p=624 问题描述: 之前在使用Fedora系统时遇到过在使用 sudo 时提示"YourUserName不在 ...

我是如何将博客转成PDF的

前言

一、准备工作

1.1踩坑

1.2爬虫学习

最后

我是如何将博客转成PDF的的更多相关文章

随机推荐

热门专题