扫描版PDF目录制作指南
目前网上找到的扫描版的电子书往往没有目录,这使得阅读变得非常困难。本文总结我的经验,介绍快速制作扫描版 PDF 目录的方法,以便更轻松地阅读扫描版电子书。
本文首先介绍手动制作目录的方法,之后介绍如何利用 AI 帮助制作目录,接下来介绍了没有目录页的扫描版 PDF 的解决方案。本文提到的软件我都放在网盘分享链接中
https://pan.baidu.com/s/1nQEAKnuNcf2KxrAz473xIA?pwd=1234
目录 OCR
制作目录,首先要对扫描版电子书的目录页进行 OCR。
OCR 软件首推 PDF_XChange,该软件我已放到网盘中。OCR 方式如图所示
其次推荐 ABBYY FineReader PDF 15、Adobe acrcbat dc、扫描全能王等软件。
格式化目录
获得目录 ocr 结果后,可以先通过替换把 ..
全部去掉
之后去除中文字符间的空格。具体方法为打开 word 文档或 WPS,粘贴 OCR 内容,在替换框中选择 使用通配符
,在查找内容中输入 ([一-龥]) ([一-龥])
,在替换为中输入 \1\2
,最后选择全部替换,此时 Word 将会找到所有匹配的两个汉字之间有一个空格的情况,并将空格去除,保留两个汉字。
之后是对照扫描版电子书格式化目录,最终转化成如下格式
第1章 嵌入式计算 1
1.1 引言 1
1.2 复杂系统与微处理器 1
1.2.1 嵌入式算机 2
......
然后用 PdgCntEditor 打开 PDF 文件,粘贴格式化的目录结果,按图所示依次点击
对应操作为
- 自动层次化目录
- 分割页码
- 设置基准页,即书的第1页在PDF文件中的页码
最后按 Ctrl+S
保存,可以看到目录已经制作完成
AI 帮助提取格式化目录
目录页 OCR 的结果已包含目录的全部信息,受到整理目录纯粹是个体力活,因此格式化目录可以借助 AI 完成。
经过我的多次试验,我发现比较好用的 Prompt 如下
您是一名经验丰富的图书管理员,正在参与一个将纸质书籍转化为电子书的项目。您的具体任务是利用OCR技术扫描书籍目录,并对扫描结果进行格式化处理,以制作电子目录。我将向您提供一份目录的OCR扫描结果,您需要根据这些信息输出一个结构化的电子目录。格式化的目录应该包括章节编号、标题和页码。
一个您预期的格式化目录的示例如下:
第3章 应力和应变分析 54
3.1 应力分析 54
3.1.1 应力张量及其分解 54
3.1.2 主应力和应力不变量 56
3.1.3 等斜面上的应力 57
3.1.4 等效应力 58
3.1.5 三向Mohr圆和Lode应力参数 59
3.1.6 应力空间和主应力空间 61
3.2 应变分析 62
3.2.1 位移与应变的关系 62
3.2.2 应变张量的分解和应变张量的不变量 63
3.2.3 等效应变和Lode应变参数 64
3.2.4 应变率张量和应变增量张量 65
参考文献 66
习题 66
第4章 屈服条件 68
4.1 初始屈服条件 68
4.2 两种常用的屈服条件 71
4.2.1 Tresca屈服条件 71
4.2.2 Mises屈服条件 74
4.2.3 两种屈服条件的比较 74
4.2.4 Mises屈服条件的物理解释 76
4.3 屈服条件的实验验证 77
4.4 后继屈服条件 80
参考文献 83
习题 83
第5章 塑性本构关系 85
5.1 弹性本构关系 85
5.2 Drucker公设 87
5.3 加载、卸载准则 92
5.3.1 理想塑性材料的加载、卸载准则 92
5.3.2 强化材料的加载、卸载准则 93
5.4 增量理论(流动理论) 93
5.4.1 概述 93
5.4.2 理想塑性材料与Mises条件相关联的流动法则 94
5.4.3 理想塑性材料与Tresca条件相关联的流动法则 97
5.4.4 强化材料的增量本构关系 99
5.5 全量理论(形变理论) 101
5.5.1 Илъюшин理论 101
5.5.2 简单加载和单一曲线假定 102
5.5.3 简单加载定理 104
5.5.4 塑性本构关系的总结与比较 105
5.6 岩土力学中的Coulomb屈服条件和流动法则 107
参考文献 109
习题 109
请确认您理解任务要求,并准备好接收OCR结果后,回复我“明白了”。然后我将发送OCR扫描的内容给您。
没有目录页的扫描版 PDF
这种情况就非常棘手了,一种方案是使用软件 PDF 补丁丁,如图所示
其原理是识别扫描版 PDF 的 OCR 结果,然后根据字体的大小判断是否是标题,再生成目录。
另一种方案是利用 AI 自动生成。这种方法我也没尝试过,但理论上可行,比如知乎用户层林尽染就利用 AI 分析知乎回答情况。
制作目录之后
之后是电子书的清晰化与压缩,这一步的教程网上有很多,比如玩转pdf之批量优化扫描版PDF书籍的清晰度https://zhuanlan.zhihu.com/p/67762085这篇文章。
最后是电子书的分享,比如可以上传到学校的资源库,如浙江大学课程攻略共享计划
https://github.com/QSCTech/zju-icicles
北大课程资料民间整理
https://github.com/lib-pku/libpku
也可以上传到 Z-Library
https://zh.zlibrary-east.se/
我也把我搜集的电子书都放在网盘中以供分享
https://pan.baidu.com/s/1gaeV_OuJ-zdF9SkOiONvhA?pwd=1234
扫描版PDF目录制作指南的更多相关文章
- kindle】扫描版PDF完美切割六寸
kindle]扫描版PDF完美切割六寸 半夏 2013-11-05 18:36:01 软件来源记不清了..连使用说明的网址都找不到了,自己写一下使用方法大家凑合一下呗~ 软件是大牛写的 ...
- 扫描仪扫描文件处理-ABBYY对扫描版PDF文字加黑加粗、去除背景漂白
1. 设置ABBYY自动歪斜矫正: 2. 设置导出PDF参数: 3. PDF文字加黑加粗.去除背景漂白步骤:3.1 ABBYY - 打开扫描版PDF文档3.2 ABBYY - 编辑图像3.3 等级 - ...
- 《Visual C++开发实战1200例 第1卷》扫描版[PDF]
[内容简介:] <Visual C++开发实战1200例(第1卷)>是“软件开发实战1200例”丛书之一.<Visual C++开发实战1200例(第1卷)>,编程实例的四库全 ...
- kindle看扫描版pdf的解决办法
(1)先把PDF crop (2)转JPEG (3)JPEG根据kindle的屏幕的分辨率,调整JPEG图像大小,kindle whater paper 大小为1448*1072 (4) 最后把j ...
- [100个改变摄影的伟大观念].(英)玛瑞恩.高清扫描版.pdf
下载地址 :https://u253469.ctfile.com/fs/253469-229765365
- Web性能权威指南 PDF扫描版
Web性能权威指南是谷歌公司高性能团队核心成员的权威之作,堪称实战经验与规范解读完美结合的产物.<Web性能权威指南>目标是涵盖Web开发者技术体系中应该掌握的所有网络及性能优化知识.全书 ...
- 批量自动化生成PDF目录标签
所需软件: 1. FreePic2Pdf(网上很容易找到) 2. python3 3. 天若OCR 链接:https://pan.baidu.com/s/1B9dUr3gc0pv0BSHo5QYGsQ ...
- HTML5游戏开发进阶指南 中文pdf扫描版
HTML5游戏开发进阶指南介绍了HTML5游戏开发的一般过程和技巧.全书共分12章,第1章介绍了本书相关的HTML5的诸多新特性,包括在canvas上绘图.播放声音等,另外还引入了子画面页的概念:第2 ...
- HTML5权威指南 中文版 高清PDF扫描版
HTML5权威指南是一本系统学习网页设计的权威参考图书.<HTML5权威指南>分为五部分:第一部分介绍学习本书的预备知识和HTML.CSS和JavaScript的最新进展:第二部分讨论HT ...
- HTML 5与CSS 3权威指南(第2版·上册) 中文pdf扫描版
HTML5与CSS3权威指南(第2版·上册)已经成为HTML 5与CSS 3图书领域的一个标杆,被读者誉为“系统学习HTML 5与CSS 3技术的最佳指导参考书之一”和“Web前端工程师案头必备图书之 ...
随机推荐
- localstory,sessionstory,vuex,cook
函数式组件 1.特点 没有this(没有实例) 没有响应式数据 它只是一个接受一些 prop 的函数. render MVVM分为Model.View.ViewModel三者. Model:代表数据模 ...
- 使用qemu运行risc-v ubuntu
参考 Ubuntu installation on a RISC-V virtual machine using a server install image and QEMU 用到的文件 fw_ju ...
- 03. go-zero简介及如何学go-zero
目录 一.go-zero简介及如何学go-zero 1.go-zero官方文档 2.go-zero微服务框架入门教程 3.go-zero最佳实践 4.学习资料 二.go-zero环境搭建 1.GO环境 ...
- 解决:Failed to get D-Bus connection: Operation not permitted
docker中安装完httpd服务后,使用命令systemctl start httpd.service,发现报错,错误信息:Failed to get D-Bus connection: Opera ...
- DNS(7) -- 智能DNS实现
目录 1. 智能DNS 1.1 智能DNS概述 1.2 ACL控制列表 1.3 智能DNS实现 1.3.1 bind-view功能 1.3.2 智能DNS场景实现 1.3.3 生产场景配置示例 1. ...
- centos7 hpc高性能计算集群配置(无密码访问、nfs文件共享)
0.检查硬件的超线程 由于模型运行时,每个进程几乎都会占用100%的CPU计算能力,开启超线程之后,每个进程最多使用每个核心50%的计算能力,导致程序运行变慢. 1,物理CPU个数:cat /proc ...
- Gradle常用功能拾掇
介绍 Gradle 是一个基于groovy动态语言的java项目管理工具,灵活性和速度好于java,他的build脚本完全可以以写groovy代码的方式来实现,所以灵活性很高,当然也就比maven的x ...
- C 语言编程 — 高级数据类型 — 共用体
目录 文章目录 目录 前文列表 共用体 定义共用体 访问共用体成员 前文列表 <程序编译流程与 GCC 编译器> <C 语言编程 - 基本语法> <C 语言编程 - 基本 ...
- rocketmq 搭建配置
broker组1: # NameServer地址 namesrvAddr=192.168.1.100: 9876;192.168.1.101: 9876 # 集群名称 brokerClusterNam ...
- nginx aio模块添加与配置
1. 升级目的 让现有服务平滑过渡到高版本,减少服务漏洞,提高服务性能 让其支持nginx最新特性 nginx threads模块 2. 获取nginx1.7.2版本 wget http://ngin ...