EPUB文件格式简单解析
最近热衷于看轻小说,奈何某些网站样式排版属实糟糕,移动端体验极度不友好,实在无法忍受,于是希望能将网站内容爬取下来制作成EPUB格式的电子书。
抛开爬取网站内容不谈,通过解析EPUB文件后,大致掌握了EPUB文件的基本格式内容。
EPUB文件结构
EPUB文件本质是一个zip压缩文件。
将EPUB文件后缀改为zip解压即可一窥真相。
使用tree命令查看整个EPUB文件的目录结构和文件,其中部分文件被省略。
mimetype
│
├─META-INF
│ container.xml
│
└─OEBPS
│ chapter0001.xhtml
│ chapter0002.xhtml
│ chapter0003.xhtml
│ chapter0004.xhtml
│ chapter0005.xhtml
│ chapter0006.xhtml
| ...
│ content.opf
│ toc.ncx
│
└─images
39655.jpg
39656.jpg
39657.jpg
...
固有文件
- mimetype
- META-INF/container.xml
mimetype
mimetype是一个文本文件,内容固定为:application/epub+zip
META-INF/container.xml
其中rootfile的属性full-path指定了此书的OPF文件路径。
<?xml version="1.0" encoding="UTF-8"?>
<container xmlns="urn:oasis:names:tc:opendocument:xmlns:container" version="1.0">
<rootfiles>
<rootfile full-path="OEBPS/content.opf" media-type="application/oebps-package+xml"/>
</rootfiles>
</container>
OPF
Open Package Format(OPF),即包文件格式,其主要功能是用于组织 OPS 文档和提供相应的导航机制,并形成一个开放式的基于 XML 的打包文档,该文档的后缀名为 “.opf” 。
通过META-INF/container.xml
即可定位到OPF文件。
查看文件内容,可以比较容易猜测每部分的作用。
<?xml version="1.0" encoding="UTF-8"?>
<package xmlns="http://www.idpf.org/2007/opf" unique-identifier="bookId" version="2.0">
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="bookId">urn:uuid:9bfb698f-dfa3-45ca-bea4-d0fbc2ead4f3</dc:identifier>
<dc:language>en</dc:language>
<dc:title>第一卷 虚伪的王国</dc:title>
<meta content="cover-image" name="cover"/>
</metadata>
<manifest>
<item href="toc.ncx" id="ncx" media-type="application/x-dtbncx+xml"/>
<item href="chapter0001.xhtml" id="chapter0001.xhtml" media-type="application/xhtml+xml"/>
<item href="chapter0002.xhtml" id="chapter0002.xhtml" media-type="application/xhtml+xml"/>
<item href="chapter0003.xhtml" id="chapter0003.xhtml" media-type="application/xhtml+xml"/>
<item href="chapter0004.xhtml" id="chapter0004.xhtml" media-type="application/xhtml+xml"/>
<item href="chapter0005.xhtml" id="chapter0005.xhtml" media-type="application/xhtml+xml"/>
<item href="chapter0006.xhtml" id="chapter0006.xhtml" media-type="application/xhtml+xml"/>
...
<item href="images/39655.jpg" id="cover-image" media-type="image/jpeg"/>
</manifest>
<spine toc="ncx">
<itemref idref="chapter0001.xhtml"/>
<itemref idref="chapter0002.xhtml"/>
<itemref idref="chapter0003.xhtml"/>
<itemref idref="chapter0004.xhtml"/>
<itemref idref="chapter0005.xhtml"/>
<itemref idref="chapter0006.xhtml"/>
...
</spine>
</package>
metadata
EPUB文件元数据
dc:identifier
书本的唯一标识符,需要和ncx文件中的identifier一致,虽然不一致也没问题。
dc:language
书本使用的语言 不是很重要。
dc:title
整本书的书名,重要性不言而喻。
meta
通过对部分EPUB进行解压,目前只发现设置封面的meta
<meta content="cover-image" name="cover"/>
一般没有需求不更改,如何设置封面查看下文。
manifest
整本书的清单文件,一般会列出ncx文件和小说正文文件以及封面。
ncx文件是必须的,它定义了书籍的目录,具体格式查看下文。
封面是可选的,不过EPUB没有封面和插图就没有灵魂。
item
清单文件项目。
- href 文件的相对路径
- id 项目ID
- media-type 文件的MIME类型
正文网页文件
一般格式都为XHTML,可以使用样式图片音频各种各样的资源。
指定封面图片
- metadata中包含
name
为cover的meta
标签
<meta content="cover-image" name="cover"/>
- manifest中包含id为上述meta的content属性的item
- 通过设置item的
href
即可指定封面路径
<item href="images/39655.jpg" id="cover-image" media-type="image/jpeg"/>
spine
翻译成中文就是书脊,通过引用的顺序来指定阅读顺序。
例如上文文件依次列出了chapter0001、chapter0002等,阅读完chapter0001就会开始阅读chapter0002。
itemref
引用的manifest中的文件,只需要引入正文网页文件。
- idref 需要与manifest中itme的id对应 代表此文件
- linear 表明该项是作为线性阅读顺序中的一项,与先后顺序无关,默认为yes
NCX
NCX是Navigation Content eXtended的缩写,用于表示本书的目录。
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ncx xmlns="http://www.daisy.org/z3986/2005/ncx/">
<head>
<meta content="urn:uuid:9bfb698f-dfa3-45ca-bea4-d0fbc2ead4f3" name="dtb:uid"/>
<meta content="1" name="dtb:depth"/>
<meta content="0" name="dtb:totalPageCount"/>
<meta content="0" name="dtb:maxPageNumber"/>
</head>
<docTitle>
<text>第一卷</text>
</docTitle>
<navMap>
<navPoint id="navPoint-1" playOrder="1">
<navLabel>
<text>插图</text>
</navLabel>
<content src="chapter0001.xhtml"/>
</navPoint>
<navPoint id="navPoint-2" playOrder="2">
<navLabel>
<text>序章</text>
</navLabel>
<content src="chapter0002.xhtml"/>
</navPoint>
<navPoint id="navPoint-3" playOrder="3">
<navLabel>
<text>第一章 前世</text>
</navLabel>
<content src="chapter0003.xhtml"/>
</navPoint>
<navPoint id="navPoint-4" playOrder="4">
<navLabel>
<text>第二章 异世界</text>
</navLabel>
<content src="chapter0004.xhtml"/>
</navPoint>
<navPoint id="navPoint-5" playOrder="5">
<navLabel>
<text>第三章 冤罪</text>
</navLabel>
<content src="chapter0005.xhtml"/>
</navPoint>
<navPoint id="navPoint-6" playOrder="6">
<navLabel>
<text>第四章 入学王立学院</text>
</navLabel>
<content src="chapter0006.xhtml"/>
</navPoint>
<navPoint id="navPoint-7" playOrder="7">
<navLabel>
<text>第五章 五年后</text>
</navLabel>
<content src="chapter0007.xhtml"/>
</navPoint>
<navPoint id="navPoint-8" playOrder="8">
<navLabel>
<text>第六章 野外演习</text>
</navLabel>
<content src="chapter0008.xhtml"/>
</navPoint>
<navPoint id="navPoint-9" playOrder="9">
<navLabel>
<text>第七章 虚伪的真相</text>
</navLabel>
<content src="chapter0009.xhtml"/>
</navPoint>
<navPoint id="navPoint-10" playOrder="10">
<navLabel>
<text>末章</text>
</navLabel>
<content src="chapter0010.xhtml"/>
</navPoint>
<navPoint id="navPoint-11" playOrder="11">
<navLabel>
<text>后记</text>
</navLabel>
<content src="chapter0011.xhtml"/>
</navPoint>
<navPoint id="navPoint-12" playOrder="12">
<navLabel>
<text>特典 淑女空腹状态</text>
</navLabel>
<content src="chapter0012.xhtml"/>
</navPoint>
<navPoint id="navPoint-13" playOrder="13">
<navLabel>
<text>特典 雾雨茫茫相思相爱伞</text>
</navLabel>
<content src="chapter0013.xhtml"/>
</navPoint>
<navPoint id="navPoint-14" playOrder="14">
<navLabel>
<text>特典 贵族千金们的茶会</text>
</navLabel>
<content src="chapter0014.xhtml"/>
</navPoint>
</navMap>
</ncx>
meta
dtb:uid
<meta content="urn:uuid:9bfb698f-dfa3-45ca-bea4-d0fbc2ead4f3" name="dtb:uid"/>
这个和opf中的dc:identifier应该保持一致,不一致倒也没什么问题。
depth、totalPageCount和maxPageNumber
<meta content="1" name="dtb:depth"/>
<meta content="0" name="dtb:totalPageCount"/>
<meta content="0" name="dtb:maxPageNumber"/>
对于电子书不需要进行修改,使用这几个值就OK。
docTitle
<docTitle>
<text>第一卷</text>
</docTitle>
姑且认为应该与opf中的dc:title一致,书名以opf中的为准。
navPoint
<navPoint id="navPoint-1" playOrder="1">
<navLabel>
<text>插图</text>
</navLabel>
<content src="chapter0001.xhtml"/>
</navPoint>
整书的目录,每个navPoint代表目录中的一项,包含标题和文件路径。
一个EPUB有以上这些文件就能被识别,通过创建文件然后压缩就可以完成一个EPUB文件的创建。
完成的项目
最后提一下已经完成的开头的项目: linovel-downloader
EPUB文件格式简单解析的更多相关文章
- MP4文件格式的解析
MP4文件格式的解析,以及MP4文件的分割算法 mp4应该算是一种比较复杂的媒体格式了,起源于QuickTime.以前研究的时候就花了一番的功夫,尤其是如何把它完美的融入到视频点播应用中,更是费尽了心 ...
- 【文件格式探究】EP.1 对ePub文件格式的初探
这是"文件格式探究"专题的第 1 期--初探 "ePub" 文件格式.这个专题将会给各位读者呈现笔者探索各种文件格式的过程,具体则是文件的内容是如何呈现出来的. ...
- 对 cloudwu 简单的 cstring 进行简单解析
题外话 以前也用C写过字符串,主要应用的领域是,大字符串,文件读取方面.写的很粗暴,用的凑合着.那时候看见云风前辈的一个开源的 cstring 串. 当时简单观摩了一下,觉得挺好的.也没细看.过了较长 ...
- 基于DOM的XSS注入漏洞简单解析
基于DOM的XSS注入漏洞简单解析http://automationqa.com/forum.php?mod=viewthread&tid=2956&fromuid=21
- PCM文件格式简单介绍
PCM文件格式简单介绍 PCM文件:模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,该文件没有附加的文件头和文件结束标志.Windows的Convert工具能够把PCM音频格式的文件转换成M ...
- 15.5 自学Zabbix之路15.5 Zabbix数据库表结构简单解析-其他 表
点击返回:自学Zabbix之路 自学Zabbix之路15.5 Zabbix数据库表结构简单解析-其他 表 1. Actions表 actions表记录了当触发器触发时,需要采用的动作. 2.Aler ...
- 深度优先搜索DFS和广度优先搜索BFS简单解析(新手向)
深度优先搜索DFS和广度优先搜索BFS简单解析 与树的遍历类似,图的遍历要求从某一点出发,每个点仅被访问一次,这个过程就是图的遍历.图的遍历常用的有深度优先搜索和广度优先搜索,这两者对于有向图和无向图 ...
- List<T>集合的Sort自定义排序用法简单解析
List<T>集合的Sort自定义排序用法简单解析: 如下:一系列无序数字,如果想要他们倒序排列,则使用如下代码: 那么如何理解这段代码呢? (x,y)表示相邻的两个对象,如果满足条件:x ...
- Maven项目pom.xml文件简单解析
Maven项目pom.xml简单解析 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="h ...
随机推荐
- 使用let实现循环小例子
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
- Java反射的浅显理解
一.回顾反射相关的知识 1.在xml文件中使用反射的好处: 1)代码更加灵活,后期维护只需要修改配置文件即可 · 初学者一般习惯于在代码本身上直接修改,后期也可以修改配置文件达到相同的目的 · 修改配 ...
- Mybatis-技术专区-如何清晰的解决出现「多对一模型」和「一对多模型」的问题
前提介绍 在mybatis如何进行多对一.一对多(一对一)的多表查询呢?本章带你认识如何非常顺滑的解决! 基础使用篇 一对一 association association通常用来映射一对一的关系,例 ...
- VMware 部署虚拟环境
2021-08-23 1. 版本介绍 本地主机操作系统:windows 10虚拟软件版本:VMware workstation 14centos镜像版本:centos 7.5 2. 设置 2.1 基础 ...
- 前端路由原理之 hash 模式和 history 模式
什么是路由? 个人理解路由就是浏览器 URL 和页面内容的一种映射关系. 比如你看到我这篇博客,博客的链接是一个 URL,而 URL 对应的就是我这篇博客的网页内容,这二者之间的映射关系就是路由. 其 ...
- python3 爬虫五大模块之一:爬虫调度器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
- ysoserial CommonsColletions1分析
JAVA安全审计 ysoserial CommonsColletions1分析 前言: 在ysoserial工具中,并没有使用TransformedMap的来触发ChainedTransformer链 ...
- 如何将 Ubuntu 版本升级到新版本
@ 目录 0.将 Ubuntu 版本升级到新版本的注意事项 1.以图形方式升级到 Ubuntu 20.04(适用于桌面用户) 2.使用命令行升级到 Ubuntu 21.10 本教程通过从 Ubuntu ...
- (6)java Spring Cloud+Spring boot+mybatis企业快速开发架构之SpringCloud-Spring Boot项目详细搭建步骤
在 Spring Tools 4 for Eclipse 中依次选择 File->New->Maven Project,然后在出现的界面中按图所示增加相关信息. <paren ...
- 制作Windows服务和安装程序(C#版)
http://blog.sina.com.cn/s/blog_5f4ffa170100vt2b.html 1.创建服务项目: 打开VS 2005 编程环境,在C#中新建Windows服务程序 2.将安 ...