PDF转EPUB格式电子书经验总结

根据本人将PDF转换为EPUB电子书的经验，总结整理了这篇文章，因本人水平有限，难免有错误和不足之处，望大家及时批评指正。

写这篇文章时，假定读者已经会使用文中所列出软件的基本操作，比如怎样用Notepad++打开HTML文件，如何使用PDF Password
Remover（这个软件很简单，稍有电脑操作基础的人打开后就知道怎么做）。另外读者需要对ePubBuilder的操作比较了解。

本文主要讨论图文并茂、非扫描版的PDF文档。对于扫描版PDF文件，如果是漫画一类的，可以直接用Adobe
Acrobat转化为图片制作EPUB，如果是文字形式的扫描电子书，可以使用OCR软件识别以转化成文字(ABBYY
FineReader识别效果相对较好)，但OCR识别中文准确率不够高，部分无法识别的汉字需要人工输入。对于纯文本形式的PDF，直接保存为TXT，然后转换就可以。如果文字无法复制，可以用PDF
Password Remover解密，具体请参考本文的PDF解密部分。

以下摘自百度百科：

PDF是Portable Document Format（便携文件格式）的缩写，是一种电子文件格式，与操作系统平台无关，由Adobe
公司开发而成。PDF
文件是以PostScript语言图象模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印效果，即PDF会忠实地再现原稿的每一个字符、颜色以及图象。

PDF主要由三项技术组成：

· 衍生自PostScript，可以说是PostScript的缩小版；

· 字型嵌入系统，可使字型随文件一起传输；

· 资料压缩及传输系统。

PDF文件结构主要可以分为四个部分：

1．首部

2．文件体

3. 交叉引用表

4．尾部

一方面，PDF格式作为印前出版的工业标准，由于其排版相对复杂，文件内容也有比较复杂，比如PDF可以内嵌特殊字体，可以很自由的保存每个图片、文本对象的绝对位置，而另一方面，EPUB采用类似网页格式的XML标准，即使增加了CSS样式表的支持，排版效果还是远难及PDF，因此想把排版优良的PDF电子书完美地转换成EPUB格式，相对比较复杂。一些正版收费阅读器会推出一些排版质量很高的EPUB，我试用过，排版确实不错，但是那只有在非常精心的制作下才能得出，对于我们转换PDF的人来说，是很不现实的，而且那些电子书一般收费是比较高的，应该还有授权限制，不可能共享出来让大家都能用（这些文件只有在特定应用中登录特定账号后才能打开，复制给别人就打不开了）。

可能要用到的所有软件：

PDF Password Remover 3.0

Adobe Acrobat

Chrome浏览器（其他浏览器应该也行）

Notepad++

Microsoft Word

WPS

数码照片压缩大师

ePubBuilder

大致思路是首先解除密码限制，然后导出为HTML格式，去除无关信息、修正乱码等，然后用ePubBuilder导入，完善书籍信息，分章节，自己用阅读器打开检查有无严重错误，然后发布。为什么要转为HTML，因为这种格式完全开源，好处理，出错率低，也和EPUB内部保存格式一致。

具体步骤如下：

首先指明一点，以下的步骤最后要达到的排版上的目标是：所有图片都能正常显示，但都默认靠左（有些阅读器可以设定图片强制居中显示）。文字段落和图片分开，文字不会环绕图片，也就是不会左边一半是图，右边一半是文字。虽然那样效果更好，但难度太大，不易实现。

1、如果加密了，使用PDF Password Remover移除PDF文件加密限制。加密问题后面还会具体讨论。

2、用Acrobat打开，菜单中
文件，另存为（或导出），选择生成HTML3.2格式（无CSS）。生成的时候可能比较慢，一定要耐心等，不要乱点鼠标，容易死机。根据经验，这里不选择HTML4.0（CSS1.0），尽管后者有CSS的支持，排版按理说会更好，但事实上导入ePubBuilder中出错率大增，效果也并不好。

3、在浏览器中查看，有没有明显的错误，比如根本打不开，全是乱码，没有中文，没有图片等。全是乱码可能是HTML编码的问题，没有中文可能是PDF字体、编码的问题，没有图片或许是HTML链接的问题，解决起来很麻烦，也不一定对。如果真遇到这样的严重问题，我也无能为力了。不过幸运地是，只要PDF比较正常，不会出现这种问题。

这里简要说明一下，HTML一般由源文件和数据文件夹组成，如“摄影.html”和对应文件夹“摄影_files”，文件夹也有可能是其他名称，如images，源码和数据文件夹通常要放在同一父文件夹下，文件夹中主要为图片等多媒体文件，可能还有CSS样式表、Javascript脚本一类的东西，在PDF导出的HTML3.2中，基本上只会是图片。而html源文件其实是文本文件，用记事本就可以打开，后面我们会用Notepad++直接操作HTML源文件。

4、从这一步开始，我们需要修正HTML的各种问题，会涉及一些可能不好懂得知识。对于了解HTML和正则表达式的人，应该能很快明白。不懂的话照着做就可以了。如果你在上一步打开HTML时感觉排版已经很好了，而且没有多余的东西，可以直接跳过HTML修正的这些步骤，直接导入到ePubBuilder看效果如果。

5、用Notepad++打开HTML文件，我们可以看到其源码如图。

6、替换删去html源码中align代码以去除图片文字指定的对齐，使其默认左对齐。具体方法是，按Ctrl+H，或菜单中搜索 -
替换，“查找模式”为“普通”，“查找目标”为align=“center”，，“替换为”这个框不填，勾选“循环查找”，然后点击“全部替换”。如果一次处理多个文件，则全部打开，点击“替换所有打开文件”即可。同样，“查找目标”分别改为align=“left”，align=“right”，align=“justify”，全部替换。再次打开HTML时，你会发现原先位置有些混乱的图片看上去好多了。如果有些图片确实是居中更合适，可以不全部替换，或者在后文还会利用Word来修改。

这个版式就有点乱，原因就在于有些图片靠右对齐，有些靠左，还有的文字设定了两端对齐。

7、替换删去页眉等干扰图文（使用正则表达式）

一般的图书都会有页眉和页脚，例如图中红色框出的部分，还有像页码一类的标注。这些信息在生成EPUB后完全没有意义，因为EPUB在不同情况下页码分布并不一样。了解Word的人知道，在图书编辑时，页眉是可以批量编辑修改的，但是生成PDF之后页眉页脚变成了分别独立的对象，没办法同时删除。

如果页眉是文字，将在下一步处理，源码中有可能文本采用的是转义字符，看不懂的情况下也不便修改。如果页眉含有图片，如图中的数字02，需要通过HTML源码进行替换。方法如下。用Chrome和Notepad++同时打开HTML文件，在Chrome中右击页眉图片，审查元素，底下会有个显示源码的窗口，看清width和height后面对应的表示图片宽高的数字，切换到Notepad++，还是使用替换功能，首先把“查找模式”改为“正则表达式”，取消勾选“匹配大小写”，勾选“.
matches newline”，其他选项不变，查找目标为

<[^<>]*IMG[^<>]*width=“39”[^<>]*height=“71”[^<>]*>

注意中间没有任何空格，width和height后面的数字是刚刚在Chrome中看到的数字，然后全部替换，保存文件，但不要关闭Notepad++。这时，宽度和高度符合要求的图片就没有了。然后在Chrome中刷新，看修改后有没有问题，如果有问题，在Notepad++中撤销更改，然后得针对实际情况具体分析（此处略去）。一般在Chrome中还能看到一些页眉没有被替换掉，原因是他们的宽高可能与之前的有所差距，这时只需重复前面动作就行了。

采用转义字符（形如& # 20154 ；）表示的汉字，很难看明白：

8、用word进一步编辑

这一步完成后HTML就会接近完美了，所以也很关键。用Word打开HTML（不推荐其他软件，因为包含整本书的HTML文件一般很大，很多软件打开很容易死机，如WPS、DreamWeaver，而Word2010在这方面优化的不错，2003版的不清楚），打开后可以全选修改字体等，然后替换，去除少量无法显示的字符乱码，即显示为问号（同样注意尽量不要把原文问号替换没了），替换掉重复出现的网站信息、广告等，还有就是文字形式的页眉页脚（再次强调，注意尽量不要把原文中和页眉相同内容替换没了，Word中可以根据指定字体来替换，这样比较方便），对于不是很规则的页码如：第x页，这样的信息去除，则交给ePubBuilder来完成。然后用Word把图文中排版不当的进行适度修改，不需要的目录则去除，没有严重问题即可。注意这里有个问题，如果PDF比较完整，有目录，要把目录中对应页码删除。就像这样：前言………………………………………………………………1，这个第一页在转换为HTML时就已失去意义了，没有必要保留。

另外此处注意一种常见的问题，就是个别文字是图片形式保存的，将在后文常见问题中详细说明。

Word强大的替换功能，可以指定替换前后的文字格式。

9、如果有必要的话，优化HTML文件，以便正确导入ePubBuilder。

这一步事实上可以说应该还是ePubBuilder不够完善造成的吧，用Word编辑保存后的HTML文件头部会加入很多特殊信息，如图中<meta…>，还有绿色的部分（在标准的HTML中这种形式的文本为注释，删除后没有影响）等，另外还有图片的链接问题。这些问题有时会影响ePubBuilder导入，出现一些错误。如果出现了错误，请尝试使用浏览器打开另存，用Notepad++删除绿色的部分。

如果还是不行，使用用WPS新建文档（Word不行，WPS生成时会重新链接图片，Word则不会），用浏览器打开HTML，全选并复制网页内容，粘贴到WPS，保存为HTML。此时HTML文件会完全重新生成，但图片可能会被WPS转为png，占用空间一般会增大，不推荐。

10、如果用了WPS重新保存，请查看HTML文件的图片文件夹大小，如果过大，有必要压缩一下

压缩方法如下：

用数码照片压缩大师添加文件夹，输出jpg保存到另一文件夹，然后用Notepad++打开HTML源码，可以找到类似

这样的图片标签，然后用普通模式替换“.png”为“.jpg”。然后把图片文件夹的png图片删除，将压缩后的jpg移进去。最后用浏览器打开后确认一下。

11、用ePubBuilder导入，编辑书籍信息，分章节，智能排版等

看有没有错误，有错的话修改一下。前面可能还遗留了一个问题，页脚形如“第x页”的去除，可以使用删除特征行的功能实现。

这里我还是提出ePubBuilder的一个缺陷。你可能会发现，原先的HTML排版很好，还有字体信息等，但导入后都没有了，有些图片也会有些小问题，比如我的HTML如图，但导入后，字体格式没有了，文字、图片居中没有了而且原先在“摄影大师之道”左边的那个红框位置就完全乱了，这个我目前还没有好的对策，期待着ePubBuilder功能继续完善吧。

12、导出EPUB，用掌上书苑或者其他查看器再查看一下是否正常。然后发布，等着审核通过拿书币吧^_^。是不是觉得这书币拿的格外开心呢？

容易出现的问题，我分析了以下，大致有这些吧：

一是PDF的加密版权保护。很多PDF由于涉及版权问题，采用了一定的加密手段，最严格的一种是打开文件时要求输入密码，如图所示。对于这种情况，我们只能使用Advanced
PDF Password Recovery一类软件暴力破解，这里就不详细介绍了，成功率不高，需要大量时间。

更常见的加密方式是，文件可以打开，但不能复制其中的文本，或者复制的是乱码，这样的情况，我们使用PDF Password
Remover一般就能很快移除加密限制，从而复制其中的文本。

二是PDF内嵌的字体。很多PDF内嵌一些字体，会导致复制出来出现乱码现象。如果整个文档导出的文件错字连篇，我也不知有什么好办法，但是如果只有少量错字，还是可以手工修改的，或者某几个字出错，可以采用替换的方式解决，当然自动替换全部文字时很可能把正确的字给替换错了。举个例子，假设文中所有“的”字变成了“癿”，我们可以放心的替换回来，因为这个字很少见。但是如果“的”字全部变成了“白”字，盲目替换会把“明白”替换成“明的”，就出问题了。对于这样的情况，确实没有好办法解决。这一点尤其要注意。

还有一种情况，个别文字的字体系统中没有（通常是因为其他文字使用的字体不支持这几个字，这几个字就会换成其他字体），然后会被转换成图片，如图。这就需要在Word中耐心一点手动改正了。

三是排版的问题。比如下面这边排版精美的摄影电子书，图文并茂，文字在图片中间，转换成HTML后会怎样呢？最后如你所料，有些混乱。这个也不好解决，如果你想制作优质的书，那就在Word中手动修改吧^_^。（很可惜我实在没有这般的耐心。）

还有一种情况，很奇特。在PDF中，文字也是一个个对象，通常一段字体相同的文字是一个对象。而每张图片是一个对象。但是，PDF编辑器有个很有意思的地方，比如说，两段文字原先是一个对象，你在其中插入一个空行，可能它就被分成两个对象了，反过来，两个同一性质的对象（都是文字或都是文字），靠得比较近时，又会自动并成一个对象。奇迹就发生了。试想，下图中假设中间的图和下面的图靠得很近，宽度也一致，然后就奇迹般地组合成一个对象了，然后输出的HTML中，他们成为了“连体婴儿”，成了一张图片，然后，你就不知道该怎么安排旁边那些描述性的文字了（除非手工又把图片分割开）。所以只好希望读者将就着看吧。哎，PDF转EPUB的无奈在此也可见一斑了。