PDF转换成HTML初探，你需要注意这三点

吴蛋蛋 · 发表于 2018-10-25 16:13

有时候，我们会通过浏览器把HTML转换成PDF文件，进而保存起来。但是把PDF转换成HTML又会是什么结果呢？毕竟HTML保存成PDF容易，PDF转换成HTML却不容易。

为了测试PDF转换成的HTML文件效果怎么样，我对比了国外和国内领头的两家公司。

我们先来看看本家Adobe怎么转换的。

下载Adobe acrobat XI Pro，安装到电脑上。打开PDF文档，点击左上角的”文件“选项，在弹出的下拉框中找到”另存为其他“；

在沿着箭头打开右边下拉框，找到“HTML网页”，选择需要输出的HTML格式。

接下来我们再来看看国内老牌福昕PDF旗下的PDF365网站，里面的PDF转HTML是免费的...毕竟PDF转换成HTML的需求太小众了。

打开PDF在线转换平台：PDF365.cn；

点击“PDF转HTML”，进入PDF文档上传页面，添加需要转换的PDF文档到窗口；

点击“开始转换”，即可将PDF转换成HTML；

转换完成后，点击“下载”按钮，即可获取转换后文档；

除了以上两个典型案例，试过了很多网站和软件，总体结果并不让人满意：

1、对于HTML转换的PDF，两家还原的效果都不好；

2、对于自己编辑的普通PDF，转换后的板式基本还原，但是图片质量都不好；

总结一下需要注意的三点情况：

1、扫描件PDF转Html很难实现，因为扫描件一个页面就是一张图。扫描pdf要转html需要进行文字识别和图文分离；

2、非扫描件的PDF转换成Html，无法表达PDF里面复杂的渲染和矢量图的；

3、非扫描件的PDF转换成Html，对PDF板式结构分析引擎的功力要求很高，想要再还原出来只能靠转换引擎去猜。这个技术在PDF里面叫Reflow（版式重排），能够机器智能重建PDF的流式信息，目前只有Adobe和Foxit两家公司具备这个技术，但也无法做到100%。

[其他] PDF转换成HTML初探，你需要注意这三点