你想要的这里都有
每天看一看总有新东西

建议收藏!PDF阅读最优化,这些民间的大神自制软件,神了!

简单图床 - EasyImage
有粉丝留言说他百度搜索PDF优化/编辑,结果只找到一大堆在线网页,主要还都是按月/文件收费…

就问我有没有免费的方案?

PDF优化这个问题,主要需求无非就是将模糊的PDF清晰化,即解决一些扫描版PDF字体发灰、发虚的问题

 

▲类似这种PDF

当然给扫描版PDF添加书签、进行OCR使得文字可复制、压缩PDF文件大小这些也属于PDF优化的范畴,既然都写到这儿了,藏藏这篇文章也就一并介绍一下吧

文中涉及到的所有软件下载地址,请统一看文末!!!

1

 

 

改善PDF清晰度

首先我们说提高PDF清晰度,针对的都是扫描版PDF哈(非扫描版PDF都是矢量的也没这些问题)

而扫描版PDF每一页就是,所以我们的问题其实是如何提高的清晰度

1.1

 

 

PDF转

那我们第一步需要做的就是PDF转,然后尽管是扫描版PDF,也要分几种情况:

文件本身分辨率不太够

文件本身分辨率足够,且每一页都是完整的

文件本身分辨率足够,但每一页可能不是完整,即页面中包含小插图

文件本身分辨率不太够
比如像下面这种PDF,本身分辨率就不太高,放大了看,字体边缘明显都是模糊的

 

这种情况用第三方软件处理通常无法导出原图,甚至可能进一步损失画质

所以藏藏建议是使用 Acrobat 打开PDF,然后点击文件 » 导出到 » 图像 » PNG(无损格式)

 

然后设置导出文件夹时,进一步点击设置,将转换这里的分辨率设置为236.22像素/厘米(再大其实就没必要了,这样分辨率已经相当之大了)

 

文件本身分辨率足够
这种其实算是最常见的情况,就是PDF单纯是有点字体发灰,本身清晰度是足够的

 

 

这里你自然也可以用 Acrobat 进行PDF转,但 Acrobat 有个缺点就是转的速度相当之慢,如果你的 PDF 页数很多,你可以藏藏之前就介绍过的免费工具 PDF补丁丁 进行转换,速度快得多

 

文件本身分辨率足够,页面中包含小图
最后有一种比较少见的情况——就是PDF每一页不是完整,可能是含小插图

这种情况如果你使用PDF补丁丁提取,就会发现它会提取出了出各页插入的小

所以这种情况也建议用 Acrobat DC 将整页处理成,同样建议使用「236.22 像素/厘米」的分辨率进行导出

 

 

1.2

 

 

清晰化

无损放大
对于上面提到的第一种情况,就是文件本身分辨率不够高的,我们可能需要用专门的软件提高一下清晰度,这个藏藏之前也有专门写过:

不过上文介绍的多款软件中,有且仅有 Topaz Gigapixel AI 适合处理扫描文字这种(其他适合处理动漫、真人类,对扫描文字没啥效果)

在用 Topaz Gigapixel AI 清晰化过程中,需要注意右边 Resize Mode 最好改为自定义倍数 1 倍,AI Model 这里选择 Very Compressed,你可以同时添加多个进行批量处理

不过除了 Topaz Gigapixel AI,在最近推出的 AI 放大清晰化软件中,还有一款名为 upscayl 的开源软件也有适合处理扫描文字的模型

这款软件的汉化版下载地址,藏藏已经更新到之前清晰化放大那期文章的软件下载页面了(👈可直接点开蓝色链接看置顶留言)

 

软件使用没啥好说的,记住模型选择数字艺术即可,本身是支持批量添加文件夹处理,唯一需要注意的就是最好先去设置中将放大比例改为1x,同时把压缩开到100%(不这样操作的话出图会非常慢+生成文件巨大)

 

对比一下处理前后效果,还是相当不错的,字体边缘模糊显然少了很多

 

▲左:处理前/右:处理后

灰度调整
好在扫描件分辨率不够的情况是少数,毕竟用上面的清晰化软件处理,电脑配置要是不行是非常费时间的!

多数情况下,其实我们只需要给扫描件的调个色就足够了,这里有一款经无数网友、PDF爱好者实测推荐的神器——ComicEnhancer Pro

虽然实际上这款软件开发的初衷是增强漫画阅读体验(从软件名也看得出),但由于它处理画面的功能十分强大,结果完全符合我们PDF优化的需求

由于每本书的情况不一样,具体参数并不固定,藏藏这里仅大概说明一下使用方法,大家可以根据情况自行改动参数调整到自己满意哈,首先打开软件点击文件 » 扫描书籍处理

 

打开页面之后,在左上角可以添加文件夹,左下方点击图像即可调整画面效果

其实多数情况下,我们只需要简单的把Gamma值拉大(不一定拉满,不同的文件按实际情况调节),再将曲线中改为原画面背景杂乱(曲线这里也可以手动拉滑块调整),你就能明显看到画面清晰了不少

 

视情况而定可以适当调节一些其他选项,例如亮度、对比度,不过更多可能是进一步调整一下锐化、柔化,还有就是可以尝试调节选项里面的多尺度细节增强(这个变化不明显,但有用)

 

最后就是建议保存格式选无损,JPG质量也拉到100,然后记住要点击应用 » 应用到所有图像,最后点击保存按钮旁边的灰色按钮,即可进行批量处理与保存

 

额外补充一点,如果你想要最后生成的PDF文件占用小一点,可以点击色彩,将色彩数改为纯黑白(600KB 的 JPG如果是纯文本,用这个方式处理就成了60KB)

这里选择的算法并不固定,可以自己凭感觉来,不过可以尝试阈值算法选择Wolf,然后窗口尺寸尽量大一点可以选500,最后去除毛刺一般都要勾上

 

 

1.3

 

 

合并为PDF

都处理完之后,剩下的就简单了——我们再将合并为PDF即可

这里我们依然可以用PDF补丁丁来合并成PDF,如果你之前提取的大小并不统一,我们可以设置合并PDF的选项,一般选A4或者A5

 

 

2

 

 

添加PDF书签

2.1

 

 

原PDF有书签

虽说是添加书签哈,但其实如今不少扫描版PDF也是自带目录的,这里我们依然可以用PDF补丁丁导出原PDF的书签目录

 

然后在合并处理后的时,添加上从原PDF导出的书签文件即可~

 

只有这个软件能够合并分割完毕后还能保留原有的书签目录,其他软件都会丢失!

2.2

 

 

原PDF无书签

不过就算原PDF没有书签,也不必担心,我们大概率是可以在京东、当当、百度百科、豆瓣读书等网站轻松找到电子书目录的

 

PDF补丁丁
然后添加书签这里我们甚至依然可以用PDF补丁丁来进行(没错这款软件就是这么全能)

首先,我们用PDF补丁丁打开文件之后,别的不好说,先点击❌删掉默认的书签

 

接着去网上复制完整的书签目录过来,点击粘贴按钮(Ctrl+P)到软件当中

 

注意:部分网站复制来的目录信息可能会有错,比如百度百科因为加了注释上标,在PDF补丁丁内可能会识别成空页码,这个需要自己手动处理一下

然后因为书籍都有封面、前言、序这些,网上的目录肯定是不能直接对上的,我们需要手动调整页码误差

比如藏藏这本书,网上复制来的目录第1页,实际对应的是PDF文件第28页了,那我们就需要在PDF补丁丁里 Ctlr+A 全选所有目录,右键选择更改目标页码,增减指定数值,填27

 

注意:网上的目录信息并不一定完全正确,比如藏藏上面演示的这个PDF,在1.2.1节之后,对应的页码就少了1页,需要你自己再手动调整一下后面部分对应的页码

这样处理之后我们的目录就和实际页面一一对应上了,不过到这里还没完,现在的目录没有层级结构,不是非常直观

我们可以像下面这样一点点手动给目录添加层级结构,这一步就需要自己多费点时间了,全部添加完之后,记得点击左上角的保存按钮保存为新PDF

 

 

PdgCntEditor
不过如果你能找到的PDF目录信息是下面这种格式,其实是可以靠另外一款名为 PdgCntEditor 的软件来直接自动生成层级结构的

 

打开 PdgCntEditor 后,我们直接将PDF文件拖入即可打开,然后还是一样的,删掉默认的目录信息,粘贴网上你找来的目录信息

 

不过相比PDF补丁丁, PdgCntEditor 存在个问题就是从网上复制来的目录信息通常会出现空行,遇到这种情况我们需要用 PdgCntEditor 的正则表达式功能去除换行

打开正则表达式功能,填入这串字符^\s*$,然后点击替换即可去掉所有的空行了

 

去掉空行之后,还是和之前一样,我们得校准页面误差,不过 PdgCntEditor 这个基准页的概念稍为复杂一点,藏藏举两个例子你方便大家理解

 

但假如获取到的目录页是5,而实际PDF的页数是14,那么基准页那里就要填10

 

剩下的步骤就简单了,上面也说了,满足目录格式的情况下,我们用 PdgCntEditor 自动就能完成缩进快速排版目录书签(注意从网上扒下来的目录信息多数需要先点击切分页码)

 

当然 PdgCntEditor 也是可以手动进行目录层级结构缩进的,点击切换到树形编辑模式,操作起来就很简单轻松

 

操作方法和PDF补丁丁无异:

 

最后就是 PdgCntEditor 也是可以处理页面错位这种情况的,只需要用到下面这个功能

 

 

3

 

 

PDF文字OCR

书签有了,画面也清晰了,那我们的扫描版PDF和普通PDF最大的区别可能就只剩文字无法复制了(或者称之为双层PDF)

3.1

 

 

Acrobat

这一步我们可以用免费的 Acrobat 来实现,用 Acrobat 打开 PDF 之后找到扫描和OCR,选择识别文本 » 本文件 » 所有页面,然后耐心等待程序自动识别即可

 

同时注意,OCR识别完成之后,一定要点击另存为,否则你费老半天时间识别好的PDF可能就丢了

 

 

3.2

 

 

批量转双层PDF

另外微信公众号@托马了个羊原创了一款批量PDF识别OCR工具,调用百度飞桨的离线OCR引擎,对中文的识别率算是相当不错

整个软件使用也简单到不行,选择待批量处理的文件夹,然后点击开始再耐心等待即可

 

 

3.3

 

 

简可信

除了 Acrobat,北京盖亚软件有限公司非常良心的开发了一款完全免费的PDF批量OCR识别软件,简可信:http://www.gaya-soft.cn/

使用 Tesseract5 API, 速度快,质量高,支持多线程处理!缺点就是对比下来识别效果不如上述两款软件

 

另外除了上述工具,ABBYY 、PDFelement 也是不错的 PDF OCR 工具,耐心点你应该能在网上找到免费版,藏藏这里迫于一些原因就不提供了

 

至此,你终于做出了一份文字清晰、带书签目录、文字可复制、文件本身占用小的优化后PDF啦~

打赏
未经允许不得转载:哎呦不错往前方资源网 » 建议收藏!PDF阅读最优化,这些民间的大神自制软件,神了!
分享到

你想要的这里都有

每天看一看总有新东西

每日福利TOP100永久地址/地址发布页

谢谢你的好意,我心领了。

支付宝扫一扫

微信扫一扫