有粉丝留言说他百度搜索PDF优化/编辑,结果只找到一大堆在线网页,主要还都是按月/文件收费…
就问我有没有免费的方案?
PDF优化这个问题,主要需求无非就是将模糊的PDF清晰化,即解决一些扫描版PDF字体发灰、发虚的问题
▲类似这种PDF
当然给扫描版PDF添加书签、进行OCR使得文字可复制、压缩PDF文件大小这些也属于PDF优化的范畴,既然都写到这儿了,藏藏这篇文章也就一并介绍一下吧
文中涉及到的所有软件下载地址,请统一看文末!!!
1
改善PDF清晰度
首先我们说提高PDF清晰度,针对的都是扫描版PDF哈(非扫描版PDF都是矢量的也没这些问题)
而扫描版PDF每一页就是,所以我们的问题其实是如何提高的清晰度
1.1
PDF转
那我们第一步需要做的就是PDF转,然后尽管是扫描版PDF,也要分几种情况:
文件本身分辨率不太够
文件本身分辨率足够,且每一页都是完整的
文件本身分辨率足够,但每一页可能不是完整,即页面中包含小插图
文件本身分辨率不太够
比如像下面这种PDF,本身分辨率就不太高,放大了看,字体边缘明显都是模糊的
这种情况用第三方软件处理通常无法导出原图,甚至可能进一步损失画质
所以藏藏建议是使用 Acrobat 打开PDF,然后点击文件 » 导出到 » 图像 » PNG(无损格式)
然后设置导出文件夹时,进一步点击设置,将转换这里的分辨率设置为236.22像素/厘米(再大其实就没必要了,这样分辨率已经相当之大了)
文件本身分辨率足够
这种其实算是最常见的情况,就是PDF单纯是有点字体发灰,本身清晰度是足够的
这里你自然也可以用 Acrobat 进行PDF转,但 Acrobat 有个缺点就是转的速度相当之慢,如果你的 PDF 页数很多,你可以藏藏之前就介绍过的免费工具 PDF补丁丁 进行转换,速度快得多
文件本身分辨率足够,页面中包含小图
最后有一种比较少见的情况——就是PDF每一页不是完整,可能是含小插图
这种情况如果你使用PDF补丁丁提取,就会发现它会提取出了出各页插入的小
所以这种情况也建议用 Acrobat DC 将整页处理成,同样建议使用「236.22 像素/厘米」的分辨率进行导出
1.2
清晰化
无损放大
对于上面提到的第一种情况,就是文件本身分辨率不够高的,我们可能需要用专门的软件提高一下清晰度,这个藏藏之前也有专门写过:
不过上文介绍的多款软件中,有且仅有 Topaz Gigapixel AI 适合处理扫描文字这种(其他适合处理动漫、真人类,对扫描文字没啥效果)
在用 Topaz Gigapixel AI 清晰化过程中,需要注意右边 Resize Mode 最好改为自定义倍数 1 倍,AI Model 这里选择 Very Compressed,你可以同时添加多个进行批量处理
不过除了 Topaz Gigapixel AI,在最近推出的 AI 放大清晰化软件中,还有一款名为 upscayl 的开源软件也有适合处理扫描文字的模型
这款软件的汉化版下载地址,藏藏已经更新到之前清晰化放大那期文章的软件下载页面了(👈可直接点开蓝色链接看置顶留言)
软件使用没啥好说的,记住模型选择数字艺术即可,本身是支持批量添加文件夹处理,唯一需要注意的就是最好先去设置中将放大比例改为1x,同时把压缩开到100%(不这样操作的话出图会非常慢+生成文件巨大)
对比一下处理前后效果,还是相当不错的,字体边缘模糊显然少了很多
▲左:处理前/右:处理后
灰度调整
好在扫描件分辨率不够的情况是少数,毕竟用上面的清晰化软件处理,电脑配置要是不行是非常费时间的!
多数情况下,其实我们只需要给扫描件的调个色就足够了,这里有一款经无数网友、PDF爱好者实测推荐的神器——ComicEnhancer Pro
虽然实际上这款软件开发的初衷是增强漫画阅读体验(从软件名也看得出),但由于它处理画面的功能十分强大,结果完全符合我们PDF优化的需求
由于每本书的情况不一样,具体参数并不固定,藏藏这里仅大概说明一下使用方法,大家可以根据情况自行改动参数调整到自己满意哈,首先打开软件点击文件 » 扫描书籍处理
打开页面之后,在左上角可以添加文件夹,左下方点击图像即可调整画面效果
其实多数情况下,我们只需要简单的把Gamma值拉大(不一定拉满,不同的文件按实际情况调节),再将曲线中改为原画面背景杂乱(曲线这里也可以手动拉滑块调整),你就能明显看到画面清晰了不少
视情况而定可以适当调节一些其他选项,例如亮度、对比度,不过更多可能是进一步调整一下锐化、柔化,还有就是可以尝试调节选项里面的多尺度细节增强(这个变化不明显,但有用)
最后就是建议保存格式选无损,JPG质量也拉到100,然后记住要点击应用 » 应用到所有图像,最后点击保存按钮旁边的灰色按钮,即可进行批量处理与保存
额外补充一点,如果你想要最后生成的PDF文件占用小一点,可以点击色彩,将色彩数改为纯黑白(600KB 的 JPG如果是纯文本,用这个方式处理就成了60KB)
这里选择的算法并不固定,可以自己凭感觉来,不过可以尝试阈值算法选择Wolf,然后窗口尺寸尽量大一点可以选500,最后去除毛刺一般都要勾上
1.3
合并为PDF
都处理完之后,剩下的就简单了——我们再将合并为PDF即可
这里我们依然可以用PDF补丁丁来合并成PDF,如果你之前提取的大小并不统一,我们可以设置合并PDF的选项,一般选A4或者A5
2
添加PDF书签
2.1
原PDF有书签
虽说是添加书签哈,但其实如今不少扫描版PDF也是自带目录的,这里我们依然可以用PDF补丁丁导出原PDF的书签目录
然后在合并处理后的时,添加上从原PDF导出的书签文件即可~
只有这个软件能够合并分割完毕后还能保留原有的书签目录,其他软件都会丢失!
2.2
原PDF无书签
不过就算原PDF没有书签,也不必担心,我们大概率是可以在京东、当当、百度百科、豆瓣读书等网站轻松找到电子书目录的
PDF补丁丁
然后添加书签这里我们甚至依然可以用PDF补丁丁来进行(没错这款软件就是这么全能)
首先,我们用PDF补丁丁打开文件之后,别的不好说,先点击❌删掉默认的书签
接着去网上复制完整的书签目录过来,点击粘贴按钮(Ctrl+P)到软件当中
注意:部分网站复制来的目录信息可能会有错,比如百度百科因为加了注释上标,在PDF补丁丁内可能会识别成空页码,这个需要自己手动处理一下
然后因为书籍都有封面、前言、序这些,网上的目录肯定是不能直接对上的,我们需要手动调整页码误差
比如藏藏这本书,网上复制来的目录第1页,实际对应的是PDF文件第28页了,那我们就需要在PDF补丁丁里 Ctlr+A 全选所有目录,右键选择更改目标页码,增减指定数值,填27
注意:网上的目录信息并不一定完全正确,比如藏藏上面演示的这个PDF,在1.2.1节之后,对应的页码就少了1页,需要你自己再手动调整一下后面部分对应的页码
这样处理之后我们的目录就和实际页面一一对应上了,不过到这里还没完,现在的目录没有层级结构,不是非常直观
我们可以像下面这样一点点手动给目录添加层级结构,这一步就需要自己多费点时间了,全部添加完之后,记得点击左上角的保存按钮保存为新PDF
PdgCntEditor
不过如果你能找到的PDF目录信息是下面这种格式,其实是可以靠另外一款名为 PdgCntEditor 的软件来直接自动生成层级结构的
打开 PdgCntEditor 后,我们直接将PDF文件拖入即可打开,然后还是一样的,删掉默认的目录信息,粘贴网上你找来的目录信息
不过相比PDF补丁丁, PdgCntEditor 存在个问题就是从网上复制来的目录信息通常会出现空行,遇到这种情况我们需要用 PdgCntEditor 的正则表达式功能去除换行
打开正则表达式功能,填入这串字符^\s*$,然后点击替换即可去掉所有的空行了
去掉空行之后,还是和之前一样,我们得校准页面误差,不过 PdgCntEditor 这个基准页的概念稍为复杂一点,藏藏举两个例子你方便大家理解
但假如获取到的目录页是5,而实际PDF的页数是14,那么基准页那里就要填10
剩下的步骤就简单了,上面也说了,满足目录格式的情况下,我们用 PdgCntEditor 自动就能完成缩进快速排版目录书签(注意从网上扒下来的目录信息多数需要先点击切分页码)
当然 PdgCntEditor 也是可以手动进行目录层级结构缩进的,点击切换到树形编辑模式,操作起来就很简单轻松
操作方法和PDF补丁丁无异:
最后就是 PdgCntEditor 也是可以处理页面错位这种情况的,只需要用到下面这个功能
3
PDF文字OCR
书签有了,画面也清晰了,那我们的扫描版PDF和普通PDF最大的区别可能就只剩文字无法复制了(或者称之为双层PDF)
3.1
Acrobat
这一步我们可以用免费的 Acrobat 来实现,用 Acrobat 打开 PDF 之后找到扫描和OCR,选择识别文本 » 本文件 » 所有页面,然后耐心等待程序自动识别即可
同时注意,OCR识别完成之后,一定要点击另存为,否则你费老半天时间识别好的PDF可能就丢了
3.2
批量转双层PDF
另外微信公众号@托马了个羊原创了一款批量PDF识别OCR工具,调用百度飞桨的离线OCR引擎,对中文的识别率算是相当不错
整个软件使用也简单到不行,选择待批量处理的文件夹,然后点击开始再耐心等待即可
3.3
简可信
除了 Acrobat,北京盖亚软件有限公司非常良心的开发了一款完全免费的PDF批量OCR识别软件,简可信:http://www.gaya-soft.cn/
使用 Tesseract5 API, 速度快,质量高,支持多线程处理!缺点就是对比下来识别效果不如上述两款软件
另外除了上述工具,ABBYY 、PDFelement 也是不错的 PDF OCR 工具,耐心点你应该能在网上找到免费版,藏藏这里迫于一些原因就不提供了
至此,你终于做出了一份文字清晰、带书签目录、文字可复制、文件本身占用小的优化后PDF啦~