国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 506|回复: 28

[讨论] 其实,理想的高清PDF,是这样子处理的……可惜,暂未能找到理想的处理工具!

[复制链接]

该用户从未签到

发表于 2019-10-21 17:10 | 显示全部楼层 |阅读模式
网上经常能下载到“硕大”的PDF电子书,动辄100MB以上,号称“高清”。打开一看,其实也就200~300 DPI清晰度,个头大那是因为技术方面的原因,黑白的书稿,却被扫描成“灰阶”甚至“RGB”模式了。

附件是三个仅供对比的PDF样板文件。
所谓“理想的高清PDF”,应当如此处理:

黑白文字,转换为600 DPI的黑白二色图,置于底层;
黑白图片,转换为300 DPI的灰阶图片,裁剪成一小块,置于同一位置的上层;
最终将二者拼合为一个PDF文件。

暂时,我找不到理想的工具,可以直接打开PDF,然后在PDF上直接做这两个步骤。我能想到的方法是:

1. 用Acrobat将PDF转存为灰阶png或tif;
2. 用PS等工具将图片调深色并转换为黑白二色,另存一套黑白版本;
3. 用InDesign排版:下层置入黑白文字的tif;若有图片,则在上层同一位置,置入灰阶图片,并裁剪成光剩下小块的图片。
4. 用InDesign输出“高质量打印”的PDF。

这整个过程,至少涉及3个软件,比较繁琐。倘若老马或“PDF补丁丁”诸位大侠,能够制作出工具,直接在PDF上做这几步,则善莫大焉!








本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复

使用道具 举报

  • TA的每日心情
    奋斗
    2019-12-9 09:26
  • 签到天数: 36 天

    [LV.5]常住居民I

    发表于 2019-10-21 17:30 | 显示全部楼层
    厉害了,不过不适用于我这样的懒人
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-13 14:31
  • 签到天数: 1123 天

    [LV.10]以坛为家III

    发表于 2019-10-21 17:33 | 显示全部楼层
    如果都是文字PDF就好了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-21 18:19 | 显示全部楼层
    本帖最后由 myfav 于 2019-10-22 09:06 编辑

    在PDF的“领空”,处理高清电子书,需要的大致是这几项功能:

    1. 图片原地复制/粘贴(以得到一上一下两层一模一样的图片),此功能需要能够批量执行,这比较困难;
    2. 图片转换模式(Gray ←→ BitMap),此功能需要能够批量执行,且能够区分上、下层分别处理,这比较困难;
    3. 图片加深(调“色阶”之类简单编辑),此功能需要能够批量执行,且能够区分上、下层分别处理,这比较困难;
    4. 图片剪裁(将上层的灰阶图或彩图剪裁成一小块,以免遮住下层黑白文字)。

    就这几项功能,不知Acrobat的插件能否做到?我一向不太喜欢装插件,总感觉不太稳定。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2019-10-21 23:52 | 显示全部楼层
    理想的高清PDF,应当是能检索复制。现在硬盘贵吗?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-22 09:15 | 显示全部楼层
    本帖最后由 myfav 于 2019-10-22 09:22 编辑
    zhongl 发表于 2019-10-21 23:52
    理想的高清PDF,应当是能检索复制。现在硬盘贵吗?

    纯文字版或双层文字+图片版PDF,若非官方版本,容易有错字,且是许多错字,阅读起来,很难让人放心。还是原汁原味扫描版看着舒服,起码不必担心:
    一不小心便成了“误人子弟”的宾语。

    这里讨论的重点,并非“硬盘贵”——而是今时今日,PDF一般可以拷贝到10寸、13寸“电纸书”上,非常方便地随时随地阅读。一两百兆太过巨大的PDF,翻起页来比较吃力,可能会卡上几秒钟。而且,Gray或RGB模式的PDF,在任何阅读器上的显示效果,皆不如Bitmap二色的那么锐利、清晰、漂亮。黑白二色的PDF,文件也能处理得更小(小2、3倍!),阅读流畅度大增,生活质量仿佛也瞬间提高了2.5个百分点!

    ——我可以毫不夸张地这么说。
    呵呵呵呵。




    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-26 12:43 | 显示全部楼层
    当然,顶楼所说的几个步骤,其实大多也是采用“批处理”自动执行的,包括:

    1. 用Acrobat将PDF转存为灰阶png或tif;
    2. 用PS等工具将图片调深色并转换为黑白二色,另存一套黑白版本;
    3. 用InDesign排版:下层置入黑白文字的tif;

    唯一需手动操作的是:

    若有图片,则在上层同一位置,置入灰阶图片,并裁剪成光剩下小块的图片。

    所谓“繁琐”,主要指的还是:将PDF批量转换为TIF,图片批处理调深色完毕,又将TIF转换为PDF,再批处理置入InDesign,排版灰阶图片完毕,最终又输出一遍PDF——这反复几次的格式转换过程,比较耗费时间。若能直接在PDF层面做完这几步,就省掉了不必要的格式转换——哪怕是全自动的格式转换!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-10-28 17:33 | 显示全部楼层
    本帖最后由 terobao 于 2019-10-28 17:36 编辑

    adobe软件又大又慢,用吧中大神的小神器即可。尤其置入indesign,有几个初学者懂id批量置入图片,id概念那么复杂,等着出错吗?我赌你们页序极容易会出错,甚至会漏页。
    patcher提图;cep黑白处理;freep打包

    外国有个软件st支持图文混排,其实abbyy也可以。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-12-14 08:09
  • 签到天数: 1122 天

    [LV.10]以坛为家III

    发表于 2019-10-28 20:49 | 显示全部楼层
    本人对于大体积PDF文件,只会使用Acrobat专业版自带的功能来处理,处理后的文件大约能减少一半体积。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-29 16:11 | 显示全部楼层
    terobao 发表于 2019-10-28 17:33
    adobe软件又大又慢,用吧中大神的小神器即可。尤其置入indesign,有几个初学者懂id批量置入图片,id概念那 ...

    用Acrobat将全部调好深色的Tif,合并为一个PDF。然后,用InDesign脚本“PlaceMultipagePDF.jsx”自动批量置入即可。
    不可能缺页或乱页的。想出错都没机会啊,亲。


    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-10-29 16:28 | 显示全部楼层
    本帖最后由 terobao 于 2019-10-29 16:36 编辑
    myfav 发表于 2019-10-29 16:11
    用Acrobat将全部调好深色的Tif,合并为一个PDF。然后,用InDesign脚本“PlaceMultipagePDF.jsx”自动批量 ...

    先打包pdf再导入id,当然可以避免页序出错。不过我对id带的脚本持怀疑态度,那个多页pdf脚本,我不敢置入大文件,总觉得会崩溃,单位电脑太破了。而且只要一经过id处理,文件体积只怕会大回去。另外,好奇,上层灰度图能自动排吗?
    刚刚测试了一下,200k多的pdf,仅仅导入没任何处理,再导出变700k,大了近2倍。不知道是什么原因。




    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-30 00:10 | 显示全部楼层
    terobao 发表于 2019-10-29 16:28
    先打包pdf再导入id,当然可以避免页序出错。不过我对id带的脚本持怀疑态度,那个多页pdf脚本,我不敢置入 ...

    上、下层都可以批量自动排,将那个自动置入PDF的脚本稍稍改动一下即可。需要手工操作的是:
    将灰阶图原地裁好,没用的灰阶图则直接删除。
    至于导出PDF,文件变大,其实在导出时,我们可以调图片压缩率的,一般选默认的比较好。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-12-15 01:13
  • 签到天数: 250 天

    [LV.8]以坛为家I

    发表于 2019-10-30 00:31 | 显示全部楼层
    高大上,这些adobe  ps,iff完全用不来,网站下什么看什么。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-10-30 04:55 | 显示全部楼层
    本帖最后由 terobao 于 2019-10-30 05:18 编辑
    myfav 发表于 2019-10-30 00:10
    上、下层都可以批量自动排,将那个自动置入PDF的脚本稍稍改动一下即可。需要手工操作的是:
    将灰阶图原地 ...

    大神,好奇灰度图的上层如何实现自动排?


    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-10-30 05:46 | 显示全部楼层
    zhenglin66269 发表于 2019-10-30 00:31
    高大上,这些adobe  ps,iff完全用不来,网站下什么看什么。

    我也一样,对彩色扫描和文件大小没意见。
    不过很多大神是完美主义者。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-10-30 09:05 | 显示全部楼层
    本帖最后由 terobao 于 2019-10-30 09:35 编辑

    实地测试了一下,PDF上下层叠加倒是很容易,其实就是加水印。让补丁丁的作者升级时加上这个功能,对他来说大概也就是举手之劳。楼主既然用acrobat,那么多插件肯定有这个功能。
    问题是我发现我的pdf编辑软件居然没有裁图功能,一拉就变形了。只能快照,粘贴,删原图。繁琐了一点,最大问题是画质变化体积变化未可知。
    终于理解楼主为什么要找id了。
    对于手残党,id的锁定图层和图层半透明化,还是很有用。图形编辑,尤其裁切非常快且顺手。我当初疑虑的是id导入pdf不可编辑,实际操作发现因为图片pdf本就不可编辑,这不成问题。可以随便裁切。那脚本我是不信任的,总觉得会出问题,但其实出问题的是文本类pdf,图片不会出问题。想当然的我,和楼主这种实际操作的,差距实在大。经过ID,体积变大画质变化的问题依然要重视。楼主的附件,最终成品体积也没缩减。

    PS:如果两pdf文件都导入ID,可以分在两图层,但新pdf会新插入页面,两pdf页序不对,我没耐心,看不来代码。楼主说要改代码,好奇是该改哪里。

    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-30 23:06 | 显示全部楼层
    楼主的附件,最终成品体积也没缩减——那是因为在灰阶转黑白时,楼主将DPI由300放大成了600!换句话说,黑白源图的文件大小,其实已放大了4倍(黑白图210mm * 297mm * 300DPI = 1.04M,而210mm * 297mm * 600DPI = 4.16M)。

    这里要解释一下为什么这么做:

    倘若是照片,用PS的插值算法放大一倍,那是毫无意义的;而若是文字,打算转成黑白二色,则通过插值算法放大并调深色之后,最终转换得到的文字,将会更圆滑、更漂亮一些。对比一下灰阶和黑白的两份样张,应能看得出效果。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:08
  • 签到天数: 865 天

    [LV.10]以坛为家III

    发表于 2019-10-30 23:17 | 显示全部楼层
    在下感觉实在有些不明觉厉啊,我最近只想练把PDF浅字变深的活计
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-30 23:35 | 显示全部楼层
    本帖最后由 myfav 于 2019-11-1 08:46 编辑
    terobao 发表于 2019-10-30 04:55
    大神,好奇灰度图的上层如何实现自动排?
    在InDesign排版文件当中,开2个图层:上层取名“灰阶”,下层取名“黑白”吧,比较好辨认。
    先将上层锁定。第一遍,直接执行InDesign的“自动批量导入PDF”JavaScript脚本“PlaceMultipagePDF.jsx”,导入下层的黑白图。
    再将下层锁定,将上层解锁。第二遍,执行修改过的脚本(例如取名为“PlaceMultipageGrayPDF.jsx”之类),导入上层的灰阶图。该脚本其他不变,只需将源脚本的最后一个函数“function myPlacePDF”,修改为以下代码:

    function myPlacePDF(myDocument, myPage, myPDFFile){
            var myTotalPage = myDocument.pages.length;
            var myPDFPage;
            app.pdfPlacePreferences.pdfCrop = PDFCrop.cropPDF;
            var myCounter = 1;
            var myBreak = false;
            while(myBreak == false){
                   myPage = myDocument.pages.item(myCounter - 1);
                   app.pdfPlacePreferences.pageNumber = myCounter;
                    myPDFPage = myPage.place(File(myPDFFile), [0,0]);
                    if(myCounter == myTotalPage){
                            myBreak = true;
                    }
                    myCounter = myCounter + 1;
            }
    }

    点评

    我知道问题就出在这一段,我也改了改,先是全加到第一页,后来再改,结果更莫名其妙了。看了lz的代码,有点明白了。  发表于 2019-10-31 08:46
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-10-31 09:11 | 显示全部楼层
    myfav 发表于 2019-10-30 23:06
    楼主的附件,最终成品体积也没缩减——那是因为在灰阶转黑白时,楼主将DPI由300放大成了600!换句话说,黑 ...

    我查了一下,应该是你的grayscale图整体还在,只是加了蒙版。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-31 12:18 | 显示全部楼层
    terobao 发表于 2019-10-31 09:11
    我查了一下,应该是你的grayscale图整体还在,只是加了蒙版。

    对!这是由InDesign软件的PDF裁切算法决定的——它确实是采用类似“蒙版”的方式,来裁切置入的PDF版面。
    倘若对于最终生成的PDF文件大小特别在意,那么,就不应批量置入上层的灰阶图,而应该先用PS裁切好源灰阶TIF或JPG图,然后将这些小块的灰阶图手动逐个置入ID。如此一来,您担心的事情便发生了——

    因为是纯手工作业,可能特别容易出错了!



    这不过是鱼和熊掌之间的取舍了。
    一切仅仅取决于:
    在你心目中,是爱情重要,还是生命更可贵一些而已矣。
    呵呵呵呵。

    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-10-31 14:55 | 显示全部楼层
    myfav 发表于 2019-10-31 12:18
    对!这是由InDesign软件的PDF裁切算法决定的——它确实是采用类似“蒙版”的方式,来裁切置入的PDF版面。 ...

    经测试,id导入图片是可以裁掉冗余的,但导入pdf果然不行,更可怕的是之后还找不到可以用的补救工具,一般工具最多把整个pdf页面外的东西裁掉。
    灰度层导入的是图片就能精简。整本书手工裁切图片的话,楼主对ID这种用法算是稳妥和效率兼顾的好方法了。尤其一页多图的,没原地粘贴功能会很不顺手。
    我记得id有批量导图的脚本,楼主反正会改代码,改改应该能用上。但就像我怕的,没整个pdf导入稳妥,好在你这种做法有黑白图参考层,纠错容易。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2019-10-31 19:06 | 显示全部楼层
    本帖最后由 myfav 于 2019-11-11 17:20 编辑
    terobao 发表于 2019-10-31 14:55
    经测试,id导入图片是可以裁掉冗余的,但导入pdf果然不行,更可怕的是之后还找不到可以用的补救工具,一 ...

    这个建议非常好!确实,可以DIY出两个不同的脚本,依以下顺序来做这两件事:

    1、先批量导入上层的灰阶或彩图JPG、TIF或PNG;
    2、将上层锁定,再新增一个图层,批量导入下层的黑白PDF。

    如此,既可以真正地剪裁JPG,有效缩小最终输出的PDF文件大小;又可以准确无误地匹配页码,不会因手工置入图片而出错。这是“又红又专”的解决之道!

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-12-10 09:14
  • 签到天数: 14 天

    [LV.3]偶尔看看II

    发表于 2019-11-2 20:50 | 显示全部楼层
    生成PDF文件,真是个力气活。如果没有好的扫描仪、可以试试用全能扫描王这个手机应用。据说效果还不错,当然直接从word文档转是最爽快的
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-12-14 14:42
  • 签到天数: 25 天

    [LV.4]偶尔看看III

    发表于 2019-11-17 13:53 | 显示全部楼层
    电子书想看的踏实还是要扫描原书。word转档的PDF,文字来源被改动或者错漏之处很难避免。
    手持设备存储空间有限(不像台式电脑硬盘相对较大),高MB低DPI,确实是有点浪费资源了。
    手机,IPAD,Surface等,256比128的要贵处好多。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2017-10-10 08:14
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2019-11-18 23:52 | 显示全部楼层
    为什么不用老马的神器呢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-12-10 12:08
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2019-11-19 23:58 | 显示全部楼层
    这也太技术流了 厉害厉害
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-12-14 00:40
  • 签到天数: 569 天

    [LV.9]以坛为家II

    发表于 2019-11-23 09:16 | 显示全部楼层
    牛仔裤子 发表于 2019-11-18 23:52
    为什么不用老马的神器呢

    cep也解决不了图文混排的问题吧。
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    Archiver|手机版|小黑屋|国学数典 ( 2006-2019 冀ICP备19008975号-2 )

    GMT+8, 2019-12-15 02:27

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表