国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 325|回复: 11

[推荐] 从几个常见需求看扫描电子书处理软件选择

[复制链接]

该用户从未签到

发表于 2020-1-4 12:45 | 显示全部楼层 |阅读模式
本帖最后由 strnghrs 于 2020-1-4 15:04 编辑

作者:马健
邮箱:stronghorse_mj@hotmail.com
发布:2020.01.04

这几天在gxsd和eshuyuan都碰到一些人谈到扫描电子书处理,很多人的习惯是使用通用图像处理软件,包括Photoshop、光影魔术手、美图秀秀等来处理扫描版电子书。但在我看来,扫描电子书与日常风景照、人物照完全是两件事情,通用图像处理软件尽管功能强大,但在处理扫描电子书时却会面临强大的功能无处使,想要的功能又没有的窘境,没法与专门为处理扫描电子书而开发的软件相比。当然如果用处理扫描电子书的软件去处理日常照片,多半也属于脑子进水。

口说无凭,就用几个处理扫描电子书时经常碰到的问题,检验一下软件的成色吧:

1、自动纠斜功能
扫描图像歪斜是很常见的吧?这个功能很重要是吧?PS等有手动纠斜,自动纠斜有吗?ScanTailor(ST)、ComocEnhancer Pro(CEP)都有。

2、版心自动居中
在不把书籍切开进行扫描的情况下,扫出来的版心内容偏左、偏右都是必然的事情,但在通用图像编辑软件里,版心居中需要多步操作:先切边,再扩边。切边时碰到中缝阴影、黑边、麻点等等的干扰,自动切边就麻爪了,只能靠人。可这对于专门处理扫描电子书的软件而言,属于基本必备技能好吧?

3、自动修正光照不均匀的图像
对于平板扫描仪,这个问题一般不严重,只有在厚书的中缝部分会有一些,碰上了就会恶心一阵。可对于用手机或相机拍的书,光照均匀、不需要修正的我只在几十万一台的V字型扫描仪上见过,自己拍的一张都没有,因为日常拍照环境基本上不可能有这么均匀、强烈的布光。如果不对不均匀光照进行修正,直接把拍摄的图像转二值化图像基本上就是个梦,还是噩梦。PS可以手工修正光照不均匀,自动修正我活久也不见,但对ST、CEP这是个事吗?ST是全自动,CEP鼠标选一下参数而已。

4、局部自适应二值化
在《The Scan and Share tutorial》中,一再强调书籍应该用300 DPI扫描,然后用软件处理成600 DPI。不过这篇文章毕竟是几年前的了,考虑近期和未来显示器分辨率的发展趋势,我现在处理纯文字页面基本上都是800 DPI打底,高的甚至到1200 DPI。从300 DPI放大到800 DPI以上,不可避免的会出现模糊,这个时候再用Otsu等全局二值化算法,在对笔画的粗细等控制上就会显得无能为力。通用图像处理软件只有全局二值化,没有局部自适应二值化。这方面CEP基本上独此一家。高倍放大处理的例子见这里:
https://www.cnblogs.com/stronghorse/p/9425046.html
另外从实际处理的情况看,300 DPI灰度图如果不放大直接转成纯黑白二值化图像,笔画粘连等处理起来效果没有放大后的好,所以即使考虑在手持设备上看书时可怜的运算能力而不能放太大,但放大到600 DPI应该是底线。

5、高倍数放大后的高阶锐化
在高倍放大以后,高斯模糊+局部自适应二值化可以控制笔画粗细和平滑度,但对笔画粘连无能为力,只能靠高阶锐化硬磕。PS的锐化实在是太温柔了,与CEP的高斯锐化没法比。

6、自动去毛刺、自动去麻点
对于二值化图像,二值化之前用高斯模糊可以适当平滑笔画、去除孤立点,但二值化过程在笔画上造成的毛刺和一些颜色较深造成的麻点是去不掉的。如果用通用PS处理,麻点只能用鼠标逐点去除,笔画上的毛刺只能放大后逐像素去除,有哪个人有这个耐心?可自动去毛刺、自动去麻点对CEP、ST而言全是标配,只不过ST是全自动,没法进行细部控制,CEP可以根据需要手动配置参数。去毛刺的例子可以看这里:
https://www.cnblogs.com/stronghorse/p/7224976.html

7、自动去短线、波浪线
古文里面这些东东比较多,在人名、地名下面(横排)或左面(竖排)都有,现代文少一点,但页眉、页脚和正文中有时候也会有,这些肉眼看没事,但会对OCR造成干扰,所以如果想OCR,还是要先去除才行。用PS就手工滑鼠标、按Del键吧,CEP里对于二值化图像可以按照参数配置自动去除。

8、双页自动切分
平板扫描的时候为了提高效率,双页连扫是常规操作,但看书的时候还是希望逐页看,所以分页对扫描书籍处理而言也属于常规操作。在中缝位置不固定的情况下,PS分页只能靠手,ST可以靠算法自动切。

9、曲面展平
在图书馆里拿着手机拍过平摊在桌面上的书页的人都对这个功能很渴望,但PS只提供梯形矫正,没有页面弯曲矫正,ST有。

评分

3

查看全部评分

回复

使用道具 举报

该用户从未签到

 楼主| 发表于 2020-1-4 15:22 | 显示全部楼层
myfav 发表于 2020-1-4 13:12
老马这篇文章确实振聋发聩!想不到现在针对扫描电子书,竟有如此“高精尖”的利器,可想而知,当下的书痴朋 ...

ST功能强大,但令人崩溃的是ST的版本管理。你这个视频里的0.9.11.1并非是最新版,后面还有0.9.12.1,然后一堆人又先后在ST源代码的基础上搞了Scan Tailor Plus、scantailor-enhanced、scantailor-featured、Scan Tailor Advanced等等,参见这里(可能需要谷歌翻译):
http://forum.ru-board.com/topic.cgi?forum=5&topic=32945

ST原作者一气之下另起炉灶,搞了一个scantailor-experimental:
https://forum.diybookscanner.org/viewtopic.php?f=21&t=3195

这种乱象毫无疑问对ST的普及其到了反作用,这可能也是它比较小众的原因吧。

回复 支持 1 反对 0

使用道具 举报

  • TA的每日心情
    开心
    2020-1-15 22:53
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2020-1-4 13:12 | 显示全部楼层
    老马这篇文章确实振聋发聩!想不到现在针对扫描电子书,竟有如此“高精尖”的利器,可想而知,当下的书痴朋友们,生活在多么幸福的大花园中哟!

    看了一下ST的演示视频,令人震惊,尤其当中的“曲面展平”效果,印象极为深刻!




    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-2-21 13:23
  • 签到天数: 101 天

    [LV.6]常住居民II

    发表于 2020-1-4 17:34 | 显示全部楼层
    ComocEnhancer 确实很好用,目前处理优化扫描版PDF最好用的软件,没有之一!感谢老马先生的辛苦付出和无私贡献!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-2-27 08:22
  • 签到天数: 1194 天

    [LV.10]以坛为家III

    发表于 2020-1-4 20:31 | 显示全部楼层
    获益非浅,谢谢!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2020-2-27 14:53
  • 签到天数: 634 天

    [LV.9]以坛为家II

    发表于 2020-1-8 09:20 | 显示全部楼层
    求问高人们,我这些图该怎么设置参数才能处理成比较能看的黑白图呢?我搞了好久,效果都不行。
    因为家谱还有蓝印或红线,能设置成黑白+红蓝吗?

    另外书都泛黄了,在彩图模式把底色黄变白该怎么做?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-2-27 20:36
  • 签到天数: 677 天

    [LV.9]以坛为家II

    发表于 2020-1-8 11:38 | 显示全部楼层
    看到马大侠的主题帖,我就进来膜拜和感谢了。
    自从用了CEP,大图一个华丽丽的变身,比清晰PDG还给力。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-1-15 22:53
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2020-1-13 16:03 | 显示全部楼层
    本帖最后由 myfav 于 2020-1-13 16:45 编辑

    今天拿本区一位热心网友将书签说得挺复杂的一个PDF:
    周易全解 金景芳,吕绍纲著 长春:吉林大学出版社 2013_13532679.pdf
    试了一下ScanTailor 0.9.11.1。

    这是一个“傻瓜式”的自动批处理软件,可供调整的参数不多,试了几转,差点被它搞成了“傻瓜”,哈哈。
    “4.选择内容”:页面大小我始终试不好,选【自动】模式吧,页面总是会被自动调大到A3幅面,只好放弃版芯的自动调整,按原大尺寸输出。
    总体而言,效果很好!




    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-1-15 22:53
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2020-1-13 19:24 | 显示全部楼层
    之前集中火力讨论的,大抵是一些黑白二色的图书,倘若遇到彩色印刷的图书,又该如何处理呢?
    咱们不妨以此书为例,探讨一下:
    “认识电影 全彩插图 第12版.pdf”
    https://pan.baidu.com/s/1bwz6gnTrES42KPueD94Jrg
    说老实话,这种彩色电子书,难度狠高哇!

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-1-15 22:53
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2020-1-13 22:36 | 显示全部楼层
    随意拿ST调的黑白二色,问题是,版面总会自动放大,我也搞不清楚究竟什么原因?这一点比较致命,会导致上下两层文字叠印时,无法精确地盖住下边一层。

    我随手选取页码P.19,做了一页样张,看看如此处理,文字会不会更好一些?





    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-2-27 06:51
  • 签到天数: 1107 天

    [LV.10]以坛为家III

    发表于 2020-2-26 08:24 | 显示全部楼层

    马老师的ComicEnhancerPro工具批量处理图片真是好方便哦  但是处理jpg图片是不想文件变大好多的话,得按默认设置的70%的质量来保存, 当然说是70%, 也只是精细度略逊, 不仔细看的话70%和100%也基本分辨不出来,只是心理上有点别扭, 就如评价一下子从完美质量下降为一般质量了,其实视觉上这70%质量可以称得上是处于中间层级的优秀评价的, 所以我一直默念, 不是70%, 应该算 85%  85%   ...


    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-2-27 06:51
  • 签到天数: 1107 天

    [LV.10]以坛为家III

    发表于 2020-2-26 08:33 | 显示全部楼层

    jpg图片格式实在是太复杂了,没有找到讲解完整的实用代码例子, 只学会了 bmp 图片的格式用于保存截屏图,


    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    Archiver|手机版|小黑屋|国学数典 ( 2006-2019 冀ICP备19008975号-2 )

    GMT+8, 2020-2-27 23:34

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表