国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

楼主: 汉文学士

[工具] PDF 补丁丁0.5.0.2520(测试版)解除PDF文档的烦恼

  [复制链接]
  • TA的每日心情
    奋斗
    2019-4-17 09:08
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2011-2-8 01:12 | 显示全部楼层
    本帖最后由 angst 于 2011-2-8 03:34 编辑
    回楼上网友:

    ABBYY Reader 吃内存太多了,我最好的计算机也只有 2G 内存,识别一个 300 页的 PDF 都非常 ...
    comme 发表于 2011-2-7 21:56


    回comme大侠,finereader识别速度的确比较慢,但牺牲速度换来的就是极高的识别率(我指的是西文字符,尤其是源文件清晰度不高的情况下,都是亲自实践得出的结果)和排版的精确还原,以及可以手动编辑识别错误的字符。而在输出上,可以选择图文双层的pdf,如同acrobat,但是acrobat识别的时候,只能选择单语种,而finereader可以自由选择,比如同时涵括英语、德语。而且最重要的是acrobat无法编辑、校正识别出来的文本。除此之外,finereader还可以输出为保留原排版的纯文字pdf或者word文件。简言之,就我亲自实践的感受,作为一款完整的ocr解决方案,在西文识别上(我没有用它ocr过中文,在某个版本之前是不支持中文识别的)finereader比其他任何ocr软件要强太多。


    我会把那天操作的双层pdf发给大侠,以助大侠完善软件。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-12-6 21:28
  • 签到天数: 978 天

    [LV.10]以坛为家III

    发表于 2011-2-8 08:31 | 显示全部楼层
    foxit也有OCR了,好像是abbyy的模块,可惜没繁简中文
    Foxit OCR Add-on module is designed to work with Foxit Phantom to make scanned or image-based PDFs selectable and searchable, and supports multi-language including English, French, Italian, German and Spanish.It can be downloaded from http://www.foxitsoftware.com/downloads/index.php and installed from "Help-> Install Updates" too.
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-8 08:49 | 显示全部楼层
    本帖最后由 comme 于 2011-2-8 08:56 编辑
    回comme大侠,finereader识别速度的确比较慢,但牺牲速度换来的就是极高的识别率(我指的是西文字符,尤 ...

    angst 发表于 2011-2-8 01:12


    感谢你发来测试文件,已经收到了。我开始的时候就是用 FineReader 测试中文识别。它是使用系统中可用字体的信息来分析图片 PDF 中对应的文字,所以是慢很多,也吃很多内存。识别效果是不错的,但就是保存不下来。


    书签错误的原因是 PDF 补丁丁识别文本位置的算法还不够聪明,所以你看到,虽然它识别出标题所在的位置,但书签文本的字符是前后错乱的。我想在下版加入一些简单的模糊算法来提高其重组文本的能力。无论是使用微软+清华的模块(MODI),还是用 ABBYY 的输出双层文件,都可以从优化的算法中获益。

    Adobe Acrobat 的识别结果就更讨厌,识别出来的字体还有一个很小的倾斜度(原汁原味也不至于这样呀),要去除倾斜度之后才得到字体的尺寸。而且其识别结果又无法编辑,识别率也不太理想,就干脆不支持了。

    我发现用 JBIG2 编码的黑白图片 PDF 文件越来越多。如果不能解码用这种方式编码的图片,就无法用微软+清华的模块识别。所以下一版还要增加JBIG2解码功能才行。从网上找来的开源解码模块只有C++实现。鄙人已经告别C++近十年,想不到现在又要重操旧业。呵呵。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-4-17 09:08
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2011-2-8 21:50 | 显示全部楼层
    感谢你发来测试文件,已经收到了。我开始的时候就是用 FineReader 测试中文识别。它是使用系统中可用字体 ...
    comme 发表于 2011-2-8 08:49


    谢谢大侠的回复和测试。
    大侠所用finereader,可以识别,但无法保存的问题,可能是软件破解有问题,不过现在网上能找到的9和10,都有非常好的破解版本,甚至连绿色版都有。反正我用fi
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-8 22:20 | 显示全部楼层
    本帖最后由 comme 于 2011-2-8 22:26 编辑

    大概不是破解的问题。我好像还没用破解补丁。尚在其试用期之中。
    又 PDF 补丁丁将要出来的新版好像已经支持 JBIG2 的解码,也就是可以导出 PDF 文档内所有格式的图片了。

    欢迎各位提供有 JBIG2 编码图片的 PDF 测试样本!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-4-17 09:08
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2011-2-11 02:42 | 显示全部楼层
    大概不是破解的问题。我好像还没用破解补丁。尚在其试用期之中。
    又 PDF 补丁丁将要出来的新版好像已经支持 ...
    comme 发表于 2011-2-8 22:20


    试用版,对ocr的页数和导出pdf的页数有限制,大侠不妨试试破解版。
    反正自己试用了这么久,还没遇到过导出pdf页面遇到问题,然后关闭的情况。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2019-9-19 00:19
  • 签到天数: 69 天

    [LV.6]常住居民II

    发表于 2011-2-11 07:27 | 显示全部楼层
    等米下鍋。春節已過,不知何時可以發佈?
    可以讓更多的書友測試,在測試中完善。。。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-11 09:08 | 显示全部楼层
    本帖最后由 comme 于 2011-2-11 09:09 编辑

    我正在优化光学字符识别的后处理函数。如果不提高后处理的智能处理能力,光学字符识别所得的文本就会比较混乱,功效有限。之前已经有版友反馈过了。此外还有一些在内部测试中发现的明显问题需要解决。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2017-2-1 20:38
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-2-11 09:36 | 显示全部楼层
    开发时间长点没关系,反正都这么多年了,许多文件都是自己动手做的书签,相信这次更新是 PDF 补丁丁的一次飞跃。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-11 11:38 | 显示全部楼层
    期待中,jbig2的支持十分有用。
    谢谢comme兄长期以来的付出。虽然是一款免费的小软件,免费供大家使用已是无私。
    但是comme兄还是有问必答,十分热心。再次感谢。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-12-9 11:03
  • 签到天数: 514 天

    [LV.9]以坛为家II

    发表于 2011-2-11 12:02 | 显示全部楼层
    大侠辛苦啊!
    不过下了个“PDF 补丁丁 0.3.0.8 正式版”,不运行啊,咋回事啊?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-12-10 08:19
  • 签到天数: 1196 天

    [LV.10]以坛为家III

    发表于 2011-2-11 13:16 | 显示全部楼层
    回复 45# sdnulmx


        需要安装微软的.NET Framework支持,离开它不能运行。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-12-9 11:03
  • 签到天数: 514 天

    [LV.9]以坛为家II

    发表于 2011-2-11 14:44 | 显示全部楼层
    回复 46# yalama
    收到!感谢指导!这就下载试验下
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-5-19 10:15
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2011-2-11 20:08 | 显示全部楼层
    本帖最后由 hebeisheng 于 2011-2-11 20:11 编辑

    盼望OCR时能加上图像处理功能。曾经看到一个朋友所给的软件截图,据说,不太清晰地书籍图像处理后能够很好的OCR。楼主可以参考一下。研制成功绝对是大家的福音。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-11 22:01 | 显示全部楼层
    本帖最后由 comme 于 2011-2-11 22:05 编辑

    由于程序是调用微软(清华)的引擎,在执行光学字符识别之前,都转换成黑白图片。
    做伽马校正是可以略微去掉一些噪点,但意义不大。
    先将后处理算法做完,然后还有若干开发计划。

    况且目前大部分书籍都是黑白的,不能用调节亮度、曲线和伽马值等图像处理功能。

    我现在想出一个极快速手工制作书签的办法。等这次新版本发布后就会着手去做。
    到这些开发计划完成后,有时间才会考虑加入图像处理功能。毕竟要完善的功能实在很多。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-12 08:44 | 显示全部楼层
    盼望OCR时能加上图像处理功能。曾经看到一个朋友所给的软件截图,据说,不太清晰地书籍图像处理后能够很好 ...
    hebeisheng 发表于 2011-2-11 20:08



        你引用的截图是高版本UV OCR界面的一部分
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-12 08:45 | 显示全部楼层
    本帖最后由 strnghrs 于 2011-2-12 09:07 编辑
    由于程序是调用微软(清华)的引擎,在执行光学字符识别之前,都转换成黑白图片。
    做伽马校正是可以略微去 ...
    comme 发表于 2011-2-11 22:01



    理工类的PDG很多是灰度JPG的,如果不处理就二值化,就会白花花一片
    有些黑白页面文字笔画太细,加粗后识别会更好

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-12 09:24 | 显示全部楼层
    本帖最后由 comme 于 2011-2-12 09:31 编辑

    回复 51# strnghrs


    马兄,说得有理。但我之前试过转换理科文献,问题往往不是灰度转换,而是理工文献往往有很多数学公式和符号,对这些符号,Office 里面清华引擎的识别结果真是惨不忍睹。理科生们恐怕还是得自己来了。
    增加灰度图片的支持也许有用。不过这个还是得延后一点再支持了,首先,程序目前还没有显示文档的界面,使用者不容易确定合适的参数值;另外,在下时间有限,还是得将精力放到解决主要问题上去。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-12-10 17:48
  • 签到天数: 693 天

    [LV.9]以坛为家II

    发表于 2011-2-12 09:31 | 显示全部楼层
    辛苦了,你的耕耘是我们的幸福啊。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-12-10 08:19
  • 签到天数: 1196 天

    [LV.10]以坛为家III

    发表于 2011-2-12 10:47 | 显示全部楼层
    本帖最后由 yalama 于 2011-2-12 10:49 编辑

    回复 52# comme


        理工科的很多数学公式实际上是图像,无法以txt纯文本表示,只能在Office文档里维持原样。OCR可以忽略这一点。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-12 13:37 | 显示全部楼层
    回复  comme


        理工科的很多数学公式实际上是图像,无法以txt纯文本表示,只能在Office文档里维持原样 ...
    yalama 发表于 2011-2-12 10:47



    无文件,无真相;有文件,有真相。

    各位不妨试试看在不进行图像处理的情况下OCR附件中的两页。
    这两页出自:
    [General Information]
    书名=互联网时代的软件革命:SAAS架构设计
    作者=叶伟等著
    页数=335
    SS号=12143010
    出版日期=2009.1
    出版社= 电子工业出版社
    ISBN号= 978-7-121-07736-4 / TP3

    某几年的清晰版PDG,基本上都是这种白花花一片的东西,所以在园地图像处理技术才会这么火。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-12-10 08:19
  • 签到天数: 1196 天

    [LV.10]以坛为家III

    发表于 2011-2-12 14:07 | 显示全部楼层
    55楼老马大侠提供的这类书页,都是必须先用CEP处理才能阅读的,可是很多书友直接转成了PDF。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-12 14:19 | 显示全部楼层
    本帖最后由 comme 于 2011-2-12 14:37 编辑

    我用合并模式生成一个包含这两个JPG文件的PDF文件(见附件),然后直接在测试版上做光学字符处理,得到的结果如下。虽然人眼读这种图片文档非常不爽,但FreeImage门槛转换后得到的TIFF似乎得到颇为不错,让清华的引擎读起来似乎并无太大问题。目录的点号对其而言一直都是个麻烦,但中文和数字的识别结果还算可以。这识别率比起那些充满公式和符号的页面而言,实在是高得多。

    1. CONTENTS
    2. S、、S架构设计
    3. 第1篇  SaaS商业模式
    4. 第  1 章    SaaS 的前世今生·········,··············,·······,··················,……2
    5. 1. 1      什 么 是 SaaS.····································································……3
    6. 1. 1.1      SaaS  的产生··········,··············································...……3
    7. l.l·2    SaaS 基本概念···································,····,···········....……6
    8. 1.1.3    SaaS 与 ASP 的异同···············································……8
    9. 1.2    SaaS 软件的优势············,··········,·············,··················……,.…9
    10. 1.2.1     给用户 的优势·······················································……10
    11. 1..22    给软件商的优势···················································……14
    12. 1.3    SaaS 的缺.点及解决 办法···············································……16
    13. 1 .3. 1      依赖互联网 ·······,···················································……16
    14. 1.3.2     数据安全性···························································……17
    15. 1.3.3     数据保密性·······,···················································……19
    16. 1.4     SaaS 成功案例······························································.……20
    17. 1.4.1     Salesforce.com··································,····················……20
    18. 1..42    Google.com····························································……22
    19. 1..43     Ahsoft.com·····························································一 24
    20. 1..44    其他 SaaS 案例·····················································……26
    21. 1 .5       小 结················································································……29
    22. 第2篇  SaaS应用架构
    23. 第 2 章   SaaS 成熟度模型····,···························,·················……犯
    24. 2.1     saas 的规模效应·,··············································一,····……33
    25. 目   录
    26. ., ...' .,., - --一,., - ---一.. ,,, ,,.----叫,, ---..目-..户.,喊----..甲., -- ---月.心--.,. -..' ..甲.. ---...。心.. -----...卜,., ,., ---... ,,,州,, ,.. -... ... ...闷月,月,. ---
    27. CONTENTS
    28. 互联网时代的软件革命
    29. 2.2    SaaS 成熟度模型分级···················································……36
    30. .22.1    Levell:  定制开发···········,···································……36
    31. 2..22    Leve12:  可配置········································,··········……37
    32. 2.2.3   Level3: 高性能的多租户架构···························……39
    33. 2.2.4   Level4: 可伸缩性的多租户架构········,··············……41
    34. 2.3   如何选择合适的 SaaS 成熟度模型·······················,······,一43
    35. 2.3.1   产品所面向的客户群的特征与需求·········,·,·······,一43
    36. 2.3.2    产品的租户数量级别·······,···································一44
    37. .23.3  团队的开发能力与愿意付出的开发/改造成本··……45
    38. .24   SaaS 软件的成熟度模型的渐进步骤,··························……46
    39. 2.5       小 结··················,···············································,·············……47
    40. 第 3 章   构建 Multi一Tenant 应用·······················,·············一48
    41. 3.l     第一阶段: 做项 目···································,····,···,···········……49
    42. 3.1.1     发现商机··························································……,.…49
    43. 3.1.2     "4+1” 视图···························································……50
    44. 3.1 .3      设备托管························,··············,·······················……58
    45. 3.2     第 二阶段:  做产品·············,··,·······································……59
    46. 3.2. 1      设备共享·············,·················································……59
    47. 3..22     创业之旅·······························································……61
    48. 3..23     可配置化···········································,·············......……62
    49. 3.3     第 三阶段:   多 租户··········,····,·····································...……63
    50. 3.3.1     成长的烦恼·································,·························……63
    51. 3.3.2   如何转化成 SaaS 多租户模式········,····················……65
    复制代码

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-13 09:03 | 显示全部楼层
    看了这么多的回帖,我想说的是谢谢楼主的辛勤劳作,让我这等伸手党享福了!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-14 18:57 | 显示全部楼层
    自动生成书签这块的确难搞。
    我想还是先发布一个没有光学字符识别的版本,让大家先试用新增的书签编辑器和新增的JBIG2解码支持罢。

    等这个版本稳定了,再发布加入字符识别的版本。
    如果没什么问题,过几天就会发布的了。

    评分

    2

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-15 02:26 | 显示全部楼层
    关注,期待“comme ”的好东西,早日成功,尽快发布
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-16 17:29 | 显示全部楼层
    测试版出来啦,顶一下。

    详情请见一楼。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-16 18:14 | 显示全部楼层
    0.3.1.0 版会丢失书签的显示方式设置,请下载 0.3.1.1 版。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-18 09:05 | 显示全部楼层
    0.3.1.2 2011年2月17日
    新增功能:
            书签编辑器增加强制设置页面链接目标为内部链接(用于修复一些文件改名后链接失效的书签)。
            在书签编辑器按住 Ctrl 键拖动书签可复制书签。
    修复错误:
            书签编辑器批量移动书签后反转顺序的问题。
            补丁功能导入外部页面链接错误的问题。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-4-15 17:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2011-2-18 13:35 | 显示全部楼层
    LZ的补丁丁0.3.1.2如何编辑这种PDF书签?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    Archiver|手机版|小黑屋|国学数典 ( 2006-2019 冀ICP备19008975号-2 )

    GMT+8, 2019-12-10 18:03

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表