国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

楼主: 汉文学士

[工具] PDF 补丁丁0.5.0.2520(测试版)解除PDF文档的烦恼

  [复制链接]

该用户从未签到

 楼主| 发表于 2011-2-18 14:06 | 显示全部楼层
楼上的文件里只有图片没有书签呀。
回复 支持 反对

使用道具 举报

  • TA的每日心情
    擦汗
    2019-4-15 17:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2011-2-18 18:03 | 显示全部楼层
    楼上的文件里只有图片没有书签呀。
    comme 发表于 2011-2-18 14:06



        谢谢LZ回复!
    希望的是补丁丁0.3.1.2从这个PDF中提取并编辑书签。
    可能太奢望了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-18 19:27 | 显示全部楼层
    哦,原来是这个意思。
    自动生成书签的功能不是从目录页中抽取文本生成书签,而是通过分析正文字体的尺寸,将具有大尺寸的文本和位置提取出来,做成书签。对于字典类图片PDF,效果可能不会很理想。一来字典的词条多,生成的书签数量将很庞大;另一个更难解决的问题是光学字符识别组件识别只能识别常用字,很多非常用字的字头肯定会识别错。目前我只希望它能抽取普通书籍的标题出来而已。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2017-10-15 07:30
  • 签到天数: 169 天

    [LV.7]常住居民III

    发表于 2011-2-18 21:23 | 显示全部楼层
    多次实验,finereader是最好的,pdf白金版的那个ocr引擎不怎么样。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-21 08:37 | 显示全部楼层
    回comme大侠,finereader识别速度的确比较慢,但牺牲速度换来的就是极高的识别率(我指的是西文字符,尤 ...
    angst 发表于 2011-2-8 01:12



    昨天晚上优化了自动生成书签的排版识别功能,可以成功处理你传给我的 FineReader 识别后文本了。
    今天再完善一下功能。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-22 10:46 | 显示全部楼层
    请问comme大侠,abbyy finereader可以将图片pdf文件ocr成图文双层pdf,为何你言到文本无法写入原pdf?另我用过大侠制作的补丁丁前一个版本,但是在识别我用finereader 制成的英文图文双层的pdf文件(原文件质量良好)时,生成的书签错误太多,几乎不能用。请问新版本是否对英文的pdf图文双层的目录识别进行了优化呢?angst 发表于 2011-2-7 19:05



    0.3.1.3 版略微优化了排版识别算法,可以识别这种双层文本的标题了。

    新版本新增及修正功能如下:

    0.3.1.3 2011年2月22日
    新增功能:
            书签编辑器增加强制设置页面链接目标为内部链接(用于修复一些文件改名后链接失效的书签)。
            在书签编辑器按住 Ctrl 键拖动书签可复制书签。
            书签编辑器如直接编辑 PDF 的书签,保存时默认执行补丁生成新的 PDF 文件。

    修改功能:
            书签编辑器优化撤销速度。
            自动识别标签功能优化文字排版的后处理过程。

    修复错误:
            书签编辑器批量移动书签后反转顺序的问题。
            书签编辑器批量撤销会导致程序崩溃的问题。
            补丁功能导入外部页面链接错误的问题。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-22 16:46 | 显示全部楼层
    本帖最后由 comme 于 2011-2-22 17:42 编辑

    早上发布的版本有漏洞,导致无法解密 PDF 文件和使用合并模式添加图片等。

    请下载新的修复版。

    接下来将会为程序撰写使用文档和应用示例。发布稳定版本后,就着手开发结合光学字符识别的书签制作功能。
    大家在测试过程中如发现问题请回帖。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-23 15:41 | 显示全部楼层
    本帖最后由 shengdong 于 2011-2-23 15:46 编辑

    comme兄,书签标页码时以正文第1页为1,加入之后这条书签指向封面,这个问题能解决吗?
    其实也可以加上正文之前的页码数,但是有的书前言、目录长得不行,对照很费力。

    ————————————
    另有这种格式的提不出图片(附件)

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-23 16:05 | 显示全部楼层
    本帖最后由 comme 于 2011-2-23 16:10 编辑

    回复 72# shengdong


    是否可以具体介绍一下你对照页码标书签的过程吗?让我看看是哪个功能操作不便。


    你上传的附件可以提取出图片呀。
    前些天发布的版本有问题,请重新下载修复版再操作一次看看。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-23 18:32 | 显示全部楼层
    回复 73# comme


        图片可以提取,是我操作错了。
    书签的编辑步骤如图片所示(附件)
    这本书的前言、目录有100多页,我起始页面直接定为正文的第1页了,因为这样可以对照原书目录页所标示的页码。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-23 20:27 | 显示全部楼层
    本帖最后由 comme 于 2011-2-24 08:29 编辑

    的确是个巨型 PDF 哦。
    是否方便将该书目录的图片,以及 XML 格式的书签信息文件,传过来给我调试一下?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-24 11:21 | 显示全部楼层
    回复 75# comme


        前言目录图片及书签:
    http://u.115.com/file/t6c27a60bc#
    前言目录图片及书签.rar
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-24 17:30 | 显示全部楼层
    本帖最后由 comme 于 2011-2-24 17:43 编辑

    回复 76# shengdong


    看样子是需要将所有页码数正偏移161页(书签第1页实际上是162页)。

    好的。我在下一版的编辑器中增加一个页码偏移量选项。
    在实现这个功能之前,你可以用0.3.1.4版(见主帖附图),将所有页码增加161页转成实际页数。

    评分

    2

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-10-12 21:35
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-2-24 18:33 | 显示全部楼层
    本帖最后由 gy0715 于 2011-2-24 18:37 编辑

    回复 77# comme


        打开下面这个pdf文档显示的书签页码怎么都是0啊?
         http://u.115.com/file/f64f1100f7#
        铁道游击队v1.pdf

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-24 19:40 | 显示全部楼层
    回复 78# gy0715



    这是由于那个文件的书签动作目标不符合 PDF 规范。PDF 规范要求:文件内的链接不能直接用数字指定目标页码,而应该用编号引用来指定页码的。

    偶尔会遇到这样的文档,我改改程序迁就一下这种文档吧。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-25 09:04 | 显示全部楼层
    感谢楼主的软件,昨天刚试用了一下,图像导出功能非常不错。
    使用书签功能时出现了以下问题。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-25 15:30 | 显示全部楼层
    回复 78# gy0715回复 80# wangqun

    问题已经解决,请下载最新的 0.3.1.7 版。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-25 15:47 | 显示全部楼层
    回复 81# comme
    谢谢comme,现在没问题了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-25 22:51 | 显示全部楼层
    回复 66# 客无能


        嗯,经过几天的开发和测试,期望用微软Office的清华引擎做成ABBYY识别结果基本上是不可能。今天再看你的帖子,看来还是先将目录识别提取出来,做一个基本的书签比较方便实际一些。我计划提供一个独立光学字符识别的功能,用于识别 PDF 页面的图片并转换为文字,这样就可能把目录的图片转换为书签目录了。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-10-12 21:35
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-2-25 23:06 | 显示全部楼层
    回复 81# comme


        我的问题已解决,谢谢!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-4-15 17:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2011-2-27 12:34 | 显示全部楼层
    请教comme——
    想把“附件”中的两张大尺寸页面压缩到小页面的比例,用您的PDF 补丁丁0.3.1.13没有做到。
    于此求助。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-27 17:00 | 显示全部楼层
    本帖最后由 comme 于 2011-2-27 17:05 编辑

    回复 85# 客无能


       在 PDF 文档选项中选择如图所示的配置。然后用独立补丁模式处理文档。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-4-15 17:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2011-2-27 17:50 | 显示全部楼层
    回复  客无能


       在 PDF 文档选项中选择如图所示的配置。然后用独立补丁模式处理文档。 ...
    comme 发表于 2011-2-27 17:00


    感谢comme!
    非常好,解决问题!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-3-2 08:36 | 显示全部楼层
    这个软件对我太有用了,下载试试。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-3-2 11:27 | 显示全部楼层
    0.3.1.15
    新增功能:
        合并文件(制作图像 PDF)功能增加是否将黑白图片设为透明的选项。
    修复错误:
        书签编辑器可能使书签目标位置偏离原来位置的问题。
        合并模式合并后可能使书签指向页码错误的问题。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-1-21 08:53
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2011-3-2 11:50 | 显示全部楼层
        嗯,经过几天的开发和测试,期望用微软Office的清华引擎做成ABBYY识别结果基本上是不 ...
    comme 发表于 2011-2-25 22:51

    热切盼望图片文字识别功能。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-3-8 15:32 | 显示全部楼层
    本帖最后由 comme 于 2011-3-8 18:52 编辑

    新版本0.3.1.17增强了书签编辑器,增加了一些实用功能。另外还修正了导出导入书签的若干问题。


    如果你会 XPath,选择书签又多了一种途径。这个选择器的好处是:不但可以根据文本条件,而且可以根据“页码”、“样式”以外的其它属性,以及其它相关联的书签来选择书签。


    选择和上一个书签指向相同页码的书签,XPath 表达式:
    “preceding-sibling::*[1]/@页码 = ./@页码”
    选择文本和上级书签一样的书签:
    “parent::*/@文本=./@文本”


    新版本增强的自动生成书签功能,可以更好地发现并处理文本 PDF 的标题,结合书签编辑器,可以轻松的制作 PDF 书签。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-3-10 10:00 | 显示全部楼层
    二楼要繁体版做甚?

    光学字符识别……这功能是可以考虑的。之前没有找到很好的 PDF 识别软件(ABBYY太大, ...
    comme 发表于 2011-1-29 11:49



    很期待大侠能够开发一个软件,将OCR功能作为插件,嵌入常见的PDF阅览器中。极其实用,而且目前没有同类。
    补丁丁软件非常好,但是好多功能别的软件能够实现。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-3-10 10:23 | 显示全部楼层
    本帖最后由 comme 于 2011-3-10 16:12 编辑

    回复 92# tobeing



       老马新版本的独角兽浏览器(0.12以后版本)也有光学字符识别的功能。我现在也在考虑将光学字符识别功能做到一个简单的阅读器中,主要用途是用来制作书签。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-3-10 11:27 | 显示全部楼层
    0.3.1.19 版更正了少量错误,并增加了标记书签方便编辑的功能。
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    Archiver|手机版|小黑屋|国学数典 ( 2006-2019 冀ICP备19008975号-2 )

    GMT+8, 2019-4-19 11:14

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表