国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 58348|回复: 438

[工具] PDF 补丁丁0.5.0.2520(测试版)解除PDF文档的烦恼

  [复制链接]

该用户从未签到

发表于 2011-1-28 17:39 | 显示全部楼层 |阅读模式
本帖最后由 汉文学士 于 2015-2-17 16:56 编辑

简介:大概版友都知道了,就是一个修改、制作PDF的工具箱。
详情及更多界面截图可参阅我的网志http://pdfpatcher.cnblogs.com最新测试版请到此处下载)。

程序需要.NET Framework 2.0 才能运行。
敬告:硬盘位贱、数据无价,请在修改文件前做好备份!

PDF补丁丁是一个用于修改PDF文件信息的工具。它具有以下功能:

  • 修改PDF信息:修改文档属性、页码编号、页面链接、页面尺寸、旋转方向;删除自动打开网页等动作,去除复制及打印限制;设置阅读器初始模式。
  • 贴心PDF书签编辑器:可批量修改PDF书签属性(颜色、样式、目标页码、缩放比例等),在书签中执行查找替换(支持正则表达式及XPath匹配)。
  • 生成PDF书签:无需手工输入,自动识别正文标题或目录,为PDF文件生成书签。
  • 制作PDF文件:合并已有PDF文件或图片,生成新的PDF文件(可挂上书签)。
  • 拆分或合并PDF文件,并保留原文件的书签或挂上新的书签。
  • 将PDF文档转换为图片。
  • 高速无损导出PDF文件的图片。
  • 提取或删除PDF文件中指定的页面。
  • 根据PDF文档元数据重命名PDF文件名。
  • 调用微软 Office 的图像识别引擎分析PDF文档图片中的文字;将图片PDF的目录页转换为PDF书签。(0.3.2版)
  • 替换字库:替换文档中使用的字体库;嵌入字库到PDF文档,消除复制文本时的乱码,使之可在没有字库的设备(如Kindle等电子书阅读器)上阅读。(0.4.1版新功能)
  • 拆分文档:按指定页码范围、首层书签或指定页数拆分 PDF 文档。(0.4.2版新功能)
  • 分析文档结构:以树视图显示PDF文档结构,可编辑修改PDF文档节点,或将PDF文档导出成XML文件,供PDF爱好者分析、调试之用。
  • 永久免费,绝不过期,无广告,无弹出废话对话框。
运行环境
  • .NET Framework 2.0 (建议安装 SP2,Windows Vista、Windows 7 及更高版本已内置)
  • Visual C++ 2008 Distributable SP1(0.3.2 版似乎不需安装此组件)
  • Office 2003(或2007)的 Document Imaging 组件(由识别文字功能调用)

如果觉得软件好用,请跟你的朋友、博友分享。我可以保证,PDF 补丁丁将一直是免费软件。好东西应该多分享分享。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

2

查看全部评分

回复

使用道具 举报

该用户从未签到

 楼主| 发表于 2011-2-7 21:56 | 显示全部楼层
回楼上网友:

ABBYY Reader 吃内存太多了,我最好的计算机也只有 2G 内存,识别一个 300 页的 PDF 都非常吃力,等了好半天识别出来,还有一些莫名其妙的错误,还保存不了,就没继续研究下去了。
旧版本检测书签是通过文本尺寸来确定书签级别的。如果识别出来的文本尺寸相差不大,那就没办法有效地生成书签。新版本是有一些改进,但还没着手改动核心的识别算法。
生成书签错误太多是什么意思呢?是否可找一个识别所得的“双层PDF”,提取其中比较有代表性的几十页上传(或发到我的邮箱),让我分析一下,看怎样可以将算法改进得更好。

评分

1

查看全部评分

回复 支持 1 反对 0

使用道具 举报

  • TA的每日心情

    2019-1-24 12:12
  • 签到天数: 630 天

    [LV.9]以坛为家II

    发表于 2011-1-29 02:19 | 显示全部楼层
    需求PDF 补丁丁繁体版本
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-5-19 10:15
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2011-1-29 08:55 | 显示全部楼层
    要是能OCR就更好了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-1-29 11:49 | 显示全部楼层
    二楼要繁体版做甚?

    光学字符识别……这功能是可以考虑的。之前没有找到很好的 PDF 识别软件(ABBYY太大,而且无法写入原 PDF;Adobe 的可写入 PDF,但写入文本有微小的旋转角度,颇不便处理),我看看有没有免费的组件可用罢。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2017-3-5 17:07
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    发表于 2011-1-29 17:29 | 显示全部楼层
    福昕pdf也可以用这个吗?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-10-12 21:35
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-1-29 21:53 | 显示全部楼层
    本帖最后由 gy0715 于 2011-1-29 21:57 编辑

    希望书签编辑可以按照不同级别设置书签颜色来区分。
    加入打开其它pdf文档或书签文件来复制书签或追加书签。
    再加入书签另存为的功能吧
    希望lz能让我们先体验一下书签编辑功能!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-1-30 08:41 | 显示全部楼层
    本帖最后由 comme 于 2011-1-30 09:48 编辑

    书签文本的颜色就是实际 PDF 文档书签的颜色。
    书签级别已经按层次缩进了啦。

    嗯,是可以打开 PDF 文档直接编辑书签信息的。

    书签现在已经可保存了(换名另存)。

    又,昨天找到一个免费的光学字符识别组件,我想看看效果如何。如果好的话,就会将光学字符识别功能做到“识别标题为书签”功能上去。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-5-19 10:15
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2011-1-30 10:13 | 显示全部楼层
    caj的楼主可以考虑
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-1-30 10:44 | 显示全部楼层
    CAJ 的不行。
    用过了,无法获取坐标信息,也不能调用控件自动转换。
    我先将书签编辑器做完,然后考虑光学字符识别控件。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-1-30 22:25 | 显示全部楼层
    本帖最后由 comme 于 2011-1-30 22:38 编辑

    书签编辑功能已经做得基本上差不多了。

    具有为书友贴心设计的批量书签修改指令:



    书签动作编辑器:




    光学字符识别功能将提到最高级别的开发日程中。
    我等屡为图片 PDF 无书签所苦,要是能将光学字符识别嵌入到 PDF 补丁丁的“识别标题为书签”功能中,以后做书签就爽了。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-1-31 14:19 | 显示全部楼层
    呵呵,好。实际上前几天就下载了,比较好用,多谢辛勤工作~~
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-2 12:42 | 显示全部楼层
    本帖最后由 comme 于 2011-2-2 13:04 编辑

    经过在网上好一段时间的搜索,看来并无多少免费的中文光学字符识别组件可用。
    流传最广的开源识别组件 Tesseract 3 ,对中文的识别效率和准确率都很不理想,而且缺少 .NET 版的程序接口。最后看来还是得借助微软 Office Document Imaging(MODI)组件。这个组件虽也不是免费,但大部分人电脑上都有 Office,普及率颇高,而且编程开发比较方便。在马健兄的软件也有调用该组件实现文字识别的。组件的效率和准确率都较高。

    评分

    2

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-2 14:15 | 显示全部楼层
    谢谢!安装上试一下。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-2 15:55 | 显示全部楼层
    楼上别急,还在开发之中呢。
    虽然书签编辑器的功能已经完成得差不多,但光学字符识别等功能还没好,估计要春节假期之后才能发布了。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-9-17 22:14
  • 签到天数: 433 天

    [LV.9]以坛为家II

    发表于 2011-2-3 09:46 | 显示全部楼层
    福晰阅读器pdf也好
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2018-11-26 18:08
  • 签到天数: 246 天

    [LV.8]以坛为家I

    发表于 2011-2-3 12:27 | 显示全部楼层
    我怎么找不到下载阅读器的链接啊?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-10-12 21:35
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-2-3 18:39 | 显示全部楼层
    回复 16# 快乐龙女


        这个工具不是阅读器啊,而且V0.3.1还在开发中,作者上面写的是春节后才能发布。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2018-11-26 18:08
  • 签到天数: 246 天

    [LV.8]以坛为家I

    发表于 2011-2-3 23:31 | 显示全部楼层
    回复 17# gy0715


        非常感谢!祈愿早日开发成功,早日发布啊!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-6-8 08:34
  • 签到天数: 105 天

    [LV.6]常住居民II

    发表于 2011-2-3 23:47 | 显示全部楼层
    希望楼主早日开发成功,对制作书籍的人来说也有帮助~
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-4 11:53 | 显示全部楼层
    本帖最后由 comme 于 2011-2-4 23:18 编辑

    调用识别组件现在已经没有问题了。
    对一些排版简单和扫描较好的书籍而言,识别率还是比较可观,能定位到标题所在的位置。

    但检测标题尺寸的算法还是要完善一下,目前的算法太简单了,只能对付质量很好的书籍。

    要学习一堆新的知识才行哟~~

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2016-12-4 10:38
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2011-2-5 06:05 | 显示全部楼层
    楼主是在做一个大好事呀,谢谢!!!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2011-2-5 09:00 | 显示全部楼层
    楼主的大作非常好,先赞一个!
    但是有一个问题,
    office2007的功能是不是更强一些呢?
    2003转眼就要10年了 ...
    sea 发表于 2011-2-5 03:36



    不懂,就不要装懂。
    Office 2007的MODI和Office 2003的是一样的。
    到Office 2010将没有MODI,但微软已经给出了解决方案。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-5-6 17:37
  • 签到天数: 324 天

    [LV.8]以坛为家I

    发表于 2011-2-5 11:19 | 显示全部楼层
    好东西
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-5 13:35 | 显示全部楼层
    老马你觉得不爽可以继续用2003,
    但是社会要进步,技术要进步的。
    我们学校三千多台公共电脑去年全都升级到 ...
    sea 发表于 2011-2-5 10:20



    君有所不知。马兄所言不差。Office 2007 和 Office 2003 所用之光学字符识别功能均是清华的产品,实无多大差别。我制作的 PDF 补丁丁将会同时兼容两套 Office 的识别引擎。

    不知道为何,Office 2010 居然将识别引擎和接口去掉了。微软所提的“解决方案”并未解决调用识别引擎的问题(见此网页介绍的“替代方案”)。也许可将旧版本 Office 的引擎抽取出来,独立安装。马兄对此是颇有研究的。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-9-17 11:16
  • 签到天数: 907 天

    [LV.10]以坛为家III

    发表于 2011-2-5 23:45 | 显示全部楼层
    很好!下来试一下!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-9-16 07:55
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2011-2-6 08:04 | 显示全部楼层
    君有所不知。马兄所言不差。Office 2007 和 Office 2003 所用之光学字符识别功能均是清华的产品,实无多 ...
    comme 发表于 2011-2-5 13:35


    谢谢楼主的兼容方案,
    相信你的软件会是最好的pdf目录解决方案。
    期待大作早日发布!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2011-2-6 23:34 | 显示全部楼层
    楼上的网友要降低期望哟。
    春节之后可能要过一段时间才能发布。
    这次要添加的功能很多。
    除了书签编辑器之外,还有光学字符识别(调用组件不难,难是难在后处理)。
    此外,JBIG2图片解码的问题困扰了很久。今天终于找到了解码组件,可以将其一并解决了。
    另外还可能增加一些新的功能,没定下来。所以得用多一点的时间开发。加上年后的工作比较忙,所以必然要押后了。
    可以确定的是,这次更新是 PDF 补丁丁的一次飞跃。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-9-16 07:55
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2011-2-7 02:07 | 显示全部楼层
    楼上的网友要降低期望哟。
    春节之后可能要过一段时间才能发布。
    这次要添加的功能很多。
    除了书签编辑器之 ...
    comme 发表于 2011-2-6 23:34



    好软件各路书友都等得。
    精工出细活!
    加油!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-4-17 09:08
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2011-2-7 19:05 | 显示全部楼层
    二楼要繁体版做甚?

    光学字符识别……这功能是可以考虑的。之前没有找到很好的 PDF 识别软件(ABBYY太大, ...
    comme 发表于 2011-1-29 11:49


    请问comme大侠,abbyy finereader可以将图片pdf文件ocr成图文双层pdf,为何你言到文本无法写入原pdf?另我用过大侠制作的补丁丁前一个版本,但是在识别我用finereader 制成的英文图文双层的pdf文件(原文件质量良好)时,生成的书签错误太多,几乎不能用。请问新版本是否对英文的pdf图文双层的目录识别进行了优化呢?

    致谢!祝新年快乐。
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    Archiver|手机版|小黑屋|国学数典 ( 2006-2019 冀ICP备19008975号-2 )

    GMT+8, 2019-9-18 05:31

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表