国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

楼主: 汉文学士

[工具] 汉文博士 0.5.3.2099 支持生僻古难字的开放式电子辞典

    [复制链接]

该用户从未签到

发表于 2012-8-11 11:23 | 显示全部楼层
得寸再进尺。
许多古字,都是成词,找了前一个还需找第二个。如果搜字出词,也可加快效率。

点评

嗯,说的对。正在开发这个功能。问题是有些字出现的频率太高了,例如《汉语大词典》中,包含“一”字的词条竟近三千个,有什么好方法可筛选?  发表于 2012-8-11 12:46
回复 支持 反对

使用道具 举报

  • TA的每日心情
    慵懒
    2017-10-27 22:46
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2012-8-11 23:36 | 显示全部楼层
    略试了一下,仍有许多字无法打出,可能字库还是没收齐吧。举一例:{土贡}

    点评

    优化过算法后,现查询结果似乎已大有改善,请看楼下的截图。  发表于 2012-8-12 18:05
    的确如此,是检索算法的问题。我再看看如何优化一下,支持简繁异体的部件互检。  发表于 2012-8-12 09:22
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-12 00:13 | 显示全部楼层
    QmimQ 发表于 2012-8-11 11:23
    得寸再进尺。
    许多古字,都是成词,找了前一个还需找第二个。如果搜字出词,也可加快效率。 ...

    各输入法已具词库,大路词汇早无问题。贵软件寻取僻难罕上独树一帜,三千一,唯难者收。

    软件分两路:一为查难,一作词典。

    词条排列:定首字,余取首拼,如一往直前:yiwzq。门外汉,供一粲。

    部首的位置有左中右上下,区别之,选词骤减。

    点评

    是否可举例更详细地说说如何实现该功能?  发表于 2012-8-12 17:57
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-12 18:02 | 显示全部楼层
    本帖最后由 comme 于 2012-8-12 18:04 编辑

    发几张截图出来先。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-13 06:21 | 显示全部楼层
    羊旁,右边,上日(曰),下羽
    查【日羽、曰羽、羊日、羊曰。羊日羽、羊曰羽】皆不果。
    试查羊羽,得字。

    点评

    不用担心这个,新版本引入的构形数据库可以支持上面的检索了。  发表于 2012-8-13 10:25
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-14 22:11 | 显示全部楼层
    新版本的《汉字速查》应用程序及数据库文件已上载。
    更新版的汉字构形检索几乎覆盖统一码全汉字集(七万多汉字),检索难字、僻字更方便。
    欢迎各位网友到一楼、二楼下载。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-14 23:00 | 显示全部楼层
    QmimQ 发表于 2012-8-11 09:26
    趁还没发表,再提一个希望:
    蟲字作部首是虫,查找虫旁字,输入形式必须转回简体,觉得很麻烦。能否蟲虫共 ...

    请下载最新版,然后在安装目录下创建一个名称为“自定义异体字表.txt”的文件。
    在该文件中输入“蟲虫”,并在两个字之间用一个制表符分开,保存文件即可。
    如果有多组异体字,可分多行。
    每行为一组。
    每组文字之间均需用制表符分开。
    如果无法输入该字,可用“U+”附加统一码(十六进制码)的形式表示。
    自定义异体字表可保存为UTF-8或UTF-16(需添加字节顺序标记)编码的文本文件,程序可自动识别编码。

    附件是一个示例文件。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    点评

    打竹潘出籓,非常舒服  发表于 2012-8-15 05:22

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2018-9-19 19:34
  • 签到天数: 111 天

    [LV.6]常住居民II

    发表于 2012-8-15 18:53 | 显示全部楼层
    comme 发表于 2012-8-14 23:00
    请下载最新版,然后在安装目录下创建一个名称为“自定义异体字表.txt”的文件。
    在该文件中输入“蟲虫” ...

    足字旁的字好像不行。比如蹯,打足、番检索就无结果。搜狗输入法也同样不行,难不成您的数据跟搜狗相通?QQ输入法就可以拆分输入足字旁的字,如果可以建议调用一下。

    点评

    抱歉,以上作为回复来说表达不精确。我的问题是关于“构形检索”一项的。  发表于 2012-8-15 18:57
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-15 22:27 | 显示全部楼层
    本帖最后由 comme 于 2012-8-15 22:31 编辑
    chonloh 发表于 2012-8-15 18:53
    足字旁的字好像不行。比如蹯,打足、番检索就无结果。搜狗输入法也同样不行,难不成您的数据跟搜狗相通? ...

    哦,是原始数据库没有添加足字旁和“足”字的异体字兼容关系。
    下个版本我把这个关系添加上去。

    目前你可以在程序的安装目录创建一个“自定义异体字表.txt”文件,在里面添加一行:
    1. U+27FB7        足
    复制代码
    “U+27FB7”和“足”字之间添加个制表符。
    这样就可以定义足字旁和“足”字部件的等同关系。

    点评

    嗯。谢谢您无私奉献。  发表于 2012-8-15 23:13

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-16 02:18 | 显示全部楼层
    本帖最后由 QmimQ 于 2012-8-16 05:24 编辑

    现成的边旁部首,可省去部分U码

    亻  彳  忄  讠  饣  氺    車    氶牜  扌  阝  卩  钅  艮    馬  攴  冎礻  衤  ⻊  纟  糹  亞  ⺷  門  殳  叏犭  豸  冫  氵  灬  聿  ⺶  鬥  貝  丱辶  廴  ⺮  疒  刂  韋    魚  見  両攵  夂  艹  冖  宀  臼  ⺧  鳥  頁  弚亠    ⺈    乂  镸    昜  耒  乑厶  幺  糸  巜  巛  長  癶  豕  朿  亜丬  弋  ⺪  覀  罒  円    隹  髟  丣丷  ⺌    乊  爫  疋  彡  彐  夬  囬丌  廾  ⺋  丩  屮  凵  勹  冂  匚  囪虍    肀  ⺳  厃  爿  兂  旡  戼  黽亇  卂  毋  戋  朮  凹  氷  扥  亙  曳囟  舛  夾  尨  卣  兎  為  叚  亀  斲乜  夨  孒  冇  冄  丯  卐  卍  夬  弔丗  卌  冊  曱  甴  囙  叏  氶  丱  襾両  乑  芈  呉  吳  囬  羋  咼  枾  卨

    禾禾 和 禾2
    出来的字例一多一少。

    点评

    “禾禾”和“禾2”:前者实际上等同于检索一个“禾”字,需要进一步改进检索算法。  发表于 2012-8-16 11:20

    评分

    1

    查看全部评分

    [发帖际遇]: QmimQ 帮猪八戒找媳妇,奖励3 没奈何. 幸运榜 / 衰神榜
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-16 12:04 | 显示全部楼层
    QmimQ 发表于 2012-8-16 02:18
    现成的边旁部首,可省去部分U码

    亻  彳  忄  讠  饣  氺    車    氶牜  扌  阝  卩  钅  艮    馬  ...

    好主意。增加个功能。见附图。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-17 04:28 | 显示全部楼层
    本帖最后由 QmimQ 于 2012-9-6 10:37 编辑

    打【礻艹】出【旚祣……】(许多字无法显示,这些字多与【礻】有关,两个集撞到一起了)
    【土從】也有此現象,一齐出了【坐】部字。

    点评

    昨天已经发现这个问题了,是程序代码错误。  发表于 2012-8-17 08:52
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-17 15:34 | 显示全部楼层
    请下载新的测试版。
    修复了构形异体检索中查询错误等问题,增加了自定义常用部件的功能(需在应用程序安装目录下创建一个“自定义汉字部件.txt”文件,文件格式可参见附件)。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    评分

    1

    查看全部评分

    [发帖际遇]: 汉文学士 帮沙和尚看行李,奖励 2 没奈何. 幸运榜 / 衰神榜
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-3-5 20:46
  • 签到天数: 240 天

    [LV.8]以坛为家I

    发表于 2012-8-18 10:28 | 显示全部楼层
    本帖最后由 fqma 于 2012-8-19 10:39 编辑

    汉字速查 0.4.0 最新版很好!
    很高兴,更多的是感激与敬佩!

    提几个期盼:
    1.增加成语检索或完善汉语大词典

    2.逐步完善异体字(可参照台湾异体字字典正式版第四版.isz,4.4GB,不需安装绿色版,在简体操作系统下可以配合《金山快译,10万多汉字)

    3.进一步扩大(或细分)汉字构形部件

    4.将来可引入人名,地名,官名,历史,百科全书等工具书


    再次感谢C兄无私奉献!!!

    点评

    已经上传成语大词典了;是否有文本版异体字数据库?构形部件需待各位网友帮助补充;职官词典、历史词典亦已上传  发表于 2012-9-3 11:45

    评分

    1

    查看全部评分

    [发帖际遇]: fqma 替吴刚砍了一天树,奖励 4 没奈何. 幸运榜 / 衰神榜
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2019-4-19 08:46
  • 签到天数: 695 天

    [LV.9]以坛为家II

    发表于 2012-8-19 09:54 | 显示全部楼层
    字典数据库制作方法,首先是提取制作文本文件吗?然後转换成.hzd格式?是否有专门工具?請教楼主了。

    点评

    暂时没有专门工具。现在每个词典都是手工编程转的,痛苦呀。正在考虑开发生成通用简单格式的词典库工具。  发表于 2012-8-19 23:42
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-19 23:53 | 显示全部楼层
    fqma 发表于 2012-8-18 10:28
    汉字速查 0.4.0 最新版很好!
    很高兴,更多的是感激与敬佩!

    感谢兄关注和帮助。

    《汉语大词典》还缺很多字头和词条(可点击查询结果的词典名称查看统计数据),需要网友帮助补充缺少的内容。
    台湾的异体字字典,暂时还不可能有时间做出来。
    我将全文检索词典内容放在后续开发的首要任务之中,这也是高级电子词典应具备的实用功能。许多的电子词典是没有全文检索词典正文的功能的,如果汉字速查可提供全文检索,那必将是一大特色。我在网上找了一些关于汉字全文检索的论文,但大部分论文含水量过高,于实际编码指导意义不大。希望各位能指点一下汉字全文检索技术的实现方向。
    构形数据库目前来源于台湾中央研究院和 Kanji Database 项目的 IDS 数据库。这两个数据库和检索算法的微调,就需要各位网友不吝指教了。此外,如果有网友肯帮忙制作补丁库那就最好了。
    我现在找到一本中国文化史词典,是文本版的 PDF 文件,有望可制作成电子版词典供各位检索。

    评分

    1

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-4-18 13:17
  • 签到天数: 911 天

    [LV.10]以坛为家III

    发表于 2012-8-21 12:22 | 显示全部楼层
    本帖最后由 仲愚 于 2012-8-21 12:33 编辑
    comme 发表于 2012-8-10 15:08
    有没有网友在Win7上使用此软件?
    请问扩展C区、扩展D区、兼容汉字和兼容扩展区的汉字是否能在Win7系统正常 ...


    我在64位win7上使用,扩展C区、扩展D区、兼容扩展区的汉字好像不能显示,兼容汉字出现,是不是本来就没有,如图

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-3-5 20:46
  • 签到天数: 240 天

    [LV.8]以坛为家I

    发表于 2012-8-21 15:27 | 显示全部楼层
    仲愚 发表于 2012-8-21 12:22
    我在64位win7上使用,扩展C区、扩展D区、兼容扩展区的汉字好像不能显示,兼容汉字出现,是不是本来就没有 ...

    我在64位win7旗舰版上使用,扩展C区、扩展D区、兼容扩展区的汉字全部可以显示。

    可能是你还没有安装花園明朝字库或海峰的 UniFonts 6.0 字库。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-4-18 13:17
  • 签到天数: 911 天

    [LV.10]以坛为家III

    发表于 2012-8-21 19:29 | 显示全部楼层
    fqma 发表于 2012-8-21 15:27
    我在64位win7旗舰版上使用,扩展C区、扩展D区、兼容扩展区的汉字全部可以显示。

    可能是你还没有安装花園 ...

    多谢兄台,安装了UniFonts 6.0 字库后可以正常显示了。多谢多谢!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-21 21:14 | 显示全部楼层
    想找幺+丨这个字,输入之后出现很多选择。幺+丨也在其中,如果能有一个【仅限搜索构件】的选择,是否可使幺+丨单独出现。

    又找到两个构件,请笑纳:【亅丨】。

    点评

    “仅限搜索构件”选项也无法让该字单独出现。但是,你可以将搜索结果按汉字笔画数排序,这样就稍微容易一点能找到该汉字了。  发表于 2012-8-22 09:13
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-22 12:43 | 显示全部楼层
    本帖最后由 hughman 于 2012-8-22 13:01 编辑

    哇噻,相见恨晚。这应该是目前最好的电子汉字字典了
    不知道楼主的数据库格式是自己设计的还是什么?
    能够自制数据库吗?
    还有就是拼音声调要是能标成āáǎà就更美观了
    可能你拿到的数据库就是标的1234,要转换也是件很痛苦的事
    不过汉字拼音好像也就1000多个,写个小程序转一下应该也不算很难

    点评

    我最近终于实现阁下所提的要求了,现在汉文博士使用拉丁字母来标注拼音啦。  发表于 2013-3-28 20:28
    数据库格式是自己设计的,现在还在完善之中,所以没有提供自制数据库的功能(但很快会有的)。拼音声调的确是个问题,我会在后续版本改进。  发表于 2012-8-22 15:53
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-24 21:13 | 显示全部楼层
    好像有字拼音错误。我今天查了个字“釪”,正确应该是yú,数据库里是hua2
    [发帖际遇]: hughman 帮沙和尚看行李,奖励 6 没奈何. 幸运榜 / 衰神榜
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-24 22:09 | 显示全部楼层
    本帖最后由 comme 于 2012-8-24 22:15 编辑
    hughman 发表于 2012-8-24 21:13
    好像有字拼音错误。我今天查了个字“釪”,正确应该是yú,数据库里是hua2

    读音数据库是从统一汉字数据库里面提取出来的,里面有两组属性:一组是“汉语大字典”,收录yu2和hua2两个读音;而另一组是“国语拼音”,只有hua2这个读音。由于汉语大字典中包含了许多冷僻的读音,放在基础数据库中可能会对日常使用造成困扰,因此,在制作基础数据库时,并没有从该字段中取国语读音。
    阁下如果有需要参考获取更多读音信息,可以安装《Unihan》或《Unihan缩简版》等数据库。
    在台湾中央研究院的汉字构形数据库中,记录了一组异体字:“㭉(小篆)铧(簡化字)鏵釪釫(或體)鋘”。我估计统一汉字数据库中的国语读音即源自台湾,故读“hua2”。
    中华文化博大精深,一涉及到七万个汉字,个人的精力远感不足。只好请各位在使用过程中多参照各大辞书,并不吝指正了。

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-24 22:57 | 显示全部楼层
    comme 发表于 2012-8-24 22:09
    读音数据库是从统一汉字数据库里面提取出来的,里面有两组属性:一组是“汉语大字典”,收录yu2和hua2两个 ...

    谢谢楼主耐心答复。是我孤陋寡闻了,见笑见笑。
    我只查了康熙字典和汉语大词典,都只有一个yu音,以为是数据库有错误,不好意思

    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-24 23:20 | 显示全部楼层
    hughman 发表于 2012-8-24 22:57
    谢谢楼主耐心答复。是我孤陋寡闻了,见笑见笑。
    我只查了康熙字典和汉语大词典,都只有一个yu音,以为是 ...

    阁下指出的问题实际上是统一汉字(Unihan)数据库的缺陷。
    这个数据库我估计是番鬼佬搞出来的,在整理该数据库时已发现其中的问题,但一直未有精力处理。
    等有机会再看看是否应将汉语大词典中的读音合并到基础数据库中。

    [发帖际遇]: 汉文学士 帮孙悟空捉妖怪,奖励1 没奈何. 幸运榜 / 衰神榜
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-26 23:14 | 显示全部楼层
    查【幺4】只出一例。如【斷檵繼蠿】之類皆闕。另查【幺3】【幺幺幺】【幺幺幺幺】亦无甚获。
    查【幺2】或【幺幺】可得全部。

    点评

    数据库的编撰者认为“斷檵繼蠿”这几个字的“幺”是分开,不连在一起的,所以用“幺4”查不到结果的。目前还没有什么好的解决办法。  发表于 2012-8-28 21:12
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2019-4-18 23:30
  • 签到天数: 632 天

    [LV.9]以坛为家II

    发表于 2012-8-27 23:03 | 显示全部楼层
    请教楼主,我按你的指点安装了4.0测试版。其它功能(部首、构型、拼音等)查单字都正常,可用到词典检索时,出现如下图界面。请楼主指点我在什么地方出现问题了?


    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    点评

    先谢C兄及时回复。按你说的做了,词典查询还是如上图显示的样子。程序原放在D盘根目录下,移到C盘根目录下,仍存在问题。  发表于 2012-8-28 22:23
    如果还是不行,请耐心等待新的测试版和配套词库吧。  发表于 2012-8-28 08:47
    奇怪哦,检索其它词语能出结果吗?请试试将程序安装目录下的app.config文件删除,然后重新安装字典,看看是否还会遇到此问题  发表于 2012-8-28 08:42
    回复 支持 反对

    使用道具 举报

    该用户从未签到

     楼主| 发表于 2012-8-28 21:27 | 显示全部楼层
    本帖最后由 comme 于 2012-8-28 21:41 编辑
    QmimQ 发表于 2012-8-11 11:23
    得寸再进尺。
    许多古字,都是成词,找了前一个还需找第二个。如果搜字出词,也可加快效率。 ...

    即将出来的新测试版会增加一个模糊词自动检索功能(见附图所示,只要记得一个词中若干字,仍能检索出词,例如输入“五十百步”,可以找到“五十步笑百步”)。
    测试版的检索效率不算很低(可在0.1秒内完成在《汉语大词典》和《国语词典》中的模糊检索),但我觉得还有优化的余地。
    正在研究如何“搜字出词”。阁下有何高见?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?注册

    x

    点评

    同上所愿!  发表于 2012-8-29 07:17
    期待新的测试版早日出世!  发表于 2012-8-28 22:24
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-29 10:47 | 显示全部楼层
    又有一个怪要求:打全字代偏旁。
    比如找【䟽】字。左半易打,右半就麻烦了,如果输入【 ⻊ 流】出【䟽】,那该多好。

    点评

    不怪。之前有网友提出过一样的需求。目前正在思考词典数据库的结构和检索方式。等以后有时间再实现这个。  发表于 2012-8-29 21:45
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2012-8-30 07:53 | 显示全部楼层
    ◎【排序方式】中各方式的排序是否可由用戶自定。比如我想定【笔画】为缺省值。
    ◎ 本软件是否能再开发一个搜索引擎的功能,枚举异体字的各种组合,保证搜遍旮旯。

    点评

    比如铁有【鐵銕鉄鐡……】窗有【牕牎窗窻……】可能的组合就是4*4,而仅搜索【铁窗】,恐怕不能涵盖所有。  发表于 2012-8-30 10:10
    “枚举异体字的各种组合”是什么意思呢?  发表于 2012-8-30 08:39
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    Archiver|手机版|小黑屋|国学数典 ( 2006-2019 冀ICP备19008975号-2 )

    GMT+8, 2019-4-19 10:52

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表