打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
制作MDict词库

(2013年1月27日)周末花了一天多的时间,把网上下载下来的159M的MDict词库(金山词霸2007年合集)进行了修改编辑,这个过程很艰辛,不停地摸索着做,对Grep、UltraEdit、NotePad++、MdxBuilder、GetDict.exe都有了一些了解。基本上达到了目的。现在把这过程记录一下,留着备忘。

我手机上运行着深蓝词典,用了这个159M的词库,由于嫌这个词库显示丑陋,多余无用的词太多,所以萌生了修改它的想法。

第一步是要从MDX格式的词库中导出txt格式的文本,才能对它进行编辑,几经查找和尝试,终于找到GetDict.exe,导出了txt文本,它是每个单词一行的Html+C的格式,方便把不同来源的单词分开,但不是MDX所要求的源文本。为了把无用的单词去掉,我需要对它进行处理。由于这个文件太大(约890M),家里的电脑不能装UltrEdit,其它软件都打不开它(单位的电脑能装,但处理效率太低),经过研究,终于找到了Linux下的Grep可以完成此项任务,并且速度超快。由于合集中的词库太多,都需要手工选择,所以还是花了好几个小时的时间才把每个词库分开,分别保存为一个一个的文件。从中选出了15个对我可能有用的词库,进行下一步的处理。(由于不熟悉,没有人指导,都靠自己摸索,前面这些工作花了一整天加半个晚上的时间)。

第二步是对那15个词库的源文本进行加工。为把源文本转换为MDX需要的格式,使用了MdxBuilder,先将其转换为MDX文件,选项里选上“Allow export to text”,然后用MdxExport.exe将上一步得到的mdx文件转换为txt文件,即得到了MDX所要求的“每单词三行”文本格式。但里面有很多< > " & 需要替换为 < > " &后才能用。这个环节又花了半个晚上加一上午,才把15个文件整理完毕。这个过程使我对正则表达式有了一些了解,对NotePad++也熟悉了一些:NotePad++的搜索替换速度很快,能使用正则表达式,但缺点是文件太大后(约100M),经常执行一半就异常退出了。为了处理一些大文件(约140M),我不得不把文件分成两个,再进行处理。

第三步,使用MdxBuilder将处理完毕的词库文本文件进行转换,得到最终MDX格式的词库文件。完成所有任务。

把它们装到我的手机上,界面好看多了。使用自己动手做的东西,感觉就是好。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
mdict版制作方法和常用工具
学习工具 | 这个APP你必须拥有
英语学习者必备神器|如何通过Mdict等软件安装免费离线英文词典(牛津朗文柯林斯剑桥韦氏等)
《MDict电子词典资源合辑》(Dictionary Resources for MDict)
关于MDict电子辞典PPC版软件的解绍与安装方法
MDict安装、相关词典下载和导入
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服