Skip to content

Latest commit

 

History

History
173 lines (149 loc) · 8.33 KB

README.md

File metadata and controls

173 lines (149 loc) · 8.33 KB

better-wubi

这是一个 86 版五笔输入法的改进版码表,仅含《通用规范汉字表》8105字范围内的字和词语。

本项目旨在打造一个更好的、面向大众的通用码表,并且会持续更新,逐步完善词库。

《通用规范汉字表》之外的新增汉字:

adwd 碁
cccu 叒
damw 磺
efqn 朊
nkmh 屌
npwi 屄
yctd 诶

有何改进

本码表相对原版做了很多改进(详情点这里),目标是做到:

  • 更合理的拆字
  • 更均衡的按键
  • 更少的重码
  • 更易学易用

对于拆字规则,原版的规则是:

  • 能散不连
  • 能连不交
  • 取大优先
  • 兼顾直观

我认为“取大优先”是不必要的,有其他三条规则就已经足够了,因此在对码表改进的过程中不再遵守此条规则。

关于新世纪版

之前这个项目是基于新世纪五笔的改进版,但是用了一段时间后我觉得新世纪版并不好用,其缺点如下:

  • 整体采用小字根设计,拆字繁琐(主要指体验)
  • 由于小字根设计,重码也变多了,尤其是常用字词
  • 号称编码更规范合理,但依然存在诸多不合理及错误编码(网上可以找到很多例子)
  • 网传其改进了各手指使用的均衡度,但根据实测及程序分析,其相对于 86 版几乎没有改变

由于以上问题的存在,如果我基于新世纪版进行改进,就需要大量的改动及重新设计,工作量之大几乎相当于重新设计一套编码方案了,这就是我放弃新世纪版的原因。

不过平心而论,新世纪版也有一些优点,比如字根设计及拆字方案总体上确实更加合理了,对于新手来说也更易学易用了,本项目对 86 版五笔的一些改进也参考了新世纪版的设计。

来源

原始码表来源于CNMan/rime-data,以下是码表介绍:

  • 仅含《通用规范汉字表》8105字范围内的字和词语。
  • 修正、统一了王码大一统新世纪版五笔字型错误编码
  • 以大陆商务印书馆《现代汉语词典》(第7版)(约5.9万词)、上海辞书出版社《现代汉语大词典》(约10万词)及《现代汉语新词语词典》(第2版)(约1万词)和台湾教育部《重編國語辭典修訂本》(约15.1万词)、《成語典》(约0.75万词)(以下简称“五词典”)为基准
  • 完整包括《现代汉语词典》(第7版)、《现代汉语大词典》、《现代汉语新词语词典》(第2版)词头
  • 整合了9种五笔码表(王码大一统、QQ五笔、极点五笔、孤狐世纪词库、至善词库、冰凌五笔、黄狗五笔、精灵五笔、花儿五笔)的公共词语
  • 原则上不含5字以上词语(“五词典”词头除外)
  • 原则上不含外国人名、地名、品牌名等(“五词典”词头除外)
  • 完整包括民政部县以上行政区划简称(即只有“北京”,没有“北京市”等),并清理了地域词(即没有“北京动物园”等)
  • 完整包括教育部76所直属大学名称
  • 完整包括各届中国大陆及港澳台地区领导人姓名,其他国内人名仅含“五词典”词头中的历史人物姓名
  • 词语总数拟控制在15万左右,其中“五词典”以外词语总数约1.5万
  • 旨在打造整体偏“学术”的字词码表,欢迎大家提出意见和建议,谢谢!

更改

在原始码表的基础上,我做了如下更改:

  • 字根更改:
    • W键上的字头移至O
    • Y键上的右边的字根移至O
    • Y键上的字根移至O
    • D键上的下面的字根移至K
    • F键上的下面的字根移至K
    • F键上的字根移至K
    • V键上的字根移至E
    • N键上的字根移至I
    • 删除Q键上的下面的字根,编码改为k
    • 删除Q键上的类字根
    • 删除Q键上的字头
    • 删除E键上的字根,编码改为eh
    • 删除U键上的字根,编码改为uf
    • 删除D键上的类字根
    • 删除G键上的字根,编码改为fxy
    • 增加𦥑字根至E
    • 增加字根至E
    • 增加字头至R
    • 增加字根至P
    • 增加字根至S
    • 增加字头至F
    • 增加字根至L
  • 编码更改:
    • 字的编码从ltn改为lnt,二级简码ln
    • 字的编码从iqv改为qii
    • 字的编码从wflw改为elgw
    • 字的编码从qgil改为eilf
    • 字的编码从djdd改为jddd
    • 字的编码从gnyn改为gnny
    • 字的编码从pnhn改为phnn
    • 字的编码从cbj改为cnhj
    • 字的编码从trff改为rhff
    • 字的编码从gkhe改为fkpe
    • 字的编码从uff改为udf
    • 字的编码从udyj改为udwj
    • 字的编码从guhk改为gufk
    • 字的编码从tuhk改为tufk
    • 字的编码从guwi改为gudi
    • 字的编码从dnyt改为dxyi
    • 字的编码从trnt改为trxy
    • 字的编码从hgmg改为hghg
    • 字的编码从mmgd改为hnmg
    • 字的编码从wuhj改为wufj
    • 字的编码从xxmk改为mxxi
    • 字的编码从udyf改为udjf
    • 字的编码从vtkd改为vtkf
    • 字的编码从auko改为akuo
    • 字的编码从qrnq改为rqnq
    • 字的编码从oyoc改为yooc
    • 字的编码从uhtt改为utht
    • 字的编码从gii改为dhi,二级简码dh
    • 字的编码改为跳过第二码,即dpi,二级简码dp
    • 乃刀方等字的末笔从改为丿
    • 尤龙等字的末笔从改为
    • 戈戋等字的末笔从丿改为
  • 简码更改:
    • 将一级简码Q改为
    • 将一级简码Y改为
    • 将一级简码U改为
    • 将一级简码O改为
    • 将一级简码X改为
    • 将一级简码V改为
    • 将一级简码N改为,键名汉字改为
    • 将一级简码M改为
    • 若干二级简码和三级简码更改,略

本项目会持续改进,如果还有明显不合理或错误的地方,欢迎提出改进建议。

使用

本项目只是一个码表,理论上可用于任何支持自定义码表的输入法。

Win10 & Win11

首先下载码表,然后使用WubiLex将码表安装到系统里。

注意:由于WubiLex只接受特定扩展名的码表文件,你可能需要将码表重命名为better-wubi.txt才能添加。

Debian & Ubuntu

fcitx

# requires
# fcitx: sudo apt install fcitx fcitx-table-wubi fcitx-tools
# fcitx5: sudo apt install fcitx5 fcitx5-chinese-addons libime-bin
git clone --depth=1 https://github.com/beavailable/better-wubi.git
cd better-wubi
./install-for-fcitx.sh

然后在fcitx设置面板添加better-wubi输入法即可。

Android

点击这里查看教程。

注意:不可使用better-wubi.dict作为导入的码表,而应该使用如下命令生成码表文件:

./convert.py fcitx >better-wubi.txt

脚本

convert.py可以将码表转换为你需要的格式。

regenerate.py可以重新生成(根据单字编码)并排序码表。

statistics.py可以查看相关的统计信息。

鸣谢

  • 王码五笔发明者王永民先生
  • CNMan 提供原始码表
  • 字甲达宾 制作图标

版权

版权归王码公司所有,禁止商用。