show	version	enable_checker
step	1.0	true

unicode 中文字符分类

回忆上次内容

unicode字符集
- 将世界所有字符进行编码
- 统一了编码世界

所有汉字里面
- 第一个汉字
- 是什么呢？

分布

第一个字就是一

一切本是混沌
- 河出图洛出书
- 一画开天
- 分出阴阳

一生二
- 太极生两仪
unicode
- 把一放在中文第一个
- 感受先人文化之源

后面的汉字

分在几个 blocks 里面
- 最常用的在0x4E00-0x9FBF 35M
  - 这个范围就是中日韩(CJK)字符的范围
- 也属于 2个字节以内
- 字符数量也很多

不过由于汉字数量太多
- 原来给的空间不够用了

新分空间

又给CJK分配了几个扩展空间
- Extension

我们对比一下
- 原来 \x表示法和 \u表示法

两种转义

原来ascii字符a可以用\x61表示
- \x61 对应十六进制的(61)_十六进制
- 占用一个字节
- 使用\x进行转义
现在unicode字符一可以用\u4e00表示
- \u4e00 对应十六进制的(4e00)_十六进制
- 占用两个字节
- 使用\u进行转义

ascii 字符也能用 \u 的方式进行转义

\u必须得4位16进制数
不过这样有点浪费空间和带宽
序号、字节状态和字符是什么关系呢？

关系

序号、字节状态和字符
- 这三个东西
- 构成一个闭环

像ascii一样

我们现在再看一下
- ord和chr的帮助

ord 和 chr

ord将字符的unicode编码转化为单字字符串

chr 将[0,0x10ffff] 转化为unicode 单字字符串

序号是unicode的序号
在[0,127]范围内
- ascii 和 unicode 重合
- unicode 兼容 ascii
unicode 形成了主流之后
- 会吸取周围的小支流
类似的还有办公文档的标准

办公文档的标准

dos时代之后
- win3.1的年代
- 微软推出了字体处理软件

金山在wps的基础上
- 推出了盘古系统

win95之后

win95之后
- 图形用户界面都基于
- 微软的制订的规则标准进行开发
- 微软自身也有office系列

客观上
- 微软也就制定了办公软件的标准
微软office系列
- 形成了主流之后
- wps、中文之星只能按照去兼容它的格式
- 失去了定义标准的可能
规则一旦形成
- 就会对后来的事物产生影响
汉字
- 也有各种归类规则标准

按照发音来归类

可以按照发音来归类
- 甚至可以生成语音...

还可以进一步归类吗？

韵母归类

押韵助手
- https://yayun.la/

可以用来找到押韵词汇

十三道大辙

字典用的是拼音排序
- 按照声母的顺序
- 大辙按的是韵母

这样就可以更方便找相同韵母的汉字了

更复杂的十八韵

大辙	对应十八韵
一发花	十八韵的一麻
二梭波	十八韵的二波三歌
三乜斜	十八韵的四皆
四衣欺	十八韵的五支、六儿、七齐
五灰堆	十八韵的八微
六怀来	十八韵的九开
七姑苏	十八韵的十姑
八衣欺	十八韵的十一鱼
九由求	十八韵的十二侯
十遥条	十八韵的十三豪
十一言前	十八韵的十四寒
十二人臣	十八韵的十五痕
十三汪洋	十八韵的十六唐
十四中东	十八韵的十七庚和十八东

四、八其实可以合成一道大辙
如果要双押
- 就得找词组韵母一致的
- 其实都可以把所有的词归类
- 然后制作一个押韵神器

押韵

很多各种各样的发音
- 也被所谓的韵
  - 进行分类

规则
- 起承转合
- 平仄规律
词是由字组成的
- 词是如何编码进入计算机的呢？

编码解码

两个汉字的unicode编码
占用四个字节

已知汉字
- 得到 unicode 值
- 叫做编码
- encode
已知 unicode 值
- 得到汉字
- 叫做解码
- decode

encode decode

把 str 字符串 encode
- 编码为 bytes 字节序列

把 bytes 字节序列 decode
- 解码为 str 字符串
编码和解码是互为逆运算的
绕了一圈又回来了 😁

填词也有填词的玩法

双押

三押

ascii 和 eval

ascii
- 得到字符串的unicode编码状态
eval
- 得到编码的字符串状态

这两个也是逆运算
- 好像也可以然绕一个圈
eval应该如何理解呢？

eval

help(eval)

eval
- 意思是evaluate
- 衡量
- 是一个内置的函数
- 在__builtins__这个module里面
根据全局变量和局部变量的值进行衡量
- 这里衡量的是
- 按unicode形式的编码好的字符串
实际编码的时候
- 是按照什么排序的呢？

unicode 汉字排序

应该是
- 部首检字法

中日韩汉字字符
- 有着不同的字型
- 但是算同一个unicode编码
这有什么好处吗？

不同字体

汉字的unicode编码不因中日韩而改变

日本字体能直接显示汉字

韩文字体

韩文字体也能直接显示

这些字体
- 是按照什么方式排序的呢？

偏旁部首检字法

都是跟着unicode中的汉字
- 使用部首检字法

禾木字旁的放到一起

按照偏旁的次序排列
- 其实偏门的汉字很多的
偏门的汉字
- 形成了小众火星文

火星文

在火星文转化器中
- 如果爱，请深爱
  - 洳淉嬡，埥堔嬡。
- 团长，我从此就是杀马特的人了，爱你呦
  - 團萇，莪苁泚僦湜摋骉特哋亾孒，嬡沵呦。
- 爱我不是你的错
  - 嬡莪芣湜沵哋措
- 你是我的翅膀
  - ༺༒妳ィ是俄棏翄艕ོ
- today is my birthday
  - 特嘚孓麥波斯嘚

这真的有点亚文化
- 用这个问人工智能
- 也会晕吧？！

火星文输入法

其实火星文就是
- 把常用汉字序号
- 和不常用的汉字的序号
- 对应了起来
文字转化就是
- 找到序号的映射

也是一种加密方法
- 你用这语料进行深度学习
- 学出来保证是一头雾水

总结

中文字符可以有各种分类方法
- 声母
  - 拼音检字法
- 韵母
  - 合辙押韵的分类
- 偏旁部首
  - 实际上unicode的排序方法

我们以前勇闯地下城时候获得了一把屠龙宝刀
- 给他镶上了❤️宝石
- 这桃心字符❤
- 应该如何理解？
我们下次再说！👋

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

405-802478-[趣味拓展]中文字符分类_序号_十三道大辙_字符编码解码_eval_火星文_CJK.sy.md

405-802478-[趣味拓展]中文字符分类_序号_十三道大辙_字符编码解码_eval_火星文_CJK.sy.md

unicode 中文字符分类

回忆上次内容

分布

后面的汉字

新分空间

两种转义

关系

ord 和 chr

办公文档的标准

win95之后

按照发音来归类

韵母归类

十三道大辙

更复杂的十八韵

押韵

编码解码

encode decode

双押

三押

ascii 和 eval

eval

unicode 汉字排序

不同字体

韩文字体

偏旁部首检字法

火星文

火星文输入法

总结

Files

405-802478-[趣味拓展]中文字符分类_序号_十三道大辙_字符编码解码_eval_火星文_CJK.sy.md

Latest commit

History

405-802478-[趣味拓展]中文字符分类_序号_十三道大辙_字符编码解码_eval_火星文_CJK.sy.md

File metadata and controls

unicode 中文字符分类

回忆上次内容

分布

后面的汉字

新分空间

两种转义

关系

ord 和 chr

办公文档的标准

win95之后

按照发音来归类

韵母归类

十三道大辙

更复杂的 十八韵

押韵

编码解码

encode decode

双押

三押

ascii 和 eval

eval

unicode 汉字排序

不同字体

韩文字体

偏旁部首检字法

火星文

火星文输入法

总结

更复杂的十八韵