show | version | enable_checker |
---|---|---|
step |
1.0 |
true |
- unicode字符集
- 将世界 所有字符 进行编码
- 统一了编码世界
- 所有汉字里面
- 第一个汉字
- 是什么呢?
- 第一个字就是一
- 一切本是混沌
- 河出图洛出书
- 一画开天
- 分出阴阳
- 一生二
- 太极生两仪
- unicode
- 把 一 放在 中文第一个
- 感受先人 文化之源
- 分在几个 blocks 里面
- 最常用的在0x4E00-0x9FBF 35M
- 这个范围就是中日韩(CJK)字符的范围
- 也属于 2个字节 以内
- 字符数量也很多
- 最常用的在0x4E00-0x9FBF 35M
- 不过由于汉字数量太多
- 原来给的空间不够用了
- 又给CJK分配了几个扩展空间
- Extension
- 我们 对比一下
- 原来 \x表示法 和 \u表示法
- 原来
ascii
字符a
可以用\x61
表示\x61
对应十六进制的(61)十六进制- 占用
一
个字节 - 使用
\x
进行转义
- 现在
unicode
字符一
可以用\u4e00
表示\u4e00
对应十六进制的(4e00)十六进制- 占用
两
个字节 - 使用
\u
进行转义
- ascii 字符也能用
\u
的方式进行转义
\u
必须得4位16进制数- 不过这样有点浪费空间和带宽
- 序号、字节状态和字符是什么关系呢?
- 序号、字节状态 和 字符
- 这三个东西
- 构成一个闭环
- 像ascii一样
- 我们现在再看一下
- ord和chr的帮助
- ord将字符的unicode编码转化为单字字符串
- chr 将[0,0x10ffff] 转化为unicode 单字字符串
- 序号是unicode的序号
- 在[0,127]范围内
- ascii 和 unicode 重合
- unicode 兼容 ascii
- unicode 形成了主流 之后
- 会吸取周围的小支流
- 类似的还有办公文档的标准
- dos时代之后
- win3.1的年代
- 微软推出了字体处理软件
- 金山在wps的基础上
- 推出了盘古系统
- win95之后
- 图形用户界面都基于
- 微软的制订的规则标准 进行开发
- 微软自身也有office系列
- 客观上
- 微软也就制定了办公软件的标准
- 微软office系列
- 形成了 主流 之后
- wps、中文之星 只能按照去兼容它的格式
- 失去了定义标准的可能
- 规则一旦形成
- 就会对后来的事物产生影响
- 汉字
- 也有各种 归类规则标准
- 可以按照发音来归类
- 甚至可以生成语音...
- 还可以进一步归类吗?
- 押韵助手
- 可以用来找到押韵词汇
- 字典用的是拼音排序
- 按照声母的顺序
- 大辙按的是韵母
- 这样就可以更方便找相同韵母的汉字了
大辙 | 对应十八韵 |
---|---|
一发花 | 十八韵的一麻 |
二梭波 | 十八韵的二波三歌 |
三乜斜 | 十八韵的四皆 |
四衣欺 | 十八韵的五支、六儿、七齐 |
五灰堆 | 十八韵的八微 |
六怀来 | 十八韵的九开 |
七姑苏 | 十八韵的十姑 |
八衣欺 | 十八韵的十一鱼 |
九由求 | 十八韵的十二侯 |
十遥条 | 十八韵的十三豪 |
十一言前 | 十八韵的十四寒 |
十二人臣 | 十八韵的十五痕 |
十三汪洋 | 十八韵的十六唐 |
十四中东 | 十八韵的十七庚和十八东 |
- 四、八其实可以合成一道大辙
- 如果要双押
- 就得找词组韵母一致的
- 其实都可以把所有的词归类
- 然后制作一个押韵神器
- 很多各种各样的发音
- 也被所谓的韵
- 进行分类
- 也被所谓的韵
-
规则
- 起承转合
- 平仄规律
-
词是由字组成的
- 词是如何编码进入计算机的呢?
- 两个汉字的unicode编码
- 占用四个字节
- 已知汉字
- 得到 unicode 值
- 叫做编码
- encode
- 已知 unicode 值
- 得到汉字
- 叫做解码
- decode
- 把 str 字符串 encode
- 编码 为 bytes 字节序列
-
把 bytes 字节序列 decode
- 解码 为 str 字符串
-
编码和解码 是 互为逆运算 的
-
绕了一圈又回来了 😁
- 填词也有填词的玩法
- ascii
- 得到字符串的unicode编码状态
- eval
- 得到编码的字符串状态
- 这两个也是逆运算
- 好像也可以然绕一个圈
- eval应该如何理解呢?
- help(eval)
- eval
- 意思是evaluate
- 衡量
- 是一个内置的函数
- 在
__builtins__
这个module里面
- 根据全局变量和局部变量的值进行衡量
- 这里衡量的是
- 按unicode形式的编码好的字符串
- 实际编码的时候
- 是按照什么排序的呢?
- 应该是
- 部首检字法
- 中日韩 汉字字符
- 有着不同的字型
- 但是 算同一个unicode编码
- 这有什么好处吗?
- 汉字的unicode编码不因中日韩而改变
- 日本字体 能直接显示汉字
- 韩文字体 也能直接显示
- 这些字体
- 是按照什么方式排序的呢?
- 都是 跟着unicode中的汉字
- 使用 部首检字法
- 禾木字旁的放到一起
- 按照偏旁的次序排列
- 其实偏门的汉字很多的
- 偏门的汉字
- 形成了 小众火星文
- 在火星文转化器中
- 如果爱,请深爱
- 洳淉嬡,埥堔嬡。
- 团长,我从此就是杀马特的人了,爱你呦
- 團萇,莪苁泚僦湜摋骉特哋亾孒,嬡沵呦。
- 爱我不是你的错
- 嬡莪芣湜沵哋措
- 你是我的翅膀
- ༺༒妳ィ是俄棏翄艕ོ
- today is my birthday
- 特嘚孓麥波斯嘚
- 如果爱,请深爱
- 这真的有点亚文化
- 用这个问人工智能
- 也会晕吧?!
- 其实火星文 就是
- 把 常用汉字序号
- 和 不常用的汉字的序号
- 对应了起来
- 文字转化 就是
- 找到 序号的映射
- 也是一种 加密方法
- 你用这语料进行深度学习
- 学出来 保证是一头雾水
- 中文字符可以有各种分类方法
- 声母
- 拼音检字法
- 韵母
- 合辙押韵的分类
- 偏旁部首
- 实际上unicode的排序方法
- 声母
-
我们以前勇闯地下城时候获得了一把屠龙宝刀
- 给他镶上了❤️宝石
- 这 桃心字符❤
- 应该如何理解?
-
我们下次再说!👋