Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

漢字標準化? #4

Open
ztl8702 opened this issue Apr 3, 2018 · 4 comments
Open

漢字標準化? #4

ztl8702 opened this issue Apr 3, 2018 · 4 comments

Comments

@ztl8702
Copy link
Collaborator

ztl8702 commented Apr 3, 2018

Unicode有重複編碼的問題,有些還是很常見的字。

參見 https://ctext.org/faq/normalization/zh

按類似的方法標準化?

@only3km
Copy link
Owner

only3km commented Apr 3, 2018

從單純的錄入的角度出發,一些字雖然重複編碼,但已存在字形差異,不建議直接籠統的標準化。
例如:爲 (U+7232) vs 為 (U+70BA)。
原文用哪個字形就選用符合的那個字錄入比較好。在進一步使用的場景下,再擴展或遵從特定標準進行篩選,例如:Rime碼表建議「爲」和「為」兼收。

@ztl8702
Copy link
Collaborator Author

ztl8702 commented Apr 3, 2018

我指的是基本上字形無差異的重複編碼。比如:
弄 U+5F04 (Glyphwiki) 和 弄 U+F943 (Glyphwiki)

https://ctext.org/faq/normalization/zh 列出的很多是這種類型的重複編碼。

@ztl8702
Copy link
Collaborator Author

ztl8702 commented Apr 4, 2018

  • 爲 (U+7232) vs 為 (U+70BA)
  • 弄 (U+5F04) vs 弄 (U+F943)

兩對在 Unihan Database 裏面都被標爲(互爲) kZVariant。不過從實際來看兩對的差異程度並不相同。這樣變相而言,意味着我們需要根據實際使用場景定製一個標準化表。

比如規定:“對DFD,保留 爲 (U+7232) 、 為 (U+70BA)對立,合併 弄 (U+5F04) 、 弄 (U+F943)”。然後用一個腳本去 enforce 這個規定。

我舉 ctext 的例子也是想說明他們也等同於在人工維護一個適用於他們使用場景的標準化表。

@only3km
Copy link
Owner

only3km commented Apr 6, 2018

支持。
特別是屬於CJK Compatibility Ideograph的字符大部分字形重複,弄 (U+F943) 就是其中之一。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants