-
Notifications
You must be signed in to change notification settings - Fork 8
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
漢字標準化? #4
Comments
從單純的錄入的角度出發,一些字雖然重複編碼,但已存在字形差異,不建議直接籠統的標準化。 |
我指的是基本上字形無差異的重複編碼。比如: https://ctext.org/faq/normalization/zh 列出的很多是這種類型的重複編碼。 |
兩對在 Unihan Database 裏面都被標爲(互爲) kZVariant。不過從實際來看兩對的差異程度並不相同。這樣變相而言,意味着我們需要根據實際使用場景定製一個標準化表。 比如規定:“對DFD,保留 爲 (U+7232) 、 為 (U+70BA)對立,合併 弄 (U+5F04) 、 弄 (U+F943)”。然後用一個腳本去 enforce 這個規定。 我舉 ctext 的例子也是想說明他們也等同於在人工維護一個適用於他們使用場景的標準化表。 |
支持。 |
Unicode有重複編碼的問題,有些還是很常見的字。
參見 https://ctext.org/faq/normalization/zh
按類似的方法標準化?
The text was updated successfully, but these errors were encountered: