Skip to content

台灣CNS11643全字庫開放資料集,包含字型檔案、對照表、屬性資料和發音資料。

Notifications You must be signed in to change notification settings

yintzuyuan/CNS11643-OpenData

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

CNS11643 全字庫開放資料 - 對照表與屬性資料

簡介

本儲存庫包含台灣CNS11643全字庫開放資料中的對照表與屬性資料。CNS11643是台灣的國家標準交換碼,這些資料對中文資訊處理和研究極為有用。

資料來源

資料來自台灣政府的公開資料平台,最後更新日期為2024年8月15日。

注意事項

本儲存庫僅包含對照表與屬性資料。原始資料集還包含字型檔案(楷體和宋體)以及中文字音檔。如需完整資料集,請訪問CNS11643全字庫官方網站台灣政府開放資料平台下載。

儲存庫結構

  • Tables/: 對照表與屬性資料
    • MapingTables/: 各種編碼對照表
      • Big5/: CNS對Big5的對照表
      • Unicode/: CNS對Unicode的對照表
      • 地政/: 25個縣市的對照表(縣市未合併及升格前)
      • 其他特殊對照表:DCI、FIN、INC、TAX等
    • Properties/: 字符屬性資料
      • 包含注音、倉頡、筆畫數、部首、拼音、部件等資料表格
  • release.json: 發布說明和更新日誌

主要檔案說明

  1. 對照表(MapingTables):

    • CNS與Big5、Unicode、地政系統等的對照
    • 特殊領域對照表(如公路監理、稅務、工商內碼等)
  2. 屬性資料(Properties):

    • CNS_phonetic.txt: 注音資料
    • CNS_cangjei.txt: 倉頡碼資料
    • CNS_stroke.txt: 筆畫數資料
    • CNS_radical.txt: 部首資料
    • CNS_pinyin.txt: 拼音資料
    • CNS_component.txt: 部件資料
    • CNS_strokes_sequence.txt: 筆順資料
    • CNS_source.txt: 字形來源資料

使用說明

  1. clone 或下載本儲存庫
  2. 對照表和屬性資料可用於開發或研究目的
  3. 詳細的資料格式說明請參考各資料夾中的說明文件

授權資訊

使用本資料時,請遵守台灣政府對開放資料的使用規範。

更新頻率

資料集通常每月更新一次。請定期檢查是否有新的更新。

相關連結

About

台灣CNS11643全字庫開放資料集,包含字型檔案、對照表、屬性資料和發音資料。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published