Skip to content

Taiwanese-Corpus/hue7jip8

Repository files navigation

Huē-ji̍p

PyPI version Build Status Coverage Status

匯入語料專案,目前語料都放在Taiwanese-Corpus Github,各專案詳細內容請洽各專案README。

會當參考服務的文件

台語

  • 形式:全漢、全羅
  • 句數:28830(2018/07/18)
  • 語料:Github
python manage.py 教典詞條
  • 形式:全漢、全羅
  • 句數:13835(2018/07/05)
  • 語料:Github
python manage.py 教典例句
  • 形式:漢羅、華語平行語料
  • 句數:35017(2018/07/05)
  • 語料:Github
python manage.py TGB通訊
  • 形式:全羅、華語平行語料
  • 句數:83544(2018/07/05)
  • 語料:Github
python manage.py icorpus臺華平行新聞語料庫
  • 形式:全漢、全羅
  • 句數:61354句(2018/07/05)
  • 語料:API
python manage.py 詞彙分級
  • 形式:漢羅抑是全羅
  • 段數:193071段, 其中漢羅128505段、全羅64566段(2018/07/24)
  • 語料:Github
python manage.py 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
  • 形式:漢羅、全羅
  • 段數:67005段,其中62246段對會齊,4759段無法度對齊就用羅馬字(2018/07/30)
  • 語料:Github
python manage.py 台語文數位典藏資料庫
  • 形式:漢羅、全羅
  • 段數:59300段,其中53593段對會齊,5707段無法度對齊就用羅馬字(2018/07/24)
  • 語料:Github
python manage.py 教育部臺灣閩南語字詞頻調查工作
  • 形式:漢羅、全羅
  • 段數:43493段,其中31195段對會齊,12298段無法度對齊就用羅馬字(2018/07/31)
  • 語料:Github
python manage.py 白話字文獻館
  • 形式:羅馬字、華語漢字
  • 句數:1770詞(2019/07/22)
  • 語料:Github
python manage.py 台灣植物名彙
  • 形式:羅馬字、華語漢字
  • 句數:6515詞翻譯對照(2019/07/22)
  • 語料:Github
python manage.py 台灣白話基礎語句

服務文件

族語

python manage.py 族語辭典0下載 Pangcah # 完整匯入。較慢,愛五六工
# python manage.py 族語辭典0下載 Pangcah --下載幾筆 10 # 匯入10筆就好,試驗用
python manage.py 族語辭典1轉檔 Pangcah
python manage.py 族語辭典2匯入 Pangcah

語言代碼請參考程式。下載好的音檔在這。

台語

教典詞條音檔

  • 形式:全漢、全羅
  • 詞數:
  • 語者:王秀容
python manage.py 教典音檔0下載 dropbox # 20160926掠的版本
# python manage.py 教典音檔0下載 官網沓沓掠 # 較慢,愛一工
python manage.py 教典音檔1轉檔 # 轉全部mp3音檔做16000Hz的wav
# python manage.py 教典音檔1轉檔 --匯入幾筆 100 # 轉100筆就好,試驗用
python manage.py 教典音檔2匯入 # 完整匯入
# python manage.py 教典音檔2匯入 --匯入幾筆 100 # 匯入100筆就好,試驗用
  • 形式:全漢、全羅
  • 句數:150句
  • 語者:王秀容
python manage.py 新北市900例句 --頻率 16000 # 原始音檔頻率44100Hz

準做欲用秀容老師的聲,請配合教典做伙用,無訓練會產生錯誤

形式:台華英辭典 詞數:

python manage.py 台華辭典
  • pdf→純文字→臺灣言語資料庫yaml
  • 臺語→臺語
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml
  • 純文字→臺灣言語資料庫yaml
  • 白話字→全漢全羅
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml
  • html→臺灣言語資料庫yaml
  • 臺語→臺語
  • 988筆文本資料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml
  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅 0* https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml
  • 允言整理過的doc→json→臺灣言語資料庫yaml
  • 全漢全羅
  • https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml

猶未整理

遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`

客家話

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml

猶未整理

族語

python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml

猶未整理