匯入語料專案,目前語料都放在Taiwanese-Corpus Github,各專案詳細內容請洽各專案README。
會當參考服務的文件
- 形式:全漢、全羅
- 句數:28830(2018/07/18)
- 語料:Github
python manage.py 教典詞條
- 形式:全漢、全羅
- 句數:13835(2018/07/05)
- 語料:Github
python manage.py 教典例句
- 形式:漢羅、華語平行語料
- 句數:35017(2018/07/05)
- 語料:Github
python manage.py TGB通訊
- 形式:全羅、華語平行語料
- 句數:83544(2018/07/05)
- 語料:Github
python manage.py icorpus臺華平行新聞語料庫
- 形式:全漢、全羅
- 句數:61354句(2018/07/05)
- 語料:API
python manage.py 詞彙分級
- 形式:漢羅抑是全羅
- 段數:193071段, 其中漢羅128505段、全羅64566段(2018/07/24)
- 語料:Github
python manage.py 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
- 形式:漢羅、全羅
- 段數:67005段,其中62246段對會齊,4759段無法度對齊就用羅馬字(2018/07/30)
- 語料:Github
python manage.py 台語文數位典藏資料庫
- 形式:漢羅、全羅
- 段數:59300段,其中53593段對會齊,5707段無法度對齊就用羅馬字(2018/07/24)
- 語料:Github
python manage.py 教育部臺灣閩南語字詞頻調查工作
- 形式:漢羅、全羅
- 段數:43493段,其中31195段對會齊,12298段無法度對齊就用羅馬字(2018/07/31)
- 語料:Github
python manage.py 白話字文獻館
- 形式:羅馬字、華語漢字
- 句數:1770詞(2019/07/22)
- 語料:Github
python manage.py 台灣植物名彙
- 形式:羅馬字、華語漢字
- 句數:6515詞翻譯對照(2019/07/22)
- 語料:Github
python manage.py 台灣白話基礎語句
python manage.py 族語辭典0下載 Pangcah # 完整匯入。較慢,愛五六工
# python manage.py 族語辭典0下載 Pangcah --下載幾筆 10 # 匯入10筆就好,試驗用
python manage.py 族語辭典1轉檔 Pangcah
python manage.py 族語辭典2匯入 Pangcah
- 形式:全漢、全羅
- 詞數:
- 語者:王秀容
python manage.py 教典音檔0下載 dropbox # 20160926掠的版本
# python manage.py 教典音檔0下載 官網沓沓掠 # 較慢,愛一工
python manage.py 教典音檔1轉檔 # 轉全部mp3音檔做16000Hz的wav
# python manage.py 教典音檔1轉檔 --匯入幾筆 100 # 轉100筆就好,試驗用
python manage.py 教典音檔2匯入 # 完整匯入
# python manage.py 教典音檔2匯入 --匯入幾筆 100 # 匯入100筆就好,試驗用
- 形式:全漢、全羅
- 句數:150句
- 語者:王秀容
python manage.py 新北市900例句 --頻率 16000 # 原始音檔頻率44100Hz
準做欲用秀容老師的聲,請配合教典做伙用,無訓練會產生錯誤
形式:台華英辭典 詞數:
python manage.py 台華辭典
- pdf→純文字→臺灣言語資料庫yaml
- 臺語→臺語
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/閩南語卡拉OK正字字表.yaml
- 純文字→臺灣言語資料庫yaml
- 白話字→全漢全羅
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml
- html→臺灣言語資料庫yaml
- 臺語→臺語
- 988筆文本資料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/Linya-Huang_2014_taiwanesecharacters/咱的字你敢捌.yaml
- 允言整理過的doc→json→臺灣言語資料庫yaml
- 全漢全羅
0*
https://taiwanese-corpus.github.io/kok4hau7-kho3pun2/臺語國校仔課本.yaml
- 允言整理過的doc→json→臺灣言語資料庫yaml
- 全漢全羅
https://Taiwanese-Corpus.github.io/Pakhelke-1916_KoTan-1975_hiantaiekpun-2008_taiwanese-bible/新約聖經語料.yaml
遮的語料攏猶未提供臺灣言語資料庫yaml格式,毋過大部份攏好處理。語料專案照處理方法排:%8F%E8%B3%87%E6%96%99%E5%BA%AB.yaml`
- 荷華文語類參
- xls
- 厦荷詞典
- xls
- 駱嘉鵬老師華語臺語客語文件-字典、對應表
- xls
- Embree台英辭典
- xls
- 廈英大辭典
- doc→csv
- 台日大辭典台語譯本
- sql→csv
- 吳守禮《國臺對照活用辭典》電子化
- 專案內,有parser會當轉做jade格式
- 華台語文對譯
- html+xls+pdf
- (華語→)臺語
- 猶未整理的語料
- csv、xls…
- 網路語料
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moedict-data-hakka/臺灣客家語常用詞辭典網路版語料.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/hakka_elearning/臺灣客話詞彙資料庫語料.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/klokah_data_extract/族語E樂園.yaml
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/amis-data/dict-amis.yaml