将魔法禁书目录系列小说转换为语料库,供MisakaAI模块使用
中文语料来源于魔法禁书目录X系列,在这里特别感谢!
git clone 'https://github.com/ChinaMisakaNetwork/Index-training.git'
cd Index-training
git clone 'https://github.com/1204244136/index-X'
python main.py/python3 main.py
将在根目录下生成index.txt
文件,此文件为原始文本。
根目录下生成index-cut.txt
,此文件为分词后的文本。
TODO
- 将魔法禁书目录X系列的小说
.epub
转换为.txt
格式 - 提取专有名词,建立词库
- 使用jieba分词工具分词
已完成,但效果不是很好,待优化...
- 将魔法禁书目录X系列的小说
.epub
转换为.txt
格式 - 分析专有名词,建立词典
TODO