在现有的预训练模型的基础上用自己的数据继续预训练的流程 #9

652994331 · 2020-11-17T23:59:57Z

您好，可以说一下使用自己的数据在比如哈工大的中文预训练模型的基础上继续预训练的流程是什么样的吗，按照自己的理解使用了那个prepare_lm_data_ngrams.py 在 data-dir/corpus/train 下产生了很多 electra_file_x.json 和 electra_file_x_metrics.json 其中 electra_file_x 是空文件， metric 文件显示 example:0 max_sequence_length:128. ps:我的自己的原始预训练文件 txt格式房子啊 data-dir/corpus/train目录下是bert 模型的预训练数据格式. 谢谢

652994331 mentioned this issue Nov 24, 2020

发现了一个多GPU训练的小BUG #8

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在现有的预训练模型的基础上用自己的数据继续预训练的流程 #9

在现有的预训练模型的基础上用自己的数据继续预训练的流程 #9

652994331 commented Nov 17, 2020

在现有的预训练模型的基础上用自己的数据继续预训练的流程 #9

在现有的预训练模型的基础上用自己的数据继续预训练的流程 #9

Comments

652994331 commented Nov 17, 2020