config.yml

## 单位是毫秒

batch_size_s: 300 # 批处理的大小，如果显存不够而爆显存，可以调小
cut_line: 600  # 如果一个句子中，有两个字的间隔超过1000毫秒，以此把句子切成两句，防止长句过长
combine_line: 400 # 如果两个字的间隔小于400毫秒，就把它们合并到一句，可以增加连贯性，同时合并一些语气词。
punctuation_list: "，。；、？！,.;?!"

base_model: "./models/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"  # base
vad_model: "./models/speech_fsmn_vad_zh-cn-16k-common-pytorch" # 检测语音活动，自动分隔
punc_model: "./models/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"  # 标点恢复。

device: "cuda"

FFMPEG_PATH: "./ffmpeg-master-latest-win64-gpl-shared/bin/ffmpeg.exe"
max_workers: 1  # 可以根据需要调整并发线程数
# 建议设置成1,>1的话，会一次转录多个音频->字幕。可能你的显卡挨不住。
need_punc: False  # 是否需要标点恢复,如果不需要，建议max_sentence_length=10,若需要则max_sentence_length=20。你也不希望一个句子里面有20个字，没有标点，对吧？
max_sentence_length: 10  # 句子长度限制，大部分句子不会超过这个值。但非绝对，可以根据需要调整，文档整理时，可以调大一些（20），只是作为配音字幕，可以调小一些（10）。