Skip to content

Latest commit

 

History

History
26 lines (22 loc) · 924 Bytes

README.md

File metadata and controls

26 lines (22 loc) · 924 Bytes

此为百度第二代语音识别解码方案C++版本 CTC+BeamSearch+LM

1 ctc_beam_search_decoder.cpp中相关的解码参数

  1. num_frames:为wav的帧数
  2. num_classes:为分类的数目,比如建模单元为多少个汉字
  3. beam_size:beam的大小
  4. blank_id:ctc训练时,blank的id
  5. cutoff_prob:为概率剪枝参数
  6. alpha:为语言模型权重系数
  7. beta:为句子长度系数
  8. 输入:经声学模型后的softmax概率prob.txt,以及相应的字表vocab.txt
  9. 输出:解码结果

2 编译ctc_beam_search_decoder.cpp

1)开始编译: ./compile_decoder.sh

3 运行解码

./ctc_beam_search_decoder

4 解码结果

decode_result