流式模式下语音更完美的朗读 #654

lucasjinreal · 2024-11-17T07:38:36Z

更新了一版感觉流式比之前好很多，没有巨大的爆破音。

但是仔细分析发现，还是会有非常细的鼓励爆音。

output_api.wav.webm

波形里面大概就是孤立的一个pillar。

请问有什么办法再进一步的消除吗？感觉得加一个流式平滑

注：上面的音频是流式下每个chunk组合在一起的音频。这里说的爆破音不是发音一大段莎莎的，这个可以忽略，主要是有极短的波的几下，人类应该可以听出来。对应波形的就是那一个高柱音高

wang-TJ-20 · 2024-11-17T13:18:52Z

@lucasjinreal hi,咨询下你更新了一版指的是更新了哪块，我也遇到了爆破音

cpken · 2024-11-18T01:30:49Z

你这个是克隆吗？

lucasjinreal · 2024-11-18T02:20:30Z

这个就是直出，一方面我们可以等官方发布真正的流式版本，但是效果和时间可能都存在很大的不确定性。看看社区有没有有好的办法解决？

从音幅来看，似乎加一个低通滤波器可以，不知社区有没有小伙伴来尝试一下，我现在没有机器调了

agchaowanhui · 2024-11-19T08:29:40Z

    chunk_bytes = chunk.cpu().numpy().tobytes()

    buf = io.BytesIO()
    buf.write(chunk_bytes)

    buf.seek(0)
    
    可以直接把数据转成bytes然后给到io，不用torchaudio.save，我这样做以后就没爆破音了

cpken · 2024-11-19T08:52:33Z

    chunk_bytes = chunk.cpu().numpy().tobytes()

    buf = io.BytesIO()
    buf.write(chunk_bytes)

    buf.seek(0)
    
    可以直接把数据转成bytes然后给到io，不用torchaudio.save，我这样做以后就没爆破音了

third_party/AcademiCodec/academicodec/models/encodec/distributed/distributed.py

    # 请问是调整这段代码吗？
    for size, tensor in zip(size_list, tensor_list):
        buffer = tensor.cpu().numpy().tobytes()[:size]
        data_list.append(pickle.loads(buffer))

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

流式模式下语音更完美的朗读 #654

流式模式下语音更完美的朗读 #654

lucasjinreal commented Nov 17, 2024 •

edited

Loading

wang-TJ-20 commented Nov 17, 2024 •

edited

Loading

cpken commented Nov 18, 2024

lucasjinreal commented Nov 18, 2024

agchaowanhui commented Nov 19, 2024

cpken commented Nov 19, 2024

流式模式下语音更完美的朗读 #654

流式模式下语音更完美的朗读 #654

Comments

lucasjinreal commented Nov 17, 2024 • edited Loading

wang-TJ-20 commented Nov 17, 2024 • edited Loading

cpken commented Nov 18, 2024

lucasjinreal commented Nov 18, 2024

agchaowanhui commented Nov 19, 2024

cpken commented Nov 19, 2024

lucasjinreal commented Nov 17, 2024 •

edited

Loading

wang-TJ-20 commented Nov 17, 2024 •

edited

Loading