Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

GTCRN速度挺快,就行效果不太行,感觉效果不是很明显 #2

Closed
Culturenotes opened this issue Dec 17, 2024 · 3 comments

Comments

@Culturenotes
Copy link

No description provided.

@DakeQQ
Copy link
Owner

DakeQQ commented Dec 17, 2024

是的,这是一款超轻量模型,它在实时场景中非常有用。在我看来,这个模型并不是直接为人耳服务的,而是为 ASR 模型设计的。添加这个模型后,实时字幕转录任务将会有显著提升。

这个 GTCRN-ONNX 版本的输出质量与官方版本相同。我们专注于提升推理速度,而无法改进模型的输出质量,除非对其进行微调。您可以在原始仓库中提出质量问题。

@shenbuguanni
Copy link

是的,这是一款超轻量模型,它在实时场景中非常有用。在我看来,这个模型并不是直接为人耳服务的,而是为 ASR 模型设计的。添加这个模型后,实时字幕转录任务将会有显著提升。

这个 GTCRN-ONNX 版本的输出质量与官方版本相同。我们专注于提升推理速度,而无法改进模型的输出质量,除非对其进行微调。您可以在原始仓库中提出质量问题。

ASR前端直接使用AI降噪并不会带来WER的改善,甚至更糟糕。

@DakeQQ
Copy link
Owner

DakeQQ commented Dec 25, 2024

@shenbuguanni

您提到 ASR 前端直接使用降噪可能不会改善 WER,我非常理解这个观点。但我想补充的是,AI 降噪模型的意义不仅限于直接优化 ASR 的 WER。

例如,GTCRN 的优势还体现在对 VAD(语音活动检测)性能的提升上。对于实时字幕转录任务,我们尝试将 GTCRN 与 FSMN_VAD 和 SenseVoiceSmall 结合,发现这种组合确实显著提升了整体的输出质量。

其中,GTCRN 提供了更干净的输入信号,使得 VAD 模型能够更精准地检测语音活动,从而为后续的 ASR 和 SenseVoiceSmall 处理创造了更好的条件。虽然降噪模型对 WER 的改善有限,但对整个任务链条的稳定性和输出质量的提升是显而易见的。

因此,我认为,像 GTCRN 这样的降噪模型在某些任务场景中是具有实际意义的,尤其是当我们需要兼顾实时性与整体体验时。当然,如果您有其他更优的实践或数据,欢迎继续探讨!

@DakeQQ DakeQQ closed this as completed Jan 5, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants