GTCRN速度挺快，就行效果不太行，感觉效果不是很明显 #2

Culturenotes · 2024-12-17T09:28:29Z

No description provided.

DakeQQ · 2024-12-17T09:58:26Z

是的，这是一款超轻量模型，它在实时场景中非常有用。在我看来，这个模型并不是直接为人耳服务的，而是为 ASR 模型设计的。添加这个模型后，实时字幕转录任务将会有显著提升。

这个 GTCRN-ONNX 版本的输出质量与官方版本相同。我们专注于提升推理速度，而无法改进模型的输出质量，除非对其进行微调。您可以在原始仓库中提出质量问题。

shenbuguanni · 2024-12-25T03:02:44Z

是的，这是一款超轻量模型，它在实时场景中非常有用。在我看来，这个模型并不是直接为人耳服务的，而是为 ASR 模型设计的。添加这个模型后，实时字幕转录任务将会有显著提升。

这个 GTCRN-ONNX 版本的输出质量与官方版本相同。我们专注于提升推理速度，而无法改进模型的输出质量，除非对其进行微调。您可以在原始仓库中提出质量问题。

ASR前端直接使用AI降噪并不会带来WER的改善，甚至更糟糕。

DakeQQ · 2024-12-25T03:27:14Z

@shenbuguanni

您提到 ASR 前端直接使用降噪可能不会改善 WER，我非常理解这个观点。但我想补充的是，AI 降噪模型的意义不仅限于直接优化 ASR 的 WER。

例如，GTCRN 的优势还体现在对 VAD（语音活动检测）性能的提升上。对于实时字幕转录任务，我们尝试将 GTCRN 与 FSMN_VAD 和 SenseVoiceSmall 结合，发现这种组合确实显著提升了整体的输出质量。

其中，GTCRN 提供了更干净的输入信号，使得 VAD 模型能够更精准地检测语音活动，从而为后续的 ASR 和 SenseVoiceSmall 处理创造了更好的条件。虽然降噪模型对 WER 的改善有限，但对整个任务链条的稳定性和输出质量的提升是显而易见的。

因此，我认为，像 GTCRN 这样的降噪模型在某些任务场景中是具有实际意义的，尤其是当我们需要兼顾实时性与整体体验时。当然，如果您有其他更优的实践或数据，欢迎继续探讨！

DakeQQ closed this as completed Jan 5, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GTCRN速度挺快，就行效果不太行，感觉效果不是很明显 #2

GTCRN速度挺快，就行效果不太行，感觉效果不是很明显 #2

Culturenotes commented Dec 17, 2024

DakeQQ commented Dec 17, 2024

shenbuguanni commented Dec 25, 2024

DakeQQ commented Dec 25, 2024

GTCRN速度挺快，就行效果不太行，感觉效果不是很明显 #2

GTCRN速度挺快，就行效果不太行，感觉效果不是很明显 #2

Comments

Culturenotes commented Dec 17, 2024

DakeQQ commented Dec 17, 2024

shenbuguanni commented Dec 25, 2024

DakeQQ commented Dec 25, 2024