Add runtime support for wespeaker models #516

csukuangfj · 2024-01-04T11:21:32Z

Usage

Download test files

wget https://github.com/k2-fsa/sherpa-onnx/releases/download/speaker-recongition-models/zh_cnceleb_resnet34.onnx

wget https://huggingface.co/openspeech/wespeaker-models/resolve/main/test_wavs/00001_spk1.wav
wget https://huggingface.co/openspeech/wespeaker-models/resolve/main/test_wavs/00024_spk1.wav
wget https://huggingface.co/openspeech/wespeaker-models/resolve/main/test_wavs/00010_spk2.wav

Test code

#!/usr/bin/env python3

import sherpa_onnx
import torchaudio
import torch


def load_audio(filename):
    samples, sample_rate = torchaudio.load(filename)
    return samples[0].contiguous().numpy(), sample_rate


def main():
    model = "./zh_cnceleb_resnet34.onnx"
    config = sherpa_onnx.SpeakerEmbeddingExtractorConfig(
        model=model,
        num_threads=1,
        debug=True,
        provider="cpu",
    )
    print(config)
    extractor = sherpa_onnx.SpeakerEmbeddingExtractor(config)

    samples0, sample_rate0 = load_audio("./00001_spk1.wav")
    samples1, sample_rate1 = load_audio("./00024_spk1.wav")
    #  samples1, sample_rate1 = load_audio("./00010_spk2.wav")

    s0 = extractor.create_stream()
    s1 = extractor.create_stream()

    s0.accept_waveform(sample_rate=sample_rate0, waveform=samples0)
    s1.accept_waveform(sample_rate=sample_rate1, waveform=samples1)

    while extractor.is_ready(s0):
        embedding0 = extractor.compute(s0)

    while extractor.is_ready(s1):
        embedding1 = extractor.compute(s1)

    embedding0 = torch.tensor(embedding0)
    embedding1 = torch.tensor(embedding1)
    print(torch.nn.functional.cosine_similarity(embedding0, embedding1, dim=0))


if __name__ == "__main__":
    main()

TODOs

VAD + speaker embedding model for speaker diarization (who spoke when)
VAD + speaker embedding model + ASR (who spoke when and what)
Android Demo
APIs for other languages, e.g., C/Go/C#, etc.

csukuangfj · 2024-01-09T15:07:49Z

A demo video for this pull-request can be found at
https://www.bilibili.com/video/BV1nC4y1Y7Kk/

(Note that it is in Chinese.)

csukuangfj added 11 commits January 4, 2024 17:19

Begin to add runtime support for wespeaker models

51a8eac

add wespeaker model

65c5e50

First working version

ac5ae92

fix style issues

688e09e

Add config to voice activity detector

9ee5305

Add speaker embedding manager for speaker verification and recognition.

9716638

Add python wrapper for speaker embedding manager

b9e1005

Release GIL for speaker embedding manager

c289a11

Add a python example for speaker identification

77e30c3

fix style issues

67b056b

fix typos

8450032

csukuangfj merged commit 5526691 into k2-fsa:master Jan 9, 2024
2 of 3 checks passed

csukuangfj deleted the speaker-embedding-extractor branch January 9, 2024 14:06

csukuangfj mentioned this pull request Apr 16, 2024

output scores for speaker identification #769

Closed

XiaYucca pushed a commit to XiaYucca/sherpa-onnx that referenced this pull request Jan 9, 2025

Add runtime support for wespeaker models (k2-fsa#516)

7d37009

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add runtime support for wespeaker models #516

Add runtime support for wespeaker models #516

csukuangfj commented Jan 4, 2024

csukuangfj commented Jan 9, 2024

Add runtime support for wespeaker models #516

Add runtime support for wespeaker models #516

Conversation

csukuangfj commented Jan 4, 2024

Usage

Download test files

Test code

TODOs

csukuangfj commented Jan 9, 2024