Este proyecto se basa en este Google Colab transcripts with speaker names. Realize mejoras para mejorar la precision y generar archivos de texto. Dividí el archivo entrante de audio y lo procese en fragmentos para corregir un error de transcripción que afectaba a audios demasiado extensos.
Este proyecto esta diseñado para ser ejecutado en Google Colab con sus ambientes de GPU.
- Utilizar el modo GPU de Google Colab, Recomendado T4 GPU. Esto se encuentra en "Entorno de ejecución/Cambiar tipo de entorno de ejecución/T4 GPU" (https://www.tutorialspoint.com/google_colab/google_colab_using_free_gpu.htm).
- La transcripción se guardara en formato TXT y HTML y se descargaran automáticamente, puede que el explorador pida permiso de multi descargas.
- Cambie el numero de hablantes según el audio entregado.
- Seleccione un modelo más grande si tu quieres más precision y un modelo menor si tu quieres que se ejecute rápidamente. Para T4_GPU se puede usar el modelo de mayor tamaño (más información).
- Si el lenguaje es ingles, selecciona el idioma, sino el general funciona bastante bien, especialmente en español.
- Se sube un audio por el sistema de Google Colab, este proceso puede tardar bastante según el tamaño del archivo.
- Se instalaran los paquetes necesarios para el funcionamiento y cargara el modelo en memoria de video.
- Se separara el audio en trozos que se procesaran individualmente para mejorar la precision de la transcripción. Esto se realiza con PyDub.
- Se procesaran lada trozo en varios segmentos de audio y generaran las transcripciones. Esto se realiza con Whisper de OpenAI.
- Se reagruparan los trozos de audio y texto, para su procesamiento de detección de hablantes. Esto se realiza mediante CLusters de aglomeración.
- Se generara un archivo de texto y otro de html para una mejor lectura.
Espero que te sea util. Dime si esto puede ser mejorado ❤️.