Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[COMMENT] Transkriptionen #2

Open
rstockm opened this issue Jul 22, 2023 · 0 comments
Open

[COMMENT] Transkriptionen #2

rstockm opened this issue Jul 22, 2023 · 0 comments
Labels
enhancement New feature or request

Comments

@rstockm
Copy link
Member

rstockm commented Jul 22, 2023

Whisper als VST-Plugin

  • mittelfristig wäre das ein sehr lohnendes Ziel, die Vorteile werden korrekt beschrieben.
  • das VST Plugin müsste ja eine lokale Whisper-Installation vernsteuern, über den "Realtime" Modus von Whisper. Das sind eine Menge Abhängigkeiten, unklar ob das technisch überhaupt geht
  • Das Performance Problem ist knifflig. Generell ist auf Apple Silicon vermutlich genug Wumms vorhanden um Realtime-Erkennung laufen zu lassen ohne die Ressourcen zu sehr zu beanspruchen. Das wird aber anders aussehen, wenn wir über mehrere Spuren parallel reden - etwa 4 parallele Jobs werden auch die M-CPUs tüchtig unter Stress setzen.
  • Lösung A wäre hier nur die Summe zu nehmen - mit den Einschränkungen bei der Erkennung und dass man es nicht gleich in die Tracks rendern kann.
  • Bessere Lösung: man lässt es nach der Aufnahme als Hintergrundjob laufen und der Volltext "läuft in die Aufnahme rein" während man schon Schneidet. Das wäre vermutlich ein gangbarer Weg. Erfordert aber eine Logik, die bereits erfolgte Schnitte berücksichtigt, das könnte viel Aufwand werden für wenig echten Mehrwert

Erkennung nach Aufnahme

  • Alles richtig beschrieben

wie programmiert man eine schicke Progressbar, damit man
den User:Innen nicht nen hässliches Konsolenfenster vorsetzt.

Verschiedene Wege sind hier denkbar - sehr einfach: eine Log-Datei, in die niedrigschwellig der State geschrieben wird, die wird regelmäßig ausgelesen. Da sich die Geschwindigkeit über den odcast hinweg nicht ändert, kann man auch mit einer Hochrechnung nach wenigen Sekunden arbeiten.

Importieren als Takemaker

  • die erscheinen ind er Tat perfekt, das dürfte alternativlos sein. Es gibt ja sogar beim Kapitelmarken-Editor rechts unten auch einen Tab Takemarker, in denen man sogar nach denen suchen kann um direkt das passende Item anzuspringen. Da müssen wir 0 selber programmieren.

Wortgenaue Marker

  • ich verstehe den Punkt, sehe hier aber ein großes Problem: nach meinen bisherigen Tests sind die Zeitpositionen die aus Whisper rausfallen wenn man auf wortgenau stellt nicht annähernd exakt, sondern verschieben sich gerne um bis zu 2 Sekunden nach vorne oder hinten (satzgenau genau so, aber da fällt es weniger ins Gewicht).
  • das macht m.E. ein automatisiertes, dem Schnitt wirklich dienendes Mapping Audio zu Takemarker unmöglich.
  • die Lösung wäre m.E. Whisper nach dem Schnitt noch einmal drüber laufen zu lassen auf den geschnittenen Spuren beim Export.

Kann man aber sicher nochmal probieren.

Volltextsuche im geöffneten Projekt

  • das Feature bietet REAPER uns schon, siehe oben.

Weitere Volltext-Features: alles ja, das ist dann jeweils relativ einfach umzusetzen.

@rstockm rstockm added the enhancement New feature or request label Jul 22, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

1 participant