Zum Inhalt der Seite gehen


Empfehlungen für Audio-Transkriptions-Dienste?

Also, nehmen wir an, es wäre Euer Job, regelmäßig Protokolle zu Terminen mit unterschiedlichen Teilnehmer*innen zu erstellen: Wie würdet Ihr das machen?

(Gern Tipps, die auf realen Erfahrungen basieren.)
Whisper von OpenAI. Gibt es auch als "offline" Variante von Drittanbietern, auch kostenlos. Je nach Betriebssystem gibt es da unterschiedliche Optionen.
Absolute Zustimmung. Whisper hat mich in der Qualität so sehr beeindruckt, dass ich es unbedingt empfehle: https://pypi.org/project/openai-whisper/
Wie unterscheidet sich das hiervon https://www.whispertranscribe.com/ ?
Vermutlich nicht viel. Whisper hat aber 6 unterschiedliche Modelle, von „tiny“ bis „large“, die je nach Modell unterschiedliche Ergebnisse liefern. Tiny und small sind eventuell nicht ausreichend. Kann so nicht sagen, welche Modelle der spezielle Dienst im Angebot hat. „Medium“ sollte es aber für umfangreichere Texte schon sein.
Kostenlos und lokal. Ich nutze manchmal noScripe als GUI dafür. https://github.com/kaixxx/noScribe

Output braucht trotzdem viel Überarbeitung, wenn es korrekt sein soll.
wenn die Daten durch eine 3rd party verarbeitet werden dürfen ist auch dieses Google Colab Notebook nicht schlecht: https://colab.research.google.com/github/keatonkraiger/Whisper-Transcription-Tutorial/blob/main/Whisper_Tutorial.ipynb

Google stellt darüber kostenlosen GPU compute bereit und du hast die volle Kontrolle über das Modell.

Vor allem das Large Modell liefert auch mehrsprachig echt gute Ergebnisse.
Tipp: Bitte Sprachen und ob viel Dialekt etc dabei ist, das spielt eine große Rolle. Mehr Info generell dazu was und wieviel transkribiert wird wäre für Infogebende sinnvoll.
Auch wenn es nicht wirklich deine Frage beantwortet: Ich schreibe sehr regelmäßig Protokolle von Vorstandssitzungen etc. - keine Wortprotokolle, aber zentrale Aussagen der jeweiligen Redebeiträge. Das klappt bei mir ganz gut mit Mittippen während der Sitzung (ok, ich schreibe schnell). Ich vermute, ich würde deutlich länger brauchen, wenn ich ein Transkript einer Audioaufnahme aus gesprochener Sprache in Protokollform bringen müsste.
Mein Vorgehen enthält sehr viel lokales Gefrickel.

(Ich hatte mal den seltsamen Job, der Verwaltung KI zu erklären, ohne dass ich denen aber irgendwelche Dienste wegen Compliance empfehlen konnte)

Also wurde es etwas python und Whisper (eigentliche Transkription) mit pyannote (Speaker Diarization)

Kann aber nicht sagen, dass das besonders einfach ist, aber du weißt halt, was mit deinen Audiodateien passiert.
Ich nutze beruflich Demodesk und bin begeistert. Laut offizieller Webseite (https://demodesk.com/) wird der Datenschutz wohl ernst genommen: "Demodesk is built and hosted in secure data centers. Fully compliant with GDPR and all other data privacy and compliance regulations.". Da die Lösung aber nicht Open-Source ist, kann ich das leider nicht nachprüfen.
sofern du örr/ebu-anbindung hast wäre das viell. was: https://tech.ebu.ch/eurovox vmtl. aber zu groß für deinen anwendungszweck.

#ebu #eurovox
Dieser Beitrag wurde bearbeitet. (2 Monate her)
wir haben als Uni einen kostenpflichtigen Account bei AmberScript für die Vorlesungsaufzeichnungen aber steigen dieses Jahr auf unsere eigene noScribe Instanz um (basierend auf OpenAIs freie "Whisper" Software).
das geht gut, zumindest wenn man eine halbwegs saubere Audiodatei hat. Es geht auch wenn mehrere Leute reden und läuft auf dem eigenen PC und gilt als save auch für sensible Daten. Aber ob das jetzt für so Protokolle gut ist, keine Ahnung: https://business-analytics.uni-graz.at/de/forschung/atrain/