Friendica Social Network (Leipzig)

Empfehlungen für Audio-Transkriptions-Dienste?

Also, nehmen wir an, es wäre Euer Job, regelmäßig Protokolle zu Terminen mit unterschiedlichen Teilnehmer*innen zu erstellen: Wie würdet Ihr das machen?

(Gern Tipps, die auf realen Erfahrungen basieren.)

Lars Schwarz 2 Monate her •

Whisper von OpenAI. Gibt es auch als "offline" Variante von Drittanbietern, auch kostenlos. Je nach Betriebssystem gibt es da unterschiedliche Optionen.

ỉƶo 2 Monate her •

Absolute Zustimmung. Whisper hat mich in der Qualität so sehr beeindruckt, dass ich es unbedingt empfehle: https://pypi.org/project/openai-whisper/

Anne Roth 2 Monate her •

Wie unterscheidet sich das hiervon https://www.whispertranscribe.com/ ?

WhisperTranscribe - Turn your audio into content

Join 9k+ creators who transcribe their audio in minutes and grow their brand by creating content with WhisperTranscribe. Try it for free now.

^{www.whispertranscribe.com}

Lars Schwarz 2 Monate her •

Vermutlich nicht viel. Whisper hat aber 6 unterschiedliche Modelle, von „tiny“ bis „large“, die je nach Modell unterschiedliche Ergebnisse liefern. Tiny und small sind eventuell nicht ausreichend. Kann so nicht sagen, welche Modelle der spezielle Dienst im Angebot hat. „Medium“ sollte es aber für umfangreichere Texte schon sein.

Luca Hammer 2 Monate her •

Kostenlos und lokal. Ich nutze manchmal noScripe als GUI dafür. https://github.com/kaixxx/noScribe

Output braucht trotzdem viel Überarbeitung, wenn es korrekt sein soll.

GitHub - kaixxx/noScribe: Cutting edge AI technology for automated audio transcription. A nice GUI for OpenAIs Whisper and pyannote (speaker identification)

Cutting edge AI technology for automated audio transcription. A nice GUI for OpenAIs Whisper and pyannote (speaker identification) - kaixxx/noScribe

^GitHub

David 2 Monate her •

wenn die Daten durch eine 3rd party verarbeitet werden dürfen ist auch dieses Google Colab Notebook nicht schlecht: https://colab.research.google.com/github/keatonkraiger/Whisper-Transcription-Tutorial/blob/main/Whisper_Tutorial.ipynb

Google stellt darüber kostenlosen GPU compute bereit und du hast die volle Kontrolle über das Modell.

Vor allem das Large Modell liefert auch mehrsprachig echt gute Ergebnisse.

Earthling 2 Monate her •

Tipp: Bitte Sprachen und ob viel Dialekt etc dabei ist, das spielt eine große Rolle. Mehr Info generell dazu was und wieviel transkribiert wird wäre für Infogebende sinnvoll.

Till Westermayer 2 Monate her •

Auch wenn es nicht wirklich deine Frage beantwortet: Ich schreibe sehr regelmäßig Protokolle von Vorstandssitzungen etc. - keine Wortprotokolle, aber zentrale Aussagen der jeweiligen Redebeiträge. Das klappt bei mir ganz gut mit Mittippen während der Sitzung (ok, ich schreibe schnell). Ich vermute, ich würde deutlich länger brauchen, wenn ich ein Transkript einer Audioaufnahme aus gesprochener Sprache in Protokollform bringen müsste.

Bianca Kastl 2 Monate her •

Mein Vorgehen enthält sehr viel lokales Gefrickel.

(Ich hatte mal den seltsamen Job, der Verwaltung KI zu erklären, ohne dass ich denen aber irgendwelche Dienste wegen Compliance empfehlen konnte)

Also wurde es etwas python und Whisper (eigentliche Transkription) mit pyannote (Speaker Diarization)

Kann aber nicht sagen, dass das besonders einfach ist, aber du weißt halt, was mit deinen Audiodateien passiert.

Lukas Brausch 2 Monate her •

Ich nutze beruflich Demodesk und bin begeistert. Laut offizieller Webseite (https://demodesk.com/) wird der Datenschutz wohl ernst genommen: "Demodesk is built and hosted in secure data centers. Fully compliant with GDPR and all other data privacy and compliance regulations.". Da die Lösung aber nicht Open-Source ist, kann ich das leider nicht nachprüfen.

Demodesk | AI Sales Coaching + Video Meetings + Scheduling Automation

Coach Sales Teams with AI, Run Professional Video Meetings, And Schedule Meetings on Auto-Pilot. 100% GDPR Compliant, Enterprise Ready.

^demodesk.com

Synapsenkitzler 2 Monate her •

sofern du örr/ebu-anbindung hast wäre das viell. was: https://tech.ebu.ch/eurovox vmtl. aber zu groß für deinen anwendungszweck.

#ebu #eurovox

EuroVOX

EuroVOX is an open toolbox to reduce the cost and complexity of transcription and translation.

^tech.ebu.ch

Dieser Beitrag wurde bearbeitet. (2 Monate her)

Peter Hoffmann 2 Monate her •

wir haben als Uni einen kostenpflichtigen Account bei AmberScript für die Vorlesungsaufzeichnungen aber steigen dieses Jahr auf unsere eigene noScribe Instanz um (basierend auf OpenAIs freie "Whisper" Software).

Festlaufen 2 Monate her •

das geht gut, zumindest wenn man eine halbwegs saubere Audiodatei hat. Es geht auch wenn mehrere Leute reden und läuft auf dem eigenen PC und gilt als save auch für sensible Daten. Aber ob das jetzt für so Protokolle gut ist, keine Ahnung: https://business-analytics.uni-graz.at/de/forschung/atrain/

aTrain - Business Analytics and Data Science-Center

aTrain ist ein Tool zur automatischen Transkription von Sprachaufnahmen unter Verwendung modernster maschineller Lernmodelle.

^{business-analytics.uni-graz.at}

⇧