Gesprochenen Text zu transkribieren ist aufwändig. Zwei Helfer beschleunigen das aber enorm: Microsoft Word und ChatGPT.

Stöhnende und ächzende Transkriptoren (Symbolbild). Erstellt mit Midjourney, Promt: a cartoon person, listening to an audio recording while taking notes on a computer, the person is cursing, getting increasingly angry, --v 5
Die Ausgangslage liess mich erstmal aufstöhnen und ächzen: Der gesprochene Text gleich mehrerer Erklärvideos sollte überarbeitet werden. Das Problem: Ein Skript des eingesprochenen Texts lag nicht vor.
Wer jemals einen Text transkribiert hat, weiss: Das ist aufwändig. Sehr. Als Faustregel kann man davon ausgehen, dass die Transkription gut fünf- bis zehnmal so lange dauert wie das Abspielen des Ausgangsmaterials. Immerhin: Das Ausgangsmaterial war nicht im Dialekt gesprochen, sondern im Standarddeutsch.
Darum stellte sich die Frage: Kann das anno 2023 nicht anders gehen? Kann da nicht die Technologie aushelfen? Sie kann. Und sie tut es (für Mitarbeitende und Studierende der PHBern zumindest) ohne weitere Kosten.
Wie bin ich vorgegangen?
Schritt 1: Die Verwandlung
Bevor man mit der Transkription starten kann, braucht es zunächst einmal eine Grundlage.
Diese bestand im konkreten Fall nicht aus einer Audiodatei, sondern einem Video. Das ist an sich kein Problem, da in Word auch Videofiles für die Transkription hochgeladen werden können. Allerdings nur, wenn sie in einem gängigen Format daherkommen.
Meine Videos waren nicht auf der Festplatte, sondern nur auf SWITCHtube. Und SWITCHtube-Videos kann man, wenn man entsprechende Rechte hat, zwar herunterladen. Allerdings in einem ungewöhnlichen Videoformat.
Der erste Schritt war deshalb die Umwandlung des Dateiformats. Dafür gibt es eine Unzahl von Tools.
Da Datenschutz im vorliegenden Fall keine Rolle spielt, habe ich selbst mit FreeConvert gearbeitet: Keine Kosten, keine Registrierung. Einfach die Datei reinziehen, eine Minute warten, und das File kann heruntergeladen werden. (Ein MP3 in meinem Fall, denn wenn man eh schon konvertiert, kann man den unnötigen Bild-Ballast auch gleich weglassen.)
Schritt 2: Die Transkription
Die Parade-Textverarbeitungssoftware MS Word fasst "Text" schon länger nicht mehr nur als "geschriebenen Text" auf. Prominent gleich im Startmenü findet sich der Button «Diktieren», der aber erst sein gesamtes Potenzial entfaltet in der Online-Version: Dort erscheint nämlich unter diesem Menüpunkt auch der Befehl "Transkribieren".

Klickt man darauf, wird man aufgefordert, die Audio-Datei hochzuladen. Und nach erstaunlich kurzer Zeit steht das Transkript.
Word bietet dabei nützliche Funktionen: Einen Audioplayer, die (nicht ganz so zuverlässige) Identifikation unterschiedlicher Sprecher*innen etwa, oder die automatische Unterteilung des Texts in sinnvolle Abschnitte, komplett mit Zeitstempel.

Screenshot des Transkriptions-Editors in MS Word Online.
Die Transkription ist erstaunlich korrekt – korrekter etwa als der vergleichsweise getestete und vielerorts als "Goldstandard der KI-unterstützen Transkription" angepriesenen AmberScript. Kleinere Korrekturen sind natürlich dennoch notwendig. Diese lassen sich aber direkt in Words Transkriptionseditor anbringen; die Zeitstempel, bei denen jeweils zur jeweiligen Stelle im Audio gesprungen werden kann, helfen zusätzlich.
Nach kurzer Zeit hatte ich so schon den Text beisammen. Dieser lässt sich in Word anschliessend "Zum Dokument hinzufügen".
Schritt 3: Die Aufbereitung für Excel
Das Problem dabei: Das Resultat ist ein Fliesstext. Das sieht dann ungefähr so aus:

Das ist hübsch. Aber für die weitere Arbeit nur bedingt nützlich. Was nützlicher wäre: Die Darstellung in einer Excel-Tabelle, in der fein säuberlich in einer Spalte alle Zeitstempel gelistet sind und jeweils daneben der Text.
Nur: Wie schafft man diesen Transfer? Jeden Zeitstempel und jeden Textteil einzeln in Zellen zu kopieren wäre eine Sisyphusarbeit. Und es ist ja durchaus so, dass Texte grundsätzlich in Excel importiert werden können – wenn sie denn nur richtig formatiert sind. Nur: Wer soll diese Übersetzung leisten?
Die offensichtliche Antwort: Sicher nicht ich. Die weniger offensichtliche: ChatGPT.
Die Grenzen und Möglichkeiten des Superstars unter der generativen künstlichen Intelligenz werden bekanntlich gerade allenorts ausgelotet. In einer Domäne ist sein Wert aber unbestritten: ChatGPT ist ein toller Übersetzer. Vor allem zwischen Menschen und Maschinen. Wo früher ein Informatiker einen Algorithmus hätte programmieren müssen für die Lösung meines Problems, reicht nun ein nettes Gespräch im Plauderton.
Ich habe in ChatGPT einen neuen Chat eröffnet und Folgendes geschrieben:
Der folgende Text ist die Transkription einer Audio-Spur, die in MS word angelegt worden ist. Sie soll aber transferiert werden in ein Excel-Dokument: Die Timestamps sollen jeweils in einer Zelle stehen, der gesprochene Text in der benachbarten Zelle in derselben Zeile. Der nächste Timestamp eröffnet eine neue Zeile. Alle Timestamps sind am Ende in einer Spalte übereinander, auch alle Texte. Du sollst das Format so ändern, dass entsprechende Trennzeichen gesetzt werden, die von Excel verstanden werden. Unnötige Absätze im Text kannst du löschen. Alles verstanden?
Verstanden, ChatGPT fragt noch einmal zur Rückversicherung und gibt dann direkt das hier aus:

Ein erster Versuch in Excel zeigt dann leider, dass die von ChatGPT – eigentlich korrekt gewählten – Tabulatoren als Trennzeichen zwischen den Zellen beim Import nicht korrekt interpretiert werden. Da das Arbeiten mit ChatGPT aber ja ein ewiges Lerngespräch ist, ist dies schnell korrigiert mit folgender Aufforderung:
Das ist an sich gut, Excel hat aber noch Probleme beim Interpretieren. Kannst du die Tabulatoren ersetzen durch Semikolons? Falls im Text bereits Semikolons sind, kannst du diese durch Punkte ersetzen.
ChatGPT macht den Text neu. Mit einem Klick auf "Copy code" landet er auch gleich im Zwischenspeicher. Und von dort per "Einfügen" in einem Programm wie Word oder dem Editor, wo man den Text im für Excel importierbaren Format speichert.
Und damit ist das Schlimmste geschafft.
Schritt 4: Der Import in Excel
Weniger spannend ist dann der Import in Excel. Es genügt zu sagen, dass man einer einschlägigen Anleitung (zum Beispiel dieser hier) folgen muss. Das Ergebnis sieht dann exakt wie gewünscht aus.

Fazit
Das wichtigste Fazit für mich: Deutlich weniger Aufstöhnen und Ächzen.
Die insgesamt rund 30 Minuten gesprochenen Text hatte ich – obwohl ich das Verfahren erst noch (er-)finden musste – in ungefähr 45 Minuten fertig transkribiert in Excel. Das ist sehr weit entfernt von den fünf- bis zehnmal 30 Minuten, die eine Transkription sonst gekostet hätten. Mehr Gelassenheit!
Und ein kleines bisschen hatte ich mich natürlich auch gefreut darüber, eine für mich sinnvolle Anwendung von ChatGPT gefunden zu haben.
Habt ihr auch entsprechende gute Erfahrungen gemacht? Falls ja, freuen wir uns immer, wenn sie auf NiK oder hier in den Kommentaren geteilt werden.
PS
Als ich am Tag darauf noch einmal den Prozess durchspielen wollte, hat mich ChatGPT erneut überrascht: Bei derselben Vorgabe wird plötzlich eine Tabelle generiert, die direkt in Excel per Copy&Paste eingefügt werden kann:

Schritt 4 entfällt damit komplett. Noch weniger Ächzen!
Es ist bekannt, dass generative künstliche Intelligenz wie ChatGPT mit Wahrscheinlichkeiten arbeitet und Inhalte ein Stück weit zufällig erstellt. Anders gesagt: Man weiss nie genau, was man kriegt. Manchmal ist es sogar mehr, als man erwartet hätte.
In diesem Sinn: Wir wünschen möglichst viele positive Überraschungen.
Hallo Christof
Merci für den Blog. Finde ich einen guten Workaround mit ChatGPT zu einer Excel – Tabelle zu gelangen. Zum Transkribieren mit Word: Dies klappte vielleicht bei einem Monolog aus einem Video ganz gut. Ich habe halbstündige Interviews aus schriftdeutsch, qualitativ logischerweise schlechter (da viele ähm, naja, tja… und auch viel gegenseitiges Dreinreden). Und hier ist der Dienst immer noch sehr schlecht. Dies erstaunt mich doch sehr, können wir so vieles anderes so gut mit KI lösen, aber ich bin der Meinung das Transkribieren ist noch sehr ungenügen.
Grüsse Urs