Sprachaufnahme & Transkription#

Mit Assistenten oder Arbeitsabläufen kannst du Transkripte von Audio-Dateien erstellen. Im Transkript werden die einzelnen Sprecher und die Zeitstempel angezeigt.

Dazu gibt es zwei Möglichkeiten: Sprachaufnahme oder Transkription von hochgeladenen Audio-Dateien.

Sprachaufnahme#

Klappe die Sprachaufnahme aus, indem du auf das Plus-Icon daneben klickst. Jetzt kannst du die AI-Tools wie ein Diktiergerät verwenden.

Im Assistenten-Chat: Klicke auf den Button Aufnehmen.

Tipp

Was du damit machen kannst:

Statt einzutippen, das Prompt einfach diktieren.
Eine Sprachmemo aufnehmen und die Rechtschreibung korrigieren.
Ein Recherche-Protokoll diktieren und es automatisch übersichtlich formatieren lassen.
Einen Brief oder eine E-Mail diktieren. Neben dem Ergebnis erscheint ein Mail-Icon. Damit kannst du den Text in dein Mail-Programm kopieren.

Wenn die Aufnahme beendet ist, kannst du sie nochmal anhören.

Wähle einen Anbieter für die Transkription aus: Mistral, OpenAI oder AssemblyAI. OpenAI ist am schnellsten, Mistral am genauesten. Mistral und AssemblyAI können auch die Sprecher unterscheiden, OpenAI nicht.

Gib mit dem Schalter noch an, ob das Transkript nur für dich bestimmt ist oder es öffentlich werden soll und alle den Text verwenden dürfen.

Mit dem grünen Button kannst du deine Aufnahme schließlich zum Transkribieren schicken.

Praktisch: Wenn du als Reporter Infos diktierst und sie öffentlich machst, können andere darauf aufbauen, daraus einen Artikel erstellen oder ein Prompt darauf anwenden. Sie können das Audio anhören und herunterladen.

Transkription#

Klappe die Transkription aus, indem du auf das Plus-Icon daneben klickst. Bei Assistenten ist das der Button Transkripte. Jetzt kannst du beliebige Audio- oder Video-Dateien hochladen und transkribieren lassen. Besonders praktisch: Wenn du Videos transkribieren lässt, wird automatisch die Audio-Spur vom Video getrennt. Du kannst die Audio-Spur dann aus den AI-Tools herunterladen und weiterverwenden.

Auch hier gibt es den Umschalter privat/öffentlich, der bestimmt, wer die Transkripte sehen kann. Mit dem grünen Button kannst du die Transkription starten.

Provider#

Du kannst für das Transkribieren zwischen verschiedenen Anbietern wählen:

Mistral: Am genauesten und mit Sprecher-Erkennung. Verarbeitet Audioaufnahmen bis zu drei Stunden Länge. Unterstützt 13 Sprachen: Deutsch, Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Japanisch, Koreanisch, Italienisch und Niederländisch. Server in Europa.
OpenAI: Am schnellsten, ohne Sprecher-Erkennung. Die Aufnahmen dürfen bis zu 50 Minuten lang sein. 99 Sprachen. Server in den USA.
AssemblyAI: Genau, mit Sprecher-Erkennung aber langsamer als die beiden anderen Dienste. Transkribiert Aufnahmen bis zu 10 Stunden Länge. 99 Sprachen. Server in Europa.

Audio-Formate#

Die folgenden Audio-Formate werden unterstützt: .mp3, .mp2, .wav, .mp4, .mov, .m4a, .opus, .ogg

WhatsApp speichert Sprachaufnahmen im Format „opus“ oder „ogg“. Du kannst mit den AI-Tools eine Sprachaufnahme aus WhatsApp transkribieren lassen.

Aus vorhandenen Transkripten wählen#

Klicke auf „Tippen, um Audios zu filtern…“ und gib einen Suchbegriff ein. Die Liste mit allen verfügbaren Transkripten wird gefiltert. Wähle ein Transkript aus, um es zu bearbeiten oder zu verwenden.

Transkript-Karten#

Immer, wenn du ein Transkript auswählst oder erstellst, wird eine Karte mit den wichtigsten Informationen angezeigt.

Schauen wir uns die einzelnen Buttons an:

Schloss-Icon: Damit schaltest du das Transkript von öffentlich auf privat um. Private Transkripte können nur von dir gesehen und verwendet werden.
Mülleimer-Icon: Damit kannst du das Transkript ganz vom Server löschen. Vorsicht: Das ist endgültig und kann nicht rückgängig gemacht werden.
Download-Icon: Damit kannst du die Audio-Datei herunterladen.
Clipboard-Icon: Damit kannst du den Text des Transkripts in die Zwischenablage kopieren und in anderen Tools verwenden.

Navigation#

Es gibt mehrere Möglichkeiten, um durch die Transkripte zu navigieren:

Play/Pause-Button: Damit kannst du die Audio-Datei abspielen oder pausieren. Das Transkript scrollt automatisch mit, damit du immer den aktuellen Text siehst.
Hüllkurve: Damit kannst du schnell zu einer bestimmten Stelle im Transkript springen. Klicke einfach auf die Hüllkurve an der Stelle, zu der du springen möchtest. Auf der Hüllkurve werden etwa fünf Minuten des Audios angezeigt.
Mini-Map: Diese zusätzliche Hüllkurve erscheint bei langen Audio-Dateien. Sie zeigt immer das ganze Audio an. Damit kannst du alle Stellen schnell erreichen.
Transkript-Text: Du kannst auch direkt im Transkript-Text navigieren. Klicke einfach auf eine Textstelle, um zu der entsprechenden Stelle im Audio zu springen.

Tipp

Wenn in deiner Aufnahme mehrere Personen sprechen, dann nutze für die Transkription einen Anbieter mit Sprecher-Erkennung: Mistral oder AssemblyAI.

So kannst du die einzelnen Sprecher im Transkript unterscheiden. In der Hüllkurve werden die Sprecher mit unterschiedlichen Farben angezeigt.

Speicherdauer und Dateigrößen#

Eine Datei, die du zum Transkribieren hochlädst, wird für längstens 14 Tage auf dem Server gespeichert. Die Datei darf maximal 600 MB groß sein.

Beachte: Video-Dateien sind sehr groß. Schon bei 5 Minuten ist die 600 MB Upload-Grenze erreicht.

Vom gewählten Anbieter hängt ab, wie lange die Aufnahme für die Transkription sein darf. Mistral erlaubt bis zu 3 Stunden, AssemblyAI bis zu 10 Stunden und OpenAI bis zu 50 Minuten.

Falls deine Aufnahmen länger sind, funktioniert es trotzdem. Die AI-Tools teilen die Aufnahmen automatisch in mehrere Teile auf und transkribieren sie nacheinander. Allerdings kann es dann sein, dass die Transkription an den Schnittstellen ungenau ist, weil die KI den Kontext nicht mehr richtig erfassen kann.

Für deine Organisation kannst du insgesamt 50 Stunden Audios speichern. Wird die Speichergrenze erreicht, werden die ältesten Dateien gelöscht. Auf dem Server speichern wir die Dateien im MP3-Format, um Speicherplatz zu sparen.