Talk to me — Benutzerhandbuch
Dieses Handbuch deckt sowohl die Windows Desktop- als auch die Android Hands-Free-Edition von Talk to me ab. Abschnitte mit Windows oder Android gelten nur für die jeweilige Plattform. Alle anderen Abschnitte gelten für beide.
1. Einführung
Talk to me ist ein professionelles Diktier-, Übersetzungs- und Sprachinteraktionsstudio für Windows Desktop und Android. Es wandelt deine Sprache in Text um, optimiert ihn mit KI, übersetzt ihn in über 20 Sprachen und liest ihn dir vor — alles in Echtzeit.
Die App folgt einer strikten BYOK (Bring Your Own Key)- und Zero-Knowledge / Zero-Trust-Architektur: Deine API-Schlüssel und Daten verlassen niemals dein Gerät.
Hauptfunktionen
- Echtzeit-Diktat: Nimm deine Stimme auf und erhalte in Sekunden optimierten Text.
- KI-Polish: Automatische Grammatikkorrektur und Entfernung von Füllwörtern — unterstützt durch den KI-Anbieter deiner Wahl.
- Live-Übersetzung: Übersetze diktierten Text spontan in über 20 Sprachen.
- Voice Translate (Speech-to-Speech): Dein übersetzter Text wird automatisch in der Zielsprache vorgelesen.
- Text-to-Speech: Wandle beliebigen Text in natürlich klingende Sprache um — mit ElevenLabs, OpenAI TTS oder Deepgram.
- Live-Sprachimmersion: Sprich in deiner Muttersprache und höre und sieh den Text sofort in der Sprache, die du lernen möchtest.
- Wortkorrekturen: Bringe der App die korrekte Schreibweise deiner Namen, Marken und Fachbegriffe bei, die die Spracherkennung falsch erkennt.
- Verschlüsseltes Backup: Exportiere alle Einstellungen und API-Schlüssel als passwortgeschützte, verschlüsselte Datei.
- Multi-Provider-Unterstützung: Wähle aus OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram und weiteren.
Plattform-Highlights
| Funktion | Windows Desktop | Android Hands-Free |
|---|---|---|
| Mini-Player (kompakter Modus) | ✓ | — |
| Globale Hotkeys (Strg+Win) | ✓ | — |
| Auto-Read (Strg+C Textextraktion) | ✓ | — |
| Notification Listener | ✓ | — |
| MP3-Aufnahme & Speichern | ✓ | — |
| Floating Pill (Spektrumanalysator) | ✓ | — |
| Floating Bubble (Overlay) | — | ✓ |
| Auto-Paste (Barrierefreiheit) | — | ✓ |
| Auto-Read Nachrichten (aus Chat-Apps) | — | ✓ |
| App-basierter Benachrichtigungszugriff | — | ✓ |
Sicherheitsprinzipien
- Zero-Knowledge: Talk to me speichert, überträgt oder hat niemals Zugriff auf deine API-Schlüssel auf irgendeinem Server. Alle Schlüssel werden ausschließlich lokal auf deinem Gerät gespeichert.
- Zero-Trust: Die App „telefoniert" nie nach Hause. Keine Analysen, kein Tracking, keine Telemetrie. Deine Diktierdaten fließen direkt von deinem Gerät zum gewählten KI-Anbieter — und nirgendwo anders hin.
- BYOK: Du bringst deine eigenen API-Schlüssel von den Anbietern mit, denen du vertraust. Talk to me verkauft keinen API-Zugang weiter.
2. Erste Schritte
Windows Installation — Windows Desktop
Talk to me für Windows ist als EV-signierter Installer auf talktome.studio oder über den Microsoft Store verfügbar.
Systemanforderungen:
- Windows 10 oder neuer (64-Bit)
- Eine aktive Internetverbindung
- Mindestens ein API-Schlüssel eines unterstützten Anbieters
Der Installer ist digital mit einem Extended Validation (EV)-Zertifikat von Certum (mrocon GmbH) signiert. Windows SmartScreen zeigt keine Warnungen an.
Android Installation — Android
Talk to me für Android ist als APK auf talktome.studio oder über den Google Play Store verfügbar.
Systemanforderungen:
- Android 8.0 oder neuer
- Eine aktive Internetverbindung
- Mindestens ein API-Schlüssel eines unterstützten Anbieters
Erster Start
Wenn du Talk to me zum ersten Mal öffnest, siehst du das License Gate. Du hast zwei Möglichkeiten:
- Lizenzschlüssel eingeben, um die vollständige App sofort freizuschalten.
- 7-Tage-Testversion starten, um alle Funktionen ohne Lizenzschlüssel zu erkunden.
Nach der Aktivierung oder dem Start der Testversion lädt die App und du kannst sie sofort nutzen — vorausgesetzt, du hast mindestens einen API-Schlüssel konfiguriert (siehe Key Pool).
3. Lizenzaktivierung
Das License Gate
Beim ersten Start (oder nach Ablauf der Testversion) wird das License Gate angezeigt. Es zeigt:
- Das Talk to me-Wortbild
- Ein Textfeld für deinen Lizenzschlüssel (Format:
TTM-XXXX-XXXX-XXXX-XXXX) - Deine Machine ID (eine eindeutige Gerätekennung, benötigt für die Aktivierung)
- Einen Aktivieren-Button
- Einen 7-Tage-Testversion starten-Button (sofern noch keine Testversion genutzt wurde)
- Links zu Lizenz kaufen und dem Kundenportal
Lizenz aktivieren
- Gib deinen Lizenzschlüssel in das Textfeld ein.
- Tippe/klicke auf Aktivieren.
- Die App verifiziert deinen Schlüssel online und aktiviert ihn für dieses Gerät.
- Nach der Aktivierung siehst du das License Gate nicht mehr — es sei denn, du deaktivierst die Lizenz oder sie läuft ab.
Die Testversion
- Tippe/klicke auf 7-Tage-Testversion starten, um alle Funktionen für 7 Tage freizuschalten.
- Ein Banner am oberen Rand der App zeigt die verbleibenden Testtage an.
- Nach 7 Tagen läuft die Testversion ab und das License Gate erscheint erneut.
Lizenz-Modal
Innerhalb der App kannst du deinen Lizenzstatus einsehen, indem du auf den Lizenz-Button (Schild-Symbol) klickst. Das Lizenz-Modal zeigt:
- Status: Aktiv, Testversion, Karenzzeit oder Abgelaufen
- Produkt: Name deines Lizenzprodukts
- Plan: Jährlich oder Lebenslang
- Ablaufdatum: Ablaufdatum (oder „Lebenslang")
- Geräte: Anzahl aktiver Geräte / maximal erlaubte Anzahl
- Schlüssel: Dein Lizenzschlüssel (teilweise maskiert)
- Machine ID: Die eindeutige Kennung deines Geräts
Von diesem Modal aus kannst du:
- Gerät deaktivieren — gibt die Lizenz von diesem Gerät frei, damit du sie auf einem anderen verwenden kannst
- Schließen — zurück zur App
4. App-Übersicht
Die App ist in drei Haupt-Tabs und mehrere unterstützende Bereiche gegliedert:
Navigation
Am oberen Bildschirmrand kannst du über drei Tabs zwischen den Hauptmodi der App wechseln:
- Speech-to-Text — Nimm deine Stimme auf und erhalte optimierten, übersetzten Text
- Text-to-Speech — Wandle geschriebenen Text in gesprochenes Audio um
- AI Voice Chat — Führe Echtzeit-Sprachgespräche mit KI (siehe §12)
Interface-Layout
Unterhalb der Tabs ist die Hauptoberfläche vertikal angeordnet:
- Quick-Override-Steuerung — Sprachauswahl für Ein- und Ausgabe
- Aktionsbuttons — Schnellzugriff auf Plattformfunktionen
- Statusanzeige — Zeigt den aktuellen Zustand (Bereit, Aufnahme, Transkription usw.)
- Pipeline-Anzeige — Visueller Fortschritt deines Diktats durch die Verarbeitungsstufen
- Ergebnisbereich — Dein transkribierter/übersetzter Text
- TTS-Panel (nur im Text-to-Speech-Tab) — Texteingabe und Wiedergabesteuerung
- AI Voice Chat-Panel (nur im AI Voice Chat-Tab) — Stimm-/Persona-Auswahl, Gesprächssteuerung, Live-Transkript (siehe §12)
- Key Pool — Verwaltung deiner API-Schlüssel
- Einstellungen — Alle Konfigurationsoptionen
Aktionsbuttons
Windows Desktop-Aktionsbuttons:
- Voice Translate — Speech-to-Speech-Übersetzung ein-/ausschalten
- Notification Listener — Benachrichtigungs-Vorlesen ein-/ausschalten
- Auto-Read — Strg+C Text-to-Speech ein-/ausschalten
- TTS aufnehmen — MP3-Aufnahme der TTS-Ausgabe ein-/ausschalten
- Aufnahmen speichern — Aufnahmeordner öffnen
Android Aktionsbuttons:
- Lizenz — Lizenz-Modal öffnen
- Voice Translate — Speech-to-Speech-Übersetzung ein-/ausschalten
- Overlay — Floating Bubble starten/stoppen
- Auto-Paste — Barrierefreiheits-Einstellungen öffnen
- Auto-Read — Auto-Read Nachrichten ein-/ausschalten
- Benachrichtigungszugriff — Benachrichtigungslistener-Einstellungen öffnen
Der Info-Button
In der Kopfzeile öffnet der Info-Button das App-Info-Modal, das Folgendes anzeigt:
- Einen Link zu talktome.studio
- Die Support-E-Mail-Adresse (tippe/klicke zum Kopieren)
- Die aktuelle App-Version
- Anzahl der erkannten Mikrofone
5. Speech-to-Text
Der Speech-to-Text-Tab ist der Hauptmodus von Talk to me. Hier nimmst du deine Stimme auf und erhältst optimierten, optional übersetzten Text.
Ein Diktat aufnehmen
- Stelle sicher, dass der Status Bereit — Diktat starten (grün) anzeigt.
- Klicke/tippe auf den großen Diktat starten-Button.
- Der Button wird rot und zeigt Aufnahme stoppen. Sprich deutlich.
- Während der Aufnahme siehst du: Aufnahmedauer in Sekunden, Audiopegelmesser mit der Eingabelautstärke, den aktuell aktiven STT-Anbieter und die Sprache.
- Klicke/tippe erneut auf den Button, um die Aufnahme zu stoppen.
Windows Du kannst die Aufnahme auch mit dem globalen Hotkey Strg+Win starten/stoppen (das App-Fenster muss dafür nicht im Fokus sein).
Was nach der Aufnahme passiert
Nachdem du die Aufnahme gestoppt hast, verarbeitet die App dein Audio durch die Pipeline (siehe Die Pipeline):
- Capture — Audioaufnahme wird abgeschlossen
- STT — Dein Audio wird vom gewählten Anbieter transkribiert
- Nachbearbeitung — Der Rohtext wird bereinigt (Wortkorrekturen angewendet)
- Polish / Übersetzung — Falls aktiviert, korrigiert die KI die Grammatik oder übersetzt den Text
- Inject — Der fertige Text wird in die Zwischenablage gelegt
Windows Der Text wird automatisch über simuliertes Strg+V in das zuvor fokussierte Fenster eingefügt (Smart Clipboard Injection).
Android Wenn Auto-Paste aktiviert ist, wird der Text automatisch über den Accessibility Service in das aktive Textfeld eingefügt.
Der Ergebnisbereich
Nach der Verarbeitung erscheint dein Text im Ergebnisbereich. Ein Hinweis bestätigt, dass der Text in die Zwischenablage kopiert wurde und zum Einfügen bereit ist.
Aufnahme-Signale (Audio Cues)
Talk to me signalisiert dir akustisch und visuell, wann das Mikrofon tatsächlich aufnimmt — damit kein Wort verloren geht.
Akustische Signale
- Start-Beep (kurzer hoher Blip): „Mikrofon ist live, du kannst sprechen."
- Stop-Beep (kurzer tiefer Blip): „Aufnahme beendet."
Beide Beeps sind in den Einstellungen ein-/ausschaltbar und in der Lautstärke regelbar (Standard: 100 %).
Visuelle Signale
- Idle/Standby: Mikrofon-Icon ist orange — Aufnahme inaktiv.
- Aufnahme aktiv: Mikrofon-Icon ist grün — jedes gesprochene Wort wird aufgenommen.
Hinweis: Start-Beep auf Speakerphones
Manche Audio-Geräte unterdrücken den Start-Beep. Das ist kein Bug, sondern eine Hardware-Eigenschaft:
| Gerätetyp | Beep hörbar? | Empfehlung |
|---|---|---|
| Lautsprecher + getrenntes Mikrofon | ✅ Ja | — |
| Headset mit getrenntem Mic + Speaker | ✅ Ja | — |
| USB-Speakerphone (Jabra Speak2, Logitech P710e etc.) | ⚠️ Eventuell nein | Headset oder externe Lautsprecher verwenden |
| Bluetooth-Headset im Hands-Free-Profil | ⚠️ Eventuell nein | Kabelgebundenes Headset als Alternative |
Wichtig: Wenn du das Standard-Audiogerät wechselst, starte Talk to me neu, damit der Beep auf dem neuen Gerät gespielt wird.
6. Text-to-Speech
Der Text-to-Speech-Tab ermöglicht es dir, beliebigen geschriebenen Text in natürlich klingende Sprache umzuwandeln.
Grundlegende Nutzung
- Wechsle zum Text-to-Speech-Tab.
- Gib Text ein oder füge ihn in das Textfeld ein.
- Klicke/tippe auf Vorlesen, um die Wiedergabe zu starten.
Wiedergabesteuerung
- Pause — Hält die Wiedergabe vorübergehend an
- Fortsetzen — Setzt die Wiedergabe von der Pausenposition fort
- Stop — Beendet die Wiedergabe vollständig
- Wiederholen — Spielt dasselbe Audio erneut ab, ohne es neu zu synthetisieren
Anbieter- und Stimmauswahl
- ElevenLabs: Wähle aus deinen verfügbaren Stimmen oder verwende „Default (Brian v3)". Benutzerdefinierte Voice-IDs werden unterstützt.
- OpenAI TTS: Nova, Alloy, Echo, Fable, Onyx, Shimmer
- Deepgram Aura 2: Schnelle Synthese
Modellauswahl (ElevenLabs)
| Modell | Zeichenlimit | Am besten für |
|---|---|---|
| Eleven v3 | 5.000 | Höchste Qualität, kurze Inhalte |
| Multilingual v2 | 10.000 | Mehrsprachige Unterstützung |
| Flash v2.5 | 40.000 | Schnelle Synthese, lange Texte |
| Turbo v2.5 | 40.000 | Ausgewogenes Verhältnis von Geschwindigkeit und Qualität |
Audioqualität
| Qualität | Beschreibung |
|---|---|
| MP3 192 kbps | Creator-Qualität — höchste Klangtreue |
| MP3 128 kbps | Standard — guter Kompromiss |
| MP3 64 kbps | Kompakt — kleinere Dateigröße |
| MP3 32 kbps | Minimal — niedrigste Qualität |
Textnormalisierung
| Einstellung | Beschreibung |
|---|---|
| Auto | Das Modell entscheidet, wie Zahlen behandelt werden |
| Immer aktiv | Zahlen werden in Wörter umgewandelt (z. B. „42" → „zweiundvierzig") |
| Aus | Keine Normalisierung |
Stimmfeinabstimmung (ElevenLabs)
| Regler | Bereich | Beschreibung |
|---|---|---|
| Stabilität | Variabel ↔ Stabil | Niedriger = ausdrucksstärker; Höher = konsistenter |
| Ähnlichkeit | Kreativ ↔ Original | Wie genau die Ausgabe der Originalstimme entspricht |
| Stil | Neutral ↔ Expressiv | Grad des emotionalen Ausdrucks |
| Geschwindigkeit | Langsam (0,7×) ↔ Schnell (1,2×) | Wiedergabegeschwindigkeit |
Zusätzliche Optionen
- Code-Filter: Entfernt Codeblöcke und technische Syntax vor der Synthese.
- Automatische Aufnahme: Speichert synthetisiertes Audio automatisch. Tippe auf das Ordner-Symbol, um das Verzeichnis auszuwählen.
- Speaker Boost: Verbessert die Stimmklarheit (nur ElevenLabs).
7. Die Pipeline
Die Pipeline ist die zentrale Verarbeitungs-Engine von Talk to me. Sie visualisiert die Stufen, die dein Audio von der Aufnahme bis zur finalen Ausgabe durchläuft.
Pipeline-Stufen
| Stufe | Bezeichnung | Beschreibung |
|---|---|---|
| 1 | Capture | Audioaufnahme und Abschluss |
| 2 | STT | Speech-to-Text-Transkription |
| 3 | Post | Nachbearbeitung (Bereinigung, Wortkorrekturen) |
| 4 | Polish oder Trans | KI-Polish oder KI-Übersetzung |
| 5 | Inject | Text in Zwischenablage kopiert / automatisch eingefügt |
TDF-Indikatoren (Text Display Field)
Jede Pipeline-Stufe zeigt den aktiven Anbieter (z. B. „Scribe v2", „GPT-5.4") und nach Abschluss die Zeitinformationen an.
Zeitanzeige
Nach der Verarbeitung zeigt eine Zeitleiste:
STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s
Wenn Voice Translate aktiv ist, wird zusätzlich eine S2S (Speech-to-Speech)-Zeit angezeigt.
8. Voice Translate
Voice Translate kombiniert KI-Übersetzung mit Text-to-Speech, um ein Echtzeit-Speech-to-Speech-Übersetzungserlebnis zu schaffen.
Neu seit v0.5.150: Die Textübersetzung ist automatisch aktiv, sobald sich deine Eingabesprache (Speech Input) und Ausgabesprache (Text Output) unterscheiden. Du brauchst keinen extra Schalter mehr für die Textübersetzung. Der Voice Translate-Button steuert nur noch, ob der finale Text akustisch vorgelesen werden soll (Sprachausgabe über TTS).
Beispiele
- Eingabe Deutsch, Ausgabe Englisch, Voice Translate aus → Text wird automatisch übersetzt, aber nur als Text in die Zwischenablage gelegt.
- Eingabe Deutsch, Ausgabe Englisch, Voice Translate an → Text wird übersetzt und zusätzlich auf Englisch vorgelesen.
- Eingabe Deutsch, Ausgabe Deutsch, Voice Translate an → Keine Übersetzung, aber der deutsche Text wird vorgelesen (klassisches TTS).
So funktioniert es
- Aktiviere Voice Translate (lila wenn aktiv).
- Nimm ein Diktat in deiner Ausgangssprache auf.
- Die App transkribiert → übersetzt → liest die Übersetzung laut vor.
Konfiguration
- Zielsprache: Stelle sie ein unter Einstellungen → KI-Übersetzung → Übersetzen nach
- TTS-Stimme: Verwendet deinen konfigurierten TTS-Anbieter und die gewählte Stimme
Anwendungsfälle
- Reisen: Sprich in deiner Sprache und lass dir die Übersetzung vorlesen.
- Sprachenlernen: Höre, wie dein Text in einer anderen Sprache klingt.
- Live-Sprachimmersion: Verwandle deine eigenen Gedanken in lebendige Sprachpraxis — sprich in deiner Muttersprache und nimm die Ausgabe in der Sprache auf, die du meistern möchtest.
9. KI-Polish & Übersetzung
KI-Polish
Wenn aktiviert, korrigiert KI-Polish Grammatik, Zeichensetzung und (mit der Einstellung „Stark") entfernt Füllwörter wie „ähm", „also", „quasi", „halt".
Polish-Stärke:
- Leicht — Nur Grammatik- und Zeichensetzungskorrektur
- Stark — Entfernt zusätzlich Füllwörter
Statusanzeigen:
- POLISH (cyan) — Aktiv
- AUS — Deaktiviert
- KEY FEHLT (gelb) — Kein LLM-Schlüssel konfiguriert
KI-Übersetzung
Wenn aktiviert, wird dein diktierter Text in die Zielsprache übersetzt.
Statusanzeigen:
- ÜBERSETZEN (cyan) — Aktiv, zeigt die Zielsprache
- SPRACHAUSGABE (lila) — Voice Translate ist ebenfalls aktiv
- NUR TEXT — Übersetzung ohne Sprachausgabe
- AUS — Deaktiviert
Hinweis: Seit v0.5.150 erkennt Talk to me automatisch, wenn Eingabe- und Ausgabesprache unterschiedlich sind, und aktiviert die Übersetzung — auch ohne expliziten Toggle. KI-Polish bleibt unabhängig davon verfügbar und wird nicht mehr automatisch deaktiviert.
10. Quick-Override-Steuerung
Die Quick-Override-Steuerung ermöglicht es dir, die Ein- oder Ausgabesprache für ein einzelnes Diktat vorübergehend zu ändern, ohne deine gespeicherten Einstellungen zu modifizieren.
Spracheingabe-Override
Wähle eine andere Eingabesprache für die nächste Aufnahme:
- Automatische Erkennung — Der STT-Anbieter erkennt die Sprache automatisch
- Einzelne Sprachen (siehe Anhang A)
Textausgabe-Override
Wähle eine andere Ausgabesprache (entspricht dem vorübergehenden Aktivieren der Übersetzung):
- Standard (wie Eingabe) — Keine Übersetzung
- Alle 20 Übersetzungssprachen
Auf Einstellungen zurücksetzen
Wenn ein Override aktiv ist, erscheint ein Zurücksetzen-Button (↩-Symbol). Tippe/klicke darauf, um zu deinen gespeicherten Einstellungen zurückzukehren.
11. Key Pool
Der Key Pool ist der Ort, an dem du deine API-Schlüssel verwaltest. Talk to me verwendet eine Pool-basierte Architektur — du kannst mehrere Schlüssel pro Kategorie hinzufügen, und die App rotiert automatisch zwischen ihnen basierend auf Trust Scores.
Kategorien
| Kategorie | Zweck | Unterstützte Anbieter |
|---|---|---|
| Speech-to-Text | Transkription | OpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper |
| KI-Polish / LLM | Grammatik, Übersetzung | OpenAI, Groq, Anthropic, Google Gemini, xAI Grok |
| Text-to-Speech | Sprachsynthese | ElevenLabs, Deepgram, OpenAI TTS |
Einen Schlüssel hinzufügen
- Klappe den Key Pool-Bereich auf.
- Klicke/tippe auf + Schlüssel hinzufügen in der gewünschten Kategorie.
- Wähle den Anbieter.
- Gib ein Label ein (z. B. „Mein OpenAI-Schlüssel").
- Gib deinen API-Schlüssel ein.
- Klicke/tippe auf Schlüssel speichern.
Key-Slot-Funktionen
Jeder Key-Slot zeigt an:
- Label und Anbieter
- Maskierter Schlüssel (letzte 4 Zeichen sichtbar)
- Trust Score — Farbcodiert (grün/gelb/rot)
- Statistiken — Aufrufe, Erfolge, Fehler, Ratenlimits
Aktionen pro Slot:
- Testen — Überprüft, ob der Schlüssel funktioniert
- Pausieren / Aktivieren — Vorübergehend deaktivieren oder wieder aktivieren
- Entfernen — Dauerhaft löschen
Trust System
| Stufe | Score | Farbe | Verhalten |
|---|---|---|---|
| Ausgezeichnet | ≥80% | Grün | Bevorzugt |
| Gut | ≥60% | Grün | Normal |
| OK | ≥40% | Gelb | Fallback |
| Schwach | ≥20% | Gelb | Selten verwendet |
| Kritisch | <20% | Rot | Letzter Ausweg |
Schlüssel, die Ratenlimits erreichen, werden automatisch in eine Abkühlphase versetzt, während andere Schlüssel verwendet werden.
12. KI-Sprachchat
Talk to me enthält zwei unabhängige KI-Sprachchat-Engines, jede mit eigenen Stärken. Du kannst jederzeit über den KI-Chat-Tab zwischen ihnen wechseln.
| Engine | Technologie | Hauptvorteil |
|---|---|---|
| 12a. Deepgram Voice Agent | Deepgram Agent API (WebSocket) | 32+ Voreinstellungen, 6 LLM-Anbieter, 4 TTS-Anbieter, Latenz-Überwachung, verwalteter & BYO-Modus |
| 12b. Gemini 3.1 Flash Live | Google Gemini Live API (WebSocket) | 30 ausdrucksstarke Stimmen, Persona-Voreinstellungen, Denktiefe-Steuerung, native Google Multimodal-KI |
Vollständiger Freisprech-Lautsprechermodus (Android)
Beide Sprachchat-Engines funktionieren vollständig freihändig über den Lautsprecher deines Telefons. Talk to me verwendet proprietäre akustische Echounterdrückung (AEC) über eine native Android-Bridge, um deine Stimme von der Lautsprecherausgabe der KI zu trennen. Unterbreche jederzeit — die KI stoppt sofort und macht dort weiter, wo du möchtest. Keine Kopfhörer oder zusätzliche Ausrüstung erforderlich. Desktop-Benutzer mit jedem Standard-Setup funktionieren ebenso gut.
12a. Deepgram Voice Agent
Der Deepgram Voice Agent bietet Echtzeit-Vollduplex-KI-Sprachgespräche über eine einzelne WebSocket-Verbindung zur Deepgram Agent API. Er orchestriert Speech-to-Text (STT), Large Language Models (LLMs) und Text-to-Speech (TTS) in einer einheitlichen Pipeline — du sprichst, die KI denkt und antwortet mit natürlicher Stimme, alles in Echtzeit.
Erste Schritte
- Wechsle zum KI-Chat-Tab, dann wähle den Deepgram-Untertab.
- Füge einen Deepgram API-Schlüssel im Key Pool hinzu (scrolle nach unten zum Abschnitt “Deepgram Voice Agent”).
- Wähle eine Konfigurations-Voreinstellung oder konfiguriere manuell.
- Tippe auf die grüne Schaltfläche Gespräch starten.
Konfigurations-Voreinstellungen (32+ Optionen)
Talk to me wird mit über 32 Voreinstellungen in sechs Kategorien ausgeliefert. Jede Voreinstellung konfiguriert STT-Modell, LLM-Anbieter/Modell, TTS-Anbieter/Stimme und Turn-Detection-Parameter vor.
Top Tier — Beste Qualität
| Voreinstellung | LLM | TTS | STT |
|---|---|---|---|
| Gemini 3.0 Pro + Sonic-3 | Google Gemini 3.0 Pro | Cartesia Sonic-3 | Nova-3 |
| Claude 4.5 + Sonic-3 | Anthropic Claude Sonnet 4.5 | Cartesia Sonic-3 (Tessa) | Nova-3 |
| Claude 4.6 + Sonic-3 | Anthropic Claude Sonnet 4.6 | Cartesia Sonic-3 (Katie) | Nova-3 |
| GPT-5.4 + Sonic-3 | OpenAI GPT-5.4 | Cartesia Sonic-3 (Katie) | Nova-3 |
| GPT-5.4 + Kiefer | OpenAI GPT-5.4 | Cartesia Sonic-3 (Kiefer, Male) | Nova-3 |
Ultra-Fast — Niedrigste Latenz (~1,1s)
| Voreinstellung | LLM | TTS | STT |
|---|---|---|---|
| GPT-4o Mini + Sonic-3 | OpenAI GPT-4o Mini | Cartesia Sonic-3 | Nova-3 |
| GPT-5.4 Nano + Sonic-3 | OpenAI GPT-5.4 Nano | Cartesia Sonic-3 | Nova-3 |
| Haiku 4.5 + Sonic-3 | Anthropic Claude Haiku 4.5 | Cartesia Sonic-3 | Nova-3 |
| Gemini 2.5 Flash + Sonic-3 | Google Gemini 2.5 Flash | Cartesia Sonic-3 | Nova-3 |
| Nemotron 49B + Sonic-3 | NVIDIA Nemotron Super 49B | Cartesia Sonic-3 | Nova-3 |
Flux — Nur Englisch, Ultra-Low-Latency
Flux verwendet Deepgrams Flux-STT-Modell mit aggressiver End-of-Turn-Erkennung für die absolut schnellsten Antwortzeiten. Nur Englisch.
| Voreinstellung | LLM | TTS |
|---|---|---|
| Flux + GPT-4o Mini + Sonic-3 | OpenAI GPT-4o Mini | Cartesia Sonic-3 |
| Flux + GPT-5.4 Nano + Sonic-3 | OpenAI GPT-5.4 Nano | Cartesia Sonic-3 |
| Flux + GPT-5.4 + Sonic-3 | OpenAI GPT-5.4 | Cartesia Sonic-3 |
| Flux + Claude 4.6 + Sonic-3 | Anthropic Claude 4.6 | Cartesia Sonic-3 |
| Flux + Gemini Flash + Sonic-3 | Google Gemini 2.5 Flash | Cartesia Sonic-3 |
Balanced — Qualität + Geschwindigkeit
| Voreinstellung | LLM | TTS |
|---|---|---|
| GPT-5 Mini + Sonic-3 | OpenAI GPT-5 Mini | Cartesia Sonic-3 |
| GPT-4.1 Mini + Sonic-3 | OpenAI GPT-4.1 Mini | Cartesia Sonic-3 |
| Haiku 4.5 + Tessa | Anthropic Haiku 4.5 | Cartesia Sonic-3 (Tessa) |
| Gemini 3.0 Flash + Sonic-3 | Google Gemini 3.0 Flash | Cartesia Sonic-3 |
Experimental — Deepgram Aura-2 TTS (sprachspezifisch)
| Voreinstellung | LLM | TTS-Stimme |
|---|---|---|
| GPT-5.4 + Julius (DE) | OpenAI GPT-5.4 | Aura-2 Julius (Deutsch, Männlich) |
| GPT-5.4 + Zeus (EN) | OpenAI GPT-5.4 | Aura-2 Zeus (Englisch, Männlich) |
| Claude 4.6 + Thalia (EN) | Anthropic Claude 4.6 | Aura-2 Thalia (Englisch, Weiblich) |
| GPT-5.4 + Agathe (FR) | OpenAI GPT-5.4 | Aura-2 Agathe (Französisch, Weiblich) |
| GPT-5.4 + Celeste (ES) | OpenAI GPT-5.4 | Aura-2 Celeste (Spanisch, Weiblich) |
Full BYO — Eigene LLM- & TTS-Schlüssel mitbringen
Im Full-BYO-Modus übernimmt Deepgram nur STT (Nova-3). Deine eigenen API-Schlüssel für LLM- und TTS-Anbieter werden direkt verwendet.
| Voreinstellung | LLM (BYO Key) | TTS (BYO Key) |
|---|---|---|
| GPT-5.4 + ElevenLabs | OpenAI GPT-5.4 | ElevenLabs Turbo v2.5 |
| GPT-5.4 + OpenAI TTS | OpenAI GPT-5.4 | OpenAI TTS-1 |
| GPT-5.4 Nano + ElevenLabs | OpenAI GPT-5.4 Nano | ElevenLabs Turbo v2.5 |
| Gemini 3 Pro + ElevenLabs | Google Gemini 3 Pro | ElevenLabs Turbo v2.5 |
| Gemini Flash + OpenAI TTS | Google Gemini 2.5 Flash | OpenAI TTS-1 |
| Claude 4.6 + ElevenLabs | Anthropic Claude 4.6 | ElevenLabs Turbo v2.5 |
| Claude 4.6 + OpenAI TTS | Anthropic Claude 4.6 | OpenAI TTS-1 |
| Grok 3 Mini + ElevenLabs | xAI Grok 3 Mini | ElevenLabs Turbo v2.5 |
Voreinstellung sperren & entsperren
Wenn eine Voreinstellung aktiv ist, sind alle Konfigurationsfelder auf die Voreinstellungswerte gesperrt (angezeigt durch ein Schloss-Symbol). Dies verhindert versehentliche Änderungen. Um einzelne Einstellungen zu überschreiben, tippe auf Zum manuellen Bearbeiten entsperren. Das Ändern einer Einstellung wechselt automatisch zur “Manuellen Konfiguration”.
Manuelle Konfiguration
Tippe auf das Zahnrad-Symbol neben der Start-Schaltfläche, um das Konfigurationspanel zu öffnen. Alle folgenden Felder sind verfügbar:
LLM-Anbieter
| Anbieter | Wichtige Modelle |
|---|---|
| OpenAI | GPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (inkl. Nano, Mini) |
| Anthropic | Claude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6 |
| Gemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite | |
| NVIDIA | Llama Nemotron Super 49B, Nemotron 3 Nano 30B |
| xAI | Grok 3, Grok 3 Mini, Grok 3 Fast |
| Groq | GPT OSS 20B |
TTS-Anbieter
| Anbieter | Stimmen | Sprachen | Schlüssel erforderlich |
|---|---|---|---|
| Cartesia Sonic-3 | 9 Stimmen (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default) | 42 Sprachen (mehrsprachige Auto-Erkennung) | Nur Deepgram-Schlüssel (verwaltet) |
| Deepgram Aura-2 | 35+ Stimmen (EN, DE, FR, ES, IT, NL, JA) | Sprachspezifisch pro Stimme | Nur Deepgram-Schlüssel (verwaltet) |
| ElevenLabs | Deine ElevenLabs-Stimmen (automatisch geladen) | Mehrsprachig | ElevenLabs API-Schlüssel (BYO) |
| OpenAI TTS | 10 Stimmen (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer) | Englisch | OpenAI API-Schlüssel (BYO) |
STT-Modell
| Modell | Sprachen | Einsatzbereich |
|---|---|---|
| Nova-3 | Mehrsprachig | Standard, beste Gesamtgenauigkeit |
| Nova-3 General | Mehrsprachig | Allgemeine Variante |
| Nova-3 Medical | Mehrsprachig | Für medizinische Terminologie optimiert |
| Flux | Nur Englisch | Ultra-Low-Latency Turn-Erkennung |
Weitere Einstellungen
- Sprache — Auto-Erkennung (Mehrsprachig) oder eine bestimmte Sprache: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Niederländisch, Japanisch, Portugiesisch, Hindi, Russisch
- Begrüßungsnachricht — Text, den der Agent beim Gesprächsstart spricht (optional)
- Systemanweisung — Definiere die Persönlichkeit und das Verhalten der KI. Eine Basisanweisung ist immer enthalten, die Markdown-Formatierung und Rückfragen in der Sprachausgabe verhindert.
Erweiterte Einstellungen
Klappe den Bereich Erweitert für Feinabstimmung auf:
- Temperature (0,00 – 2,00) — Steuert die Kreativität der Antworten. Standard: 0,7. Niedriger = fokussierter, höher = kreativer.
- STT-Modell — Zwischen Nova-3-Varianten und Flux wechseln.
Wenn Flux STT ausgewählt ist, erscheinen zusätzliche Steuerelemente:
- Eager EOT Threshold (0,0 – 1,0) — Wie aggressiv das System das Sprechende erkennt. Höher = schnellere Antwort, kann dich aber mitten im Satz abschneiden.
- EOT Timeout (0 – 5000ms) — Maximale Stille, bevor der Agent antwortet.
Für ElevenLabs BYO: Ein benutzerdefiniertes Voice-ID-Feld ermöglicht die direkte Eingabe einer beliebigen ElevenLabs Voice ID.
Für OpenAI TTS BYO: Wähle aus 10 OpenAI-Stimmen (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).
Während eines Gesprächs
- Status-Anzeige — Zeigt Bereit, Verbinden, Live (mit verstrichener Zeit) oder Fehler
- Audio-Pegelanzeige — Zeigt den Mikrofon-Eingang mit Zuhören/Still-Status
- Denk-Anzeige — Ein grünes Badge erscheint, während das LLM deine Eingabe verarbeitet
- Gesprächstranskript — Echtzeit-Anzeige des gesamten Dialogs. Deine Nachrichten erscheinen rechts (grün), die des Agenten links (blau).
- Barge-in — Unterbreche die KI jederzeit durch Sprechen. Der Agent stoppt sofort und hört dir zu.
- Größenänderungsgriff — Ziehe den Griff unter dem Transkript, um den Chat-Bereich zu vergrößern/verkleinern (120px bis 85% des Bildschirms)
- Duale Start/Stop-Schaltflächen — Eine oben, eine unten fixiert für einfachen Zugriff beim Scrollen
Latenz-Überwachung
Nach dem ersten Turn erscheint ein kompakter Latenzbalken mit drei Schlüsselmetriken:
- LLM — Zeit von deiner Sprache bis zum ersten LLM-Token
- TTFB — Gesamte Time to First Byte (End-to-End)
- TURN — Volle Turn-Dauer einschließlich Audio-Wiedergabe
Werte sind farbcodiert: grün (< 2s), gelb (2–5s), rot (> 5s).
Tippe auf den Latenzbalken, um eine detaillierte Turn-für-Turn-Tabelle aufzuklappen mit Spalten: #, Sprachdauer, LLM-Zeit, TTS-Zeit, TTFB, Audio-Länge, Gesamt. Durchschnittliche LLM- und TTFB-Werte werden in der Kopfzeile angezeigt.
Echounterdrückung (AEC)
Talk to me enthält proprietäre akustische Echounterdrückung über eine native Android-Kotlin-Bridge. Die Lautsprecherausgabe der KI wird erfasst und in Echtzeit vom Mikrofon-Eingang subtrahiert, was selbstauslösende Rückkopplungsschleifen verhindert. Dies ermöglicht vollständig freihändigen Betrieb über den Lautsprecher ohne Kopfhörer. Funktioniert mit allen verwalteten Voreinstellungen und den meisten BYO-Konfigurationen.
Key Pool — Deepgram Voice Agent
Der Deepgram Voice Agent Key Pool ist ein dedizierter, einklappbarer Bereich unterhalb des Chat-Bereichs. Er verwaltet:
- Deepgram API-Schlüssel (erforderlich) — für STT und verwaltetes LLM/TTS-Routing
- LLM-Schlüssel (optional, nur Full BYO) — OpenAI, Anthropic, Gemini, xAI
- TTS-Schlüssel (optional, nur Full BYO) — ElevenLabs, OpenAI TTS
Jede Schlüsselkarte zeigt ein 4-Zeilen-Layout: Bezeichnung, Anbieter-Badge + maskierter Schlüssel, Vertrauensscore mit Statistiken und Test/Pause-Aktionsschaltflächen. Du kannst einzelne Schlüssel oder alle auf einmal testen.
Sitzungslimits
Sitzungen sind auf maximal 15 Minuten begrenzt (API-Beschränkung). Die verstrichene Zeit wird in der Stop-Schaltfläche angezeigt. Die Sitzung endet automatisch, wenn das Limit erreicht ist.
Tipps
- Starte mit einer verwalteten Voreinstellung (Top Tier oder Ultra-Fast) — sie benötigen nur einen Deepgram-Schlüssel und bieten die beste Erfahrung.
- GPT-5.4 Nano + Cartesia Sonic-3 liefert ~1,1s Antwortzeiten — die schnellste Option.
- Flux-Voreinstellungen sind nur auf Englisch, aber extrem schnell dank aggressiver End-of-Turn-Erkennung.
- Full-BYO-Voreinstellungen verwenden deine eigenen LLM/TTS-Schlüssel für maximale Kontrolle, können aber bei einigen TTS-Anbietern reduzierte Barge-in-Leistung haben.
- Alle Einstellungen werden beim nächsten Sitzungsstart wirksam, nicht während einer laufenden Sitzung.
12b. Gemini 3.1 Flash Live
Gemini 3.1 Flash Live bietet Echtzeit-Sprachgespräche, angetrieben von Googles neuestem Audio-KI-Modell. Es liefert die Geschwindigkeit und den natürlichen Rhythmus, der für sprach-zentrierte Interaktion benötigt wird, mit Sub-Sekunden-Latenz, 30 ausdrucksstarken Stimmen und nativem multimodalem Verständnis.
Voraussetzungen
Du benötigst einen Google Gemini API-Schlüssel (kostenpflichtige Stufe empfohlen), der im LLM Key Pool in den Einstellungen hinzugefügt wird. Der Schlüssel ist automatisch für den KI-Sprachchat verfügbar. Das verwendete Modell ist gemini-3.1-flash-live-preview.
Ein Gespräch starten
Navigiere zum KI-Chat-Tab, dann wähle den Gemini-Untertab. Tippe auf Gespräch starten. Die App verbindet sich über WebSocket mit Gemini, öffnet dein Mikrofon und beginnt zuzuhören. Sprich natürlich — Gemini antwortet in Echtzeit-Audio. Tippe auf Beenden, um zu stoppen.
Stimmen (30 Optionen)
Wähle aus 30 natürlichen KI-Stimmen, jede mit eigener Persönlichkeit:
| Stimme | Charakter | Geeignet für |
|---|---|---|
| Sulafat | Warm | Geschichtenerzählen, Gutenachtgeschichten, ruhige Gespräche |
| Gacrux | Reif | Autoritative Erzählung, Mentoring, tiefgründige Diskussionen |
| Algenib | Rau | Filmische Erzählung, dramatisches Vorlesen, Charakterstimme |
| Kore | Bestimmt | Professionelle Briefings, Nachrichtenvortrag, sachliche Fragen & Antworten |
| Puck | Lebhaft | Energiegeladene Gespräche, Motivation, Brainstorming |
| Zephyr | Strahlend | Optimistische Chats, freundliche Hilfe, Begrüßungen |
| Charon | Informativ | Tutorials, Erklärungen im Dokumentarstil |
| Fenrir | Aufgeregt | Begeisterte Reaktionen, Spielkommentare, Hype |
| Leda | Jugendlich | Lockerer Chat, Gen-Z-Gespräche, trendige Themen |
| Aoede | Unbeschwert | Entspannte Gespräche, Reisegespräche, Lifestyle |
| Achernar | Sanft | Meditationsanleitung, ASMR-Stil, sanfte Ermutigung |
| Algieba | Geschmeidig | Podcast-Moderation, Hörbücher, lange Vorlesungen |
| Despina | Geschmeidig | Elegante Erzählung, Luxusmarken-Stimme |
| Achird | Freundlich | Kundenservice, alltägliche Unterstützung, einladender Ton |
| Vindemiatrix | Einfühlsam | Unterstützende Gespräche, therapeutischer Ton, Empathie |
| Sadaltager | Sachkundig | Technische Erklärungen, Experten-Q&A, enzyklopädisch |
| Rasalgethi | Informativ | Wissenschaftsdokumentationen, Bildungsinhalte |
| Schedar | Ausgeglichen | Ausgewogene Diskussionen, neutrale Berichterstattung, Debatten |
| Alnilam | Bestimmt | Befehlende Präsenz, Führung, formelle Anlässe |
| Pulcherrima | Direkt | Durchsetzungsstarke Kommunikation, Pitches, Präsentationen |
| Zubenelgenubi | Lässig | Lockerer Chat, Freunde treffen, Humor |
| Sadachbia | Lebhaft | Animiertes Geschichtenerzählen, Kinderinhalte, verspielt |
| Laomedeia | Lebhaft | Morgenshow, fröhliche Updates, positive Stimmung |
| Callirrhoe | Locker | Lockere Beratung, Lifestyle-Coaching, nahbar |
| Autonoe | Strahlend | Kreativsitzungen, Ideenfindung, Kunstdiskussionen |
| Enceladus | Hauchig | Intime Erzählung, Gedichtvorlesung, atmosphärisch |
| Iapetus | Klar | Präzise Anweisungen, Schritt-für-Schritt-Anleitungen, Klarheit |
| Erinome | Klar | Klare Kommunikation, Unternehmensschulung, Diktion |
| Umbriel | Locker | Entspanntes Q&A, Wochenend-Stimmung, gedämpfte Gespräche |
Tipp: Höre alle Stimmen in der Google AI Studio Stimmbibliothek an.
Sprache
Wähle aus 24 unterstützten Sprachen oder belasse es auf Automatische Erkennung. Gemini antwortet in der Sprache, die du sprichst — oder in der Sprache, die du auswählst. Unterstützt: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Rumänisch, Russisch, Ukrainisch, Türkisch, Arabisch, Hindi, Bengalisch, Tamil, Telugu, Marathi, Japanisch, Koreanisch, Thailändisch, Vietnamesisch, Indonesisch.
Persona-Voreinstellungen
Persona-Voreinstellungen definieren, wie Gemini sich verhält — seine Persönlichkeit, seinen Ton und seinen Kommunikationsstil. Wähle aus sechs Voreinstellungen oder erstelle deine eigene:
| Voreinstellung | Verhalten |
|---|---|
| Friendly Assistant | Warm, gesprächig, zugänglich — ideal für den Alltag |
| Professional | Klar, prägnant, autoritativ — für Geschäft und Arbeit |
| Enthusiastic | Energisch, positiv, ermutigend — für Brainstorming und Motivation |
| Calm & Soothing | Langsam, sanft, geduldig — für Entspannung und geführte Sitzungen |
| Teacher | Geduldig, schrittweise, verwendet Analogien — für Lernen und Erklärungen |
| Creative | Fantasievoll, ausdrucksstark, bildhafte Sprache — für Geschichten und Kunst |
| Custom | Schreibe deine eigene Systemanweisung von Grund auf |
Systemanweisung
Die Systemanweisung ist ein Text-Briefing, das du Gemini vor Beginn des Gesprächs gibst. Stelle es dir wie eine Regieanweisung vor: Sage der KI, wer sie ist, wie sie sich verhalten soll und worauf sie sich konzentrieren soll.
Beispiele:
- “Du bist ein geduldiger italienischer Sprachtutor. Sprich langsam. Korrigiere meine Grammatik sanft.”
- “Du bist ein erfahrener Softwarearchitekt. Antworte knapp und technisch.”
- “Du bist ein kreativer Geschichtenerzähler. Sprich mit Flair. Verwende bildhafte Sprache.”
Bei Verwendung einer Persona-Voreinstellung wird dein benutzerdefinierter Text an die Voreinstellungsanweisung angehängt. Im Custom-Modus ist dein Text die gesamte Anweisung. Schreibe auf Englisch für beste Ergebnisse. Einstellungen werden automatisch gespeichert.
Denktiefe
Steuere, wie intensiv Gemini nachdenkt, bevor es antwortet:
| Stufe | Verhalten |
|---|---|
| Minimal | Schnellste Antworten, minimale interne Überlegung (Standard) |
| Low | Kurze Überlegung, gute Balance |
| Medium | Durchdachte Antworten, längere Pause vor der Antwort |
| High | Tiefes Nachdenken, am besten für komplexe Fragen |
Temperature & Top-P
Temperature (0,0 – 2,0) steuert, wie kreativ vs. vorhersagbar die KI antwortet:
| Bereich | Verhalten | Geeignet für |
|---|---|---|
| 0,0 – 0,5 | Fokussiert, deterministisch | Fakten, technische Antworten, präzise Anweisungen |
| 0,7 – 1,0 | Ausgewogen, natürlich (Standard: 1,0) | Die meisten Gespräche, alltägliche Nutzung |
| 1,2 – 2,0 | Kreativ, überraschend | Brainstorming, Geschichtenerzählen, kreatives Schreiben |
Top-P (0,0 – 1,0) begrenzt den Pool an Wörtern, die die KI in Betracht zieht. Bei 0,95 (Standard) wählt das Modell aus den wahrscheinlichsten 95% der Wörter. Niedrigere Werte machen die Ausgabe konservativer.
Sprachaktivitätserkennung (VAD)
VAD-Einstellungen steuern, wie Gemini erkennt, wann du anfängst und aufhörst zu sprechen:
- Sprachbeginn-Empfindlichkeit — Wie leicht das System den Sprachbeginn erkennt.
- Sprachende-Empfindlichkeit — Wie schnell das System entscheidet, dass du aufgehört hast zu sprechen.
- Stille-Dauer — Wie viele Millisekunden Stille vergehen müssen, bevor deine Wortmeldung als abgeschlossen gilt (100–2000ms).
Echounterdrückung (AEC)
Identisch zum Deepgram Voice Agent profitiert Gemini 3.1 Flash Live von Talk to me’s proprietärer akustischer Echounterdrückung über die native Android-Kotlin-Bridge. Vollständiger Freisprech-Lautsprechermodus funktioniert ohne Kopfhörer.
Tipps für beste Ergebnisse
- Sprich natürlich — Gemini unterstützt natürliches Barge-in (jederzeit unterbrechen)
- Auf Android eliminiert die integrierte AEC das Echo — keine Kopfhörer nötig
- Die Sitzungslänge ist auf 15 Minuten pro Verbindung begrenzt (API-Limit)
- Alle Einstellungen werden beim nächsten Sitzungsstart wirksam (nicht während einer laufenden Sitzung)
- Die Audio-Pegelanzeige zeigt einen farbigen Verlauf (grün, gelb, orange, rot), der deinen Mikrofon-Eingangspegel anzeigt
- Die Transkription deiner Sprache und der Gemini-Antworten kann unabhängig voneinander ein-/ausgeschaltet werden
13. Globale Hotkeys Windows
Talk to me registriert systemweite Hotkeys, damit du das Diktieren steuern kannst, ohne zum App-Fenster zu wechseln.
Primäre Hotkeys
| Hotkey | Aktion |
|---|---|
| Strg+Win | Aufnahme starten / stoppen (global, funktioniert aus jeder App) |
| Strg+Win (während Verarbeitung) | Aktuelle Pipeline abbrechen |
TTS-Hotkey
Wenn Text in einer beliebigen Anwendung markiert ist, liest der TTS-Hotkey ihn mit deinem konfigurierten TTS-Anbieter laut vor.
Low-Level Hook
Der globale Hotkey verwendet einen Windows Low-Level-Keyboard-Hook, was bedeutet, dass er auch funktioniert, wenn die App minimiert ist oder eine andere Anwendung den Fokus hat. Der Hook arbeitet im „Zero-Swallow-Modus" — er fängt die Tastenkombination ab, ohne andere Tastatureingaben zu blockieren.
14. Auto-Read Windows
Auto-Read ist eine Windows-exklusive Funktion, die Text aus der aktuell fokussierten Anwendung extrahiert und ihn per TTS vorliest.
So funktioniert es
- Aktiviere Auto-Read, indem du auf den Auto-Read-Button klickst.
- Markiere Text in einer beliebigen Anwendung (oder verwende Strg+C zum Kopieren).
- Talk to me erkennt den Inhalt der Zwischenablage und liest ihn automatisch mit deiner TTS-Konfiguration vor.
Anwendungsfälle
- E-Mails, Artikel oder Dokumente vorlesen lassen, ohne auf den Bildschirm zu starren.
- Eigene Texte überprüfen, indem du sie dir vorlesen lässt.
- Barrierefreiheits-Unterstützung für sehbeeinträchtigte Nutzer.
15. Notification Listener Windows
Der Notification Listener erfasst Windows-Toast-Benachrichtigungen und liest sie per TTS vor.
Voraussetzungen
- Windows Desktop Version
- Benachrichtigungszugriff in den Windows-Einstellungen erteilt
So funktioniert es
- Aktiviere den Notification Listener, indem du auf den Umschalter klickst.
- Erteile den Benachrichtigungszugriff, wenn Windows danach fragt.
- Wenn eine Windows-Toast-Benachrichtigung eintrifft (E-Mail, Chat-Nachricht, Kalendererinnerung), macht Talk to me Folgendes: Extrahiert den Titel und Inhalt der Benachrichtigung und liest sie mit deiner TTS-Konfiguration laut vor.
Konfiguration
- Aktivieren/Deaktivieren in Einstellungen → Hands-Free
- TTS-Stimme und Anbieter folgen deinen globalen TTS-Einstellungen
16. MP3-Aufnahme & Speichern Windows
TTS-Ausgabe aufnehmen
Wenn aktiviert, wird jede TTS-Synthese automatisch als MP3-Datei mit fortlaufender Nummerierung gespeichert (z. B. recording_001.mp3, recording_002.mp3).
Aufnahmen speichern
Klicke auf Aufnahmen speichern, um den Ordner mit allen aufgenommenen MP3-Dateien zu öffnen. Du kannst das Aufnahmeverzeichnis in den Einstellungen konfigurieren.
Hinweis zu Android-Berechtigungen Android
Die Android-Version von Talk to me benötigt mehrere Systemberechtigungen (Mikrofon, Overlay, Accessibility Service, Benachrichtigungszugriff) — jeweils mit einem eigenen Bestätigungsdialog. Wir verstehen, dass sich das umständlich anfühlen kann.
Wir hätten eine einfachere Einrichtung bevorzugt. Allerdings verlangen die Google Play Store Richtlinien und die Android-Sicherheitsvorgaben, dass jede sensible Berechtigung einzeln angefragt wird, mit einer klaren Erklärung, wofür sie verwendet wird und wofür nicht. Diese mehrstufigen Bestätigungsdialoge sind nicht unsere Designentscheidung — sie werden von den Plattform-Compliance-Anforderungen vorgeschrieben.
Jede Berechtigung wird nur dann angefragt, wenn du die entsprechende Funktion tatsächlich benötigst — nicht alle auf einmal bei der Installation. Du kannst jede Berechtigung jederzeit in den Android-Einstellungen widerrufen. Die App funktioniert weiterhin — die jeweilige Funktion wird einfach deaktiviert.
Hier ist eine Übersicht aller Android-Berechtigungen und warum sie benötigt werden:
| Berechtigung | Funktion | Erforderlich? |
|---|---|---|
| Mikrofon | Speech-to-Text Diktat, AI Voice Chat | Ja — Kernfunktion |
| Über anderen Apps anzeigen | Floating Bubble (Freisprecher-Overlay) | Nur bei Overlay-Nutzung |
| Accessibility Service | Text automatisch in Chat-App-Eingabefelder einfügen | Nur bei Auto-Paste-Nutzung |
| Benachrichtigungszugriff | Eingehende Nachrichten vorlesen | Nur bei Auto-Read-Nutzung |
| Internet | Kommunikation mit KI-Anbietern | Ja — für alle Funktionen erforderlich |
Vielen Dank für dein Verständnis. Wir nehmen deine Privatsphäre ernst — keine dieser Berechtigungen wird verwendet, um persönliche Daten zu sammeln, zu speichern oder zu übertragen. Siehe Datenschutz und Sicherheit für alle Details.
17. Floating Bubble (Overlay) Android
Die Floating Bubble ist ein kleines kreisförmiges Symbol, das über allen anderen Apps schwebt und freihändigen Zugang zum Diktieren bietet, ohne die App wechseln zu müssen.
Overlay aktivieren
- Tippe auf den Overlay-Button in der Haupt-App.
- Falls Androids Berechtigung „Über anderen Apps anzeigen" noch nicht erteilt ist, wirst du aufgefordert, sie zu aktivieren.
- Eine kleine Talk to me-Bubble erscheint auf dem Bildschirm.
Die Bubble verwenden
- Einfaches Tippen: Aufnahme starten oder stoppen. Roter pulsierender Rand während der Aufnahme, blauer pulsierender Rand während der TTS-Wiedergabe.
- Dreifaches Tippen: Test-Wiedergabe — liest einen vordefinierten Text vor, um zu bestätigen, dass TTS funktioniert.
- Langes Drücken: Löscht die Warteschlange ungelesener Nachrichten.
- Ziehen: Verschiebe die Bubble an eine beliebige Stelle auf dem Bildschirm.
Aufnahme über die Bubble
- Tippe auf die Bubble, um die Aufnahme zu starten.
- Nach der Transkription bestätigt ein „✓ Eingefügt!"-Toast, dass der Text eingefügt oder in die Zwischenablage gelegt wurde.
Bubble-Übersetzung und Auto-Einfügen
Die Bubble nutzt dieselbe Übersetzungslogik wie das Hauptfenster: Wenn sich Eingabe- und Ausgabesprache unterscheiden, wird dein Diktat automatisch übersetzt, bevor es eingefügt wird. Auch Voice Translate (akustisches Vorlesen) funktioniert in der Bubble.
Über Androids Accessibility Service fügt die Bubble den (ggf. übersetzten) Text direkt in das fokussierte Eingabefeld ein. In allen von uns getesteten Mainstream-Apps — darunter WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest und Skool — funktioniert das automatische Einfügen zuverlässig.
Falls du eine sehr exotische App nutzt, in der das automatische Einfügen scheitert, liegt der bereits übersetzte Text garantiert in der Zwischenablage — ein langer Druck auf das Eingabefeld und „Einfügen" macht den Text sichtbar.
Overlay beenden
Tippe erneut auf den Overlay-Button oder tippe auf Stopp in der Benachrichtigung.
18. Auto-Paste Android
Auto-Paste nutzt Androids Accessibility Service, um diktierten Text automatisch in das aktuell fokussierte Textfeld einzufügen.
Auto-Paste aktivieren
- Tippe auf den Auto-Paste-Button.
- Gehe zu Androids Barrierefreiheits-Einstellungen.
- Finde Talk to me und aktiviere es.
- Der Button zeigt nun ✓ mit einem cyanfarbenen Rand.
Eingabehilfe-Schaltfläche
Beim Aktivieren des Accessibility Service fragt Android nach einer Aktivierungsmethode. Diese bestimmt, wie du den Dienst schnell ein-/ausschalten kannst:
- Eingabehilfe-Schaltfläche (empfohlen): Ein kleiner Button erscheint in der Navigationsleiste. Tippe darauf, um den Dienst umzuschalten.
- Lauter + Leiser (3 Sekunden halten): Drücke und halte beide Lautstärketasten gleichzeitig 3 Sekunden lang, um umzuschalten.
Wir empfehlen die Eingabehilfe-Schaltfläche für die einfachste Bedienung. Dies ist eine Standard-Android-Systemfunktion — die Wahl beeinflusst nicht, wie Auto-Paste funktioniert.
Wichtige Hinweise
- Erfordert die Android-Berechtigung für Barrierefreiheit (eine sensible Berechtigung).
- Muss nach App-Updates möglicherweise erneut erteilt werden.
- Wird ausschließlich zum Einfügen von Text verwendet — auf keine anderen Barrierefreiheitsdaten wird zugegriffen.
App-Kompatibilität
Auto-Paste funktioniert in den meisten Android-Apps zuverlässig. Folgende Apps wurden mit v0.5.159 getestet:
| App | Auto-Paste | Übersetzung |
|---|---|---|
| ✅ | ✅ | |
| Gmail (Empfänger + Body) | ✅ | ✅ |
| Discord | ✅ | ✅ |
| Microsoft Teams | ✅ | ✅ |
| Viber | ✅ | ✅ |
| Chrome | ✅ | ✅ |
| ChatGPT | ✅ | ✅ |
| ✅ | ✅ | |
| ✅ | ✅ | |
| ✅ | ✅ | |
| Skool (WebView in Chrome) | ✅ | ✅ |
| Viber | ✅ | ✅ |
„App wurde Zugriff verweigert" — Eingeschränkte Einstellungen (Android 13+)
Auf manchen Geräten erscheint beim Aktivieren von Auto-Paste oder Benachrichtigungszugriff die Meldung „App wurde Zugriff verweigert" oder „Diese Einstellung ist derzeit nicht verfügbar." Das ist kein Fehler — es ist eine Sicherheitsfunktion von Android 13+ namens Eingeschränkte Einstellungen.
Betroffene Hersteller: Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.
So löst du das Problem:
- Öffne Android-Einstellungen → Apps → Alle Apps anzeigen → suche Talk to me.
- Tippe auf Talk to me, um die App-Info-Seite zu öffnen (nicht die Benachrichtigungs-Unterseite).
- Tippe auf das Drei-Punkte-Menü (⋮) oben rechts.
- Wähle Eingeschränkte Einstellungen zulassen.
- Bestätige mit PIN/Fingerabdruck.
- Gehe zurück zu Einstellungen → Bedienungshilfen und aktiviere Talk to me.
Tipp: Falls das ⋮-Menü nicht sichtbar ist, versuche zuerst die Berechtigung zu aktivieren (löst die Fehlermeldung aus). Gehe dann zur App-Info-Seite — das Menü sollte jetzt erscheinen.
Lenovo (ZUI): Wenn du in den Einstellungen auf Apps tippst, landest du möglicherweise auf der Benachrichtigungs-Unterseite statt auf der App-Info. Navigiere zurück und suche die vollständige App-Info-Seite mit Speicher, Berechtigungen und Batterie.
19. Auto-Read Nachrichten Android
Auto-Read liest eingehende Chat-Nachrichten automatisch per TTS vor — ideal beim Autofahren, Kochen oder Trainieren.
So funktioniert es
- Aktiviere Auto-Read (Kopfhörer-Symbol).
- Stelle sicher, dass der Benachrichtigungszugriff erteilt ist.
- Das Overlay muss aktiv sein.
- Wenn eine Nachricht von einer erlaubten App eintrifft, kündigt Talk to me den Absender an und liest die Nachricht laut vor.
Vorausgewählte Chat-Apps
WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.
Du kannst Apps in der Auto-Read App-Konfiguration hinzufügen oder entfernen.
20. Benachrichtigungszugriff Android
Der Benachrichtigungszugriff ermöglicht es Talk to me, eingehende Benachrichtigungen zu lesen — erforderlich für Auto-Read Nachrichten.
Zugriff erteilen
- Tippe auf den Benachrichtigungszugriff-Button.
- Gehe zu Androids Benachrichtigungslistener-Einstellungen.
- Finde Talk to me und aktiviere es.
- Der Button zeigt ✓ mit einem cyanfarbenen Rand.
Wichtige Hinweise
- Systemberechtigung — verarbeitet nur Benachrichtigungen von explizit erlaubten Apps.
- Es werden keine Benachrichtigungsdaten gespeichert, übertragen oder protokolliert.
21. Auto-Read App-Konfiguration Android
Steuere, welche Apps ihre Benachrichtigungen vorlesen lassen dürfen.
Bekannte Chat-Apps
Vorausgewählte Messaging-Apps mit individuellen Umschaltern (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).
Apps suchen und hinzufügen
- Tippe in das Suchfeld und gib einen App-Namen ein.
- Passende installierte Apps erscheinen, sortiert nach Relevanz.
- Setze das Häkchen, um eine App hinzuzufügen.
Wie die Filterung funktioniert
- Nur Benachrichtigungen von erlaubten Apps werden vorgelesen.
- Änderungen werden sofort wirksam — kein Neustart erforderlich.
22. Einstellungen
UI-Sprache
English, Deutsch, Français, Español — unabhängig von deiner Systemsprache.
Qualitätsvoreinstellung
| Voreinstellung | STT-Anbieter | LLM-Anbieter | Modell | Polish |
|---|---|---|---|---|
| Top Performer | Scribe v2 | OpenAI | GPT-5.4 | Stark |
| Standard | Scribe v2 | OpenAI | GPT-4.1 mini | Stark |
| Budget | Whisper | Groq | Standard | Leicht |
| Kostenlos | Deepgram | Groq | Standard | Aus |
| Benutzerdefiniert | Manuell | Manuell | Manuell | Manuell |
Speech-to-Text
- Anbieter: OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
- Benutzerdefinierte Schlüsselwörter (nur Scribe): Eigennamen, Marken, Fachbegriffe
- Sprache: Automatische Erkennung oder spezifisch
Text-to-Speech
- Anbieter: ElevenLabs, OpenAI TTS, Deepgram Aura 2
- Modell (ElevenLabs): Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5
LLM-Anbieter (Polish)
- Anbieter: OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
- Modell: Anbieter-Standard oder spezifisch
- Polish-Stärke: Leicht oder Stark
Übersetzungsanbieter
Separater Anbieter für KI-Übersetzung (kann sich vom Polish-Anbieter unterscheiden).
KI-Polish / KI-Übersetzung
Schalte beides unabhängig voneinander ein/aus. Wenn KI-Übersetzung aktiviert ist:
- Übersetzen nach: 20 Zielsprachen
- Voice Translate: Übersetzungen automatisch per TTS vorlesen
Android Hands-Free
Schnellumschalter für Overlay, Auto-Read Nachrichten, Auto-Paste, Benachrichtigungszugriff.
Speichern und Testen
- Alle aktuellen Einstellungen speichern — Speichert Änderungen dauerhaft auf dem Gerät
- Aktuelle Konfiguration testen — Testet alle konfigurierten Anbieter mit Antwortzeiten
23. Wortkorrekturen
Wortkorrekturen bringen Talk to me die korrekte Schreibweise von Namen, Marken und Fachbegriffen bei, die die Spracherkennung falsch erkennt.
Korrekturen hinzufügen
Einzeln hinzufügen
Gib Falsche Schreibweise und Korrekte Schreibweise ein und tippe/klicke auf Hinzufügen.
Massenimport
Gib die korrekte Schreibweise ein und liste dann die falschen Varianten auf (eine pro Zeile). Verwende Mit KI generieren, um wahrscheinliche Fehlschreibungen automatisch zu erstellen.
Multi-Import
Gib Paare als falsch;richtig ein (eines pro Zeile). Unterstützt ;, ->, Komma oder Tab als Trennzeichen.
Wie Korrekturen funktionieren
Während der Nachbearbeitung (Pipeline-Stufe 3) werden falsche Schreibweisen automatisch ersetzt, bevor KI-Polish ausgeführt wird.
24. Sicherung und Wiederherstellung
Einstellungen exportieren
- Öffne Sicherung & Wiederherstellung in den Einstellungen.
- Tippe/klicke auf Einstellungen exportieren.
- Gib ein Verschlüsselungspasswort ein und bestätige es (mind. 6 Zeichen).
- Windows: Der Speicherdialog schlägt
talktome-settings.ttmvor — du wählst den Ordner. - Android: Die Sicherung wird unter Downloads als
TalkToMe-backup.ttmabgelegt. Existiert der Name schon, hängt das System(1),(2)usw. an — alles gültige verschlüsselte Backups.
Einstellungen importieren
- Tippe/klicke auf Einstellungen importieren.
- Automatisch (Android): Die App sucht die neueste passende Datei
TalkToMe-backupmit Endung.ttm(inkl.TalkToMe-backup (1).ttmusw.) im App-Speicher und in Downloads. - Öffnet sich der System-Dateidialog: Auf vielen Geräten (z. B. Samsung) ist die erste Ansicht Zuletzt verwendet und oft Bilder voreingestellt — die
.ttm-Dateien erscheinen erst, wenn du oben auf Dokumente oder Diese Woche wechselst oder den Ordner Download direkt öffnest. - Neues Gerät: Kopiere die
.ttmvom alten Gerät (USB, Cloud, E-Mail), dann Import und Datei wählen. - Gib das Verschlüsselungspasswort ein.
- Alle Einstellungen werden wiederhergestellt und die App startet neu.
Technische Details
- Verschlüsselung: AES-256-GCM mit PBKDF2-HMAC-SHA256 (100.000 Iterationen)
- Enthalten: Alle Einstellungen, API-Schlüssel, Wortkorrekturen, Auto-Read-Apps, Qualitätsvoreinstellung, UI-Sprache
- NICHT enthalten: Lizenzaktivierung (an die Machine ID gebunden)
25. Nutzungs-Dashboard
| Metrik | Beschreibung |
|---|---|
| STT-Aufrufe | Durchgeführte Speech-to-Text-Transkriptionen |
| LLM Polish | KI-Polish- oder KI-Übersetzungsvorgänge |
| TTS Synth | Text-to-Speech-Synthesevorgänge |
Die Zähler sind kumulativ seit dem letzten Zurücksetzen der Einstellungen.
26. Fehlerbehebung
Allgemein
| Problem | Lösung |
|---|---|
| „Kein API-Schlüssel konfiguriert" | Füge einen Schlüssel im Key Pool für die benötigte Funktion hinzu |
| Aufnahme startet nicht | Prüfe die Mikrofonberechtigung in den Systemeinstellungen |
| Voice Translate erzeugt kein Audio | Stelle sicher, dass ein TTS-API-Schlüssel konfiguriert und funktionsfähig ist |
| Export schlägt fehl | Prüfe den Schreibzugriff auf den Downloads-Ordner |
| Keine Sicherungsdatei im Import-Dialog | Von Bilder auf Dokumente / Diese Woche wechseln oder Ordner Download öffnen — siehe §24 Import |
Windows Windows-spezifisch
| Problem | Lösung |
|---|---|
| Strg+Win-Hotkey funktioniert nicht | Stelle sicher, dass die App läuft (prüfe den Infobereich der Taskleiste) |
| Text wird nach dem Diktat nicht eingefügt | Stelle sicher, dass das Zielfenster Strg+V unterstützt |
| Notification Listener nicht verfügbar | Verfügbar auf Windows Desktop — stelle sicher, dass der Benachrichtigungszugriff in den Windows-Einstellungen erteilt ist |
| Mini-Player erscheint zu groß/klein | Die DPI-bewusste Größenanpassung erfolgt automatisch; starte die App neu, wenn die Anzeigeeinstellungen geändert wurden |
Android Android-spezifisch
| Problem | Lösung |
|---|---|
| Auto-Read funktioniert nicht | Stelle sicher, dass das Overlay aktiv ist, Auto-Read aktiviert ist und der Benachrichtigungszugriff erteilt wurde |
| Auto-Paste funktioniert nicht | Aktiviere den Accessibility Service erneut in den Android-Einstellungen |
| Bubble erscheint nicht | Erteile die Berechtigung „Über anderen Apps anzeigen" |
| „App wurde Zugriff verweigert" bei Berechtigungen | Eingeschränkte Einstellungen (Android 13+) — siehe §18 „Eingeschränkte Berechtigungen" für die Schritt-für-Schritt-Lösung |
| Bildschirm dreht sich nicht (Tablet) | Prüfe, ob der PC-Modus aktiv ist (Schnelleinstellungen von oben herunterziehen). Im PC-Modus wird Auto-Rotate ignoriert — zurück in den Android-Modus wechseln. Betrifft insbesondere Lenovo-Tablets (ZUI). |
27. Datenschutz und Sicherheit
Datenverarbeitung
- Keine Datenerfassung: Talk to me erfasst, speichert oder überträgt keine Nutzerdaten an Server der mrocon GmbH.
- Direkte API-Kommunikation: Audio und Text gehen direkt von deinem Gerät an deinen gewählten KI-Anbieter.
- Nur lokale Speicherung: Alle Einstellungen und API-Schlüssel werden ausschließlich auf deinem Gerät gespeichert.
- Keine Analysen: Kein Tracking, keine Analysen, keine Telemetrie jeglicher Art.
Berechtigungen
Windows
| Berechtigung | Zweck |
|---|---|
| Mikrofon | Audio für Diktate aufnehmen |
| Benachrichtigungszugriff | Benachrichtigungen lesen |
| Internet | Kommunikation mit KI-Anbietern |
Android
| Berechtigung | Zweck |
|---|---|
| Mikrofon | Audio für Diktate aufnehmen |
| Overlay (Über anderen Apps anzeigen) | Floating Bubble anzeigen |
| Benachrichtigungslistener | Benachrichtigungen für Auto-Read lesen |
| Accessibility Service | Text automatisch in Felder einfügen |
| Internet | Kommunikation mit KI-Anbietern |
| Installierte Pakete abfragen | App-Namen in den Auto-Read-Einstellungen anzeigen |
Verschlüsselung
- Windows: API-Schlüssel verschlüsselt mit DPAPI (Windows Data Protection API)
- Android: API-Schlüssel im app-privaten internen Speicher
- Sicherungsdateien: AES-256-GCM-Verschlüsselung
Anhang A — Unterstützte Sprachen
Spracheingabe-Sprachen
Automatische Erkennung, Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Koreanisch, Chinesisch, Russisch, Arabisch, Hindi, Polnisch, Türkisch, Schwedisch, Ukrainisch
Übersetzungs-Zielsprachen
Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Chinesisch, Koreanisch, Russisch, Arabisch, Hindi, Polnisch, Türkisch, Schwedisch, Ukrainisch, Dänisch, Finnisch, Norwegisch
TTS-Sprachen
Auto, Deutsch, Englisch, Französisch, Italienisch, Spanisch, Portugiesisch, Niederländisch, Polnisch, Schwedisch, Dänisch, Finnisch, Norwegisch, Türkisch, Japanisch, Koreanisch, Chinesisch
UI-Sprachen
English, Deutsch, Français, Español
Anhang B — Unterstützte Anbieter
Speech-to-Text
| Anbieter | Hinweise |
|---|---|
| OpenAI Whisper | Am weitesten verbreitet, zuverlässig |
| Deepgram Nova-2 / Nova-3 | Schnell, gute Genauigkeit |
| ElevenLabs Scribe v2 | Unterstützt benutzerdefinierte Schlüsselwörter |
| Groq Whisper | Kostenloses Kontingent verfügbar, schnell |
LLM (Polish / Übersetzung)
| Anbieter | Hinweise |
|---|---|
| OpenAI | GPT-4o-mini, GPT-5.4 usw. |
| Groq | Kostenloses Kontingent, Llama-Modelle |
| Anthropic | Claude-Modelle |
| Google Gemini | Gemini-Modelle |
| xAI Grok | Kostenloses Kontingent verfügbar |
Text-to-Speech
| Anbieter | Hinweise |
|---|---|
| ElevenLabs | Beste Qualität, Voice-Cloning, 4 Modelle |
| OpenAI TTS | 6 integrierte Stimmen, unkompliziert |
| Deepgram Aura 2 | Schnelle Synthese |
Anhang C — Qualitätsvoreinstellungen
| Voreinstellung | STT | LLM | Modell | Polish | Kosten |
|---|---|---|---|---|---|
| Top Performer | Scribe v2 | OpenAI | GPT-5.4 | Stark | $$$ |
| Standard | Scribe v2 | OpenAI | GPT-4.1 mini | Stark | $$ |
| Budget | Whisper | Groq | Standard | Leicht | $ |
| Kostenlos | Deepgram | Groq | Standard | Aus | Kostenlos |
| Benutzerdefiniert | Manuell | Manuell | Manuell | Manuell | Variabel |
Anhang D — Tastenkürzel Windows
| Tastenkürzel | Aktion |
|---|---|
| Strg+Win | Aufnahme starten / stoppen |
| Strg+Win (während Verarbeitung) | Pipeline abbrechen |
| TTS-Hotkey | Markierten Text vorlesen |
Talk to me ist ein Produkt der mrocon GmbH. Alle Rechte vorbehalten.
Für Support kontaktiere team@talktome.studio oder besuche talktome.studio.
↑ Zurück nach oben