Talk to me — speak, type, listen

Talk to me — Benutzerhandbuch

Version: 0.5.149 (Windows Desktop) / 0.5.157 (Android Hands-Free) Letzte Aktualisierung: 2026-04-20
Dieses Handbuch deckt sowohl die Windows Desktop- als auch die Android Hands-Free-Edition von Talk to me ab. Abschnitte mit Windows oder Android gelten nur für die jeweilige Plattform. Alle anderen Abschnitte gelten für beide.

1. Einführung

Talk to me ist ein professionelles Diktier-, Übersetzungs- und Sprachinteraktionsstudio für Windows Desktop und Android. Es wandelt deine Sprache in Text um, optimiert ihn mit KI, übersetzt ihn in über 20 Sprachen und liest ihn dir vor — alles in Echtzeit.

Die App folgt einer strikten BYOK (Bring Your Own Key)- und Zero-Knowledge / Zero-Trust-Architektur: Deine API-Schlüssel und Daten verlassen niemals dein Gerät.

Hauptfunktionen

  • Echtzeit-Diktat: Nimm deine Stimme auf und erhalte in Sekunden optimierten Text.
  • KI-Polish: Automatische Grammatikkorrektur und Entfernung von Füllwörtern — unterstützt durch den KI-Anbieter deiner Wahl.
  • Live-Übersetzung: Übersetze diktierten Text spontan in über 20 Sprachen.
  • Voice Translate (Speech-to-Speech): Dein übersetzter Text wird automatisch in der Zielsprache vorgelesen.
  • Text-to-Speech: Wandle beliebigen Text in natürlich klingende Sprache um — mit ElevenLabs, OpenAI TTS oder Deepgram.
  • Live-Sprachimmersion: Sprich in deiner Muttersprache und höre und sieh den Text sofort in der Sprache, die du lernen möchtest.
  • Wortkorrekturen: Bringe der App die korrekte Schreibweise deiner Namen, Marken und Fachbegriffe bei, die die Spracherkennung falsch erkennt.
  • Verschlüsseltes Backup: Exportiere alle Einstellungen und API-Schlüssel als passwortgeschützte, verschlüsselte Datei.
  • Multi-Provider-Unterstützung: Wähle aus OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram und weiteren.

Plattform-Highlights

Funktion Windows Desktop Android Hands-Free
Mini-Player (kompakter Modus)
Globale Hotkeys (Strg+Win)
Auto-Read (Strg+C Textextraktion)
Notification Listener
MP3-Aufnahme & Speichern
Floating Pill (Spektrumanalysator)
Floating Bubble (Overlay)
Auto-Paste (Barrierefreiheit)
Auto-Read Nachrichten (aus Chat-Apps)
App-basierter Benachrichtigungszugriff

Sicherheitsprinzipien

  • Zero-Knowledge: Talk to me speichert, überträgt oder hat niemals Zugriff auf deine API-Schlüssel auf irgendeinem Server. Alle Schlüssel werden ausschließlich lokal auf deinem Gerät gespeichert.
  • Zero-Trust: Die App „telefoniert" nie nach Hause. Keine Analysen, kein Tracking, keine Telemetrie. Deine Diktierdaten fließen direkt von deinem Gerät zum gewählten KI-Anbieter — und nirgendwo anders hin.
  • BYOK: Du bringst deine eigenen API-Schlüssel von den Anbietern mit, denen du vertraust. Talk to me verkauft keinen API-Zugang weiter.

2. Erste Schritte

Windows Installation — Windows Desktop

Talk to me für Windows ist als EV-signierter Installer auf talktome.studio oder über den Microsoft Store verfügbar.

Systemanforderungen:

  • Windows 10 oder neuer (64-Bit)
  • Eine aktive Internetverbindung
  • Mindestens ein API-Schlüssel eines unterstützten Anbieters

Der Installer ist digital mit einem Extended Validation (EV)-Zertifikat von Certum (mrocon GmbH) signiert. Windows SmartScreen zeigt keine Warnungen an.

Android Installation — Android

Talk to me für Android ist als APK auf talktome.studio oder über den Google Play Store verfügbar.

Systemanforderungen:

  • Android 8.0 oder neuer
  • Eine aktive Internetverbindung
  • Mindestens ein API-Schlüssel eines unterstützten Anbieters

Erster Start

Wenn du Talk to me zum ersten Mal öffnest, siehst du das License Gate. Du hast zwei Möglichkeiten:

  1. Lizenzschlüssel eingeben, um die vollständige App sofort freizuschalten.
  2. 7-Tage-Testversion starten, um alle Funktionen ohne Lizenzschlüssel zu erkunden.

Nach der Aktivierung oder dem Start der Testversion lädt die App und du kannst sie sofort nutzen — vorausgesetzt, du hast mindestens einen API-Schlüssel konfiguriert (siehe Key Pool).

3. Lizenzaktivierung

Das License Gate

Beim ersten Start (oder nach Ablauf der Testversion) wird das License Gate angezeigt. Es zeigt:

  • Das Talk to me-Wortbild
  • Ein Textfeld für deinen Lizenzschlüssel (Format: TTM-XXXX-XXXX-XXXX-XXXX)
  • Deine Machine ID (eine eindeutige Gerätekennung, benötigt für die Aktivierung)
  • Einen Aktivieren-Button
  • Einen 7-Tage-Testversion starten-Button (sofern noch keine Testversion genutzt wurde)
  • Links zu Lizenz kaufen und dem Kundenportal

Lizenz aktivieren

  1. Gib deinen Lizenzschlüssel in das Textfeld ein.
  2. Tippe/klicke auf Aktivieren.
  3. Die App verifiziert deinen Schlüssel online und aktiviert ihn für dieses Gerät.
  4. Nach der Aktivierung siehst du das License Gate nicht mehr — es sei denn, du deaktivierst die Lizenz oder sie läuft ab.

Die Testversion

  • Tippe/klicke auf 7-Tage-Testversion starten, um alle Funktionen für 7 Tage freizuschalten.
  • Ein Banner am oberen Rand der App zeigt die verbleibenden Testtage an.
  • Nach 7 Tagen läuft die Testversion ab und das License Gate erscheint erneut.

Lizenz-Modal

Innerhalb der App kannst du deinen Lizenzstatus einsehen, indem du auf den Lizenz-Button (Schild-Symbol) klickst. Das Lizenz-Modal zeigt:

  • Status: Aktiv, Testversion, Karenzzeit oder Abgelaufen
  • Produkt: Name deines Lizenzprodukts
  • Plan: Jährlich oder Lebenslang
  • Ablaufdatum: Ablaufdatum (oder „Lebenslang")
  • Geräte: Anzahl aktiver Geräte / maximal erlaubte Anzahl
  • Schlüssel: Dein Lizenzschlüssel (teilweise maskiert)
  • Machine ID: Die eindeutige Kennung deines Geräts

Von diesem Modal aus kannst du:

  • Gerät deaktivieren — gibt die Lizenz von diesem Gerät frei, damit du sie auf einem anderen verwenden kannst
  • Schließen — zurück zur App

4. App-Übersicht

Die App ist in drei Haupt-Tabs und mehrere unterstützende Bereiche gegliedert:

Navigation

Am oberen Bildschirmrand kannst du über drei Tabs zwischen den Hauptmodi der App wechseln:

  • Speech-to-Text — Nimm deine Stimme auf und erhalte optimierten, übersetzten Text
  • Text-to-Speech — Wandle geschriebenen Text in gesprochenes Audio um
  • AI Voice Chat — Führe Echtzeit-Sprachgespräche mit KI (siehe §12)

Interface-Layout

Unterhalb der Tabs ist die Hauptoberfläche vertikal angeordnet:

  1. Quick-Override-Steuerung — Sprachauswahl für Ein- und Ausgabe
  2. Aktionsbuttons — Schnellzugriff auf Plattformfunktionen
  3. Statusanzeige — Zeigt den aktuellen Zustand (Bereit, Aufnahme, Transkription usw.)
  4. Pipeline-Anzeige — Visueller Fortschritt deines Diktats durch die Verarbeitungsstufen
  5. Ergebnisbereich — Dein transkribierter/übersetzter Text
  6. TTS-Panel (nur im Text-to-Speech-Tab) — Texteingabe und Wiedergabesteuerung
  7. AI Voice Chat-Panel (nur im AI Voice Chat-Tab) — Stimm-/Persona-Auswahl, Gesprächssteuerung, Live-Transkript (siehe §12)
  8. Key Pool — Verwaltung deiner API-Schlüssel
  9. Einstellungen — Alle Konfigurationsoptionen

Aktionsbuttons

Windows Desktop-Aktionsbuttons:

  • Voice Translate — Speech-to-Speech-Übersetzung ein-/ausschalten
  • Notification Listener — Benachrichtigungs-Vorlesen ein-/ausschalten
  • Auto-Read — Strg+C Text-to-Speech ein-/ausschalten
  • TTS aufnehmen — MP3-Aufnahme der TTS-Ausgabe ein-/ausschalten
  • Aufnahmen speichern — Aufnahmeordner öffnen

Android Aktionsbuttons:

  • Lizenz — Lizenz-Modal öffnen
  • Voice Translate — Speech-to-Speech-Übersetzung ein-/ausschalten
  • Overlay — Floating Bubble starten/stoppen
  • Auto-Paste — Barrierefreiheits-Einstellungen öffnen
  • Auto-Read — Auto-Read Nachrichten ein-/ausschalten
  • Benachrichtigungszugriff — Benachrichtigungslistener-Einstellungen öffnen

Der Info-Button

In der Kopfzeile öffnet der Info-Button das App-Info-Modal, das Folgendes anzeigt:

  • Einen Link zu talktome.studio
  • Die Support-E-Mail-Adresse (tippe/klicke zum Kopieren)
  • Die aktuelle App-Version
  • Anzahl der erkannten Mikrofone

5. Speech-to-Text

Der Speech-to-Text-Tab ist der Hauptmodus von Talk to me. Hier nimmst du deine Stimme auf und erhältst optimierten, optional übersetzten Text.

Ein Diktat aufnehmen

  1. Stelle sicher, dass der Status Bereit — Diktat starten (grün) anzeigt.
  2. Klicke/tippe auf den großen Diktat starten-Button.
  3. Der Button wird rot und zeigt Aufnahme stoppen. Sprich deutlich.
  4. Während der Aufnahme siehst du: Aufnahmedauer in Sekunden, Audiopegelmesser mit der Eingabelautstärke, den aktuell aktiven STT-Anbieter und die Sprache.
  5. Klicke/tippe erneut auf den Button, um die Aufnahme zu stoppen.

Windows Du kannst die Aufnahme auch mit dem globalen Hotkey Strg+Win starten/stoppen (das App-Fenster muss dafür nicht im Fokus sein).

Was nach der Aufnahme passiert

Nachdem du die Aufnahme gestoppt hast, verarbeitet die App dein Audio durch die Pipeline (siehe Die Pipeline):

  1. Capture — Audioaufnahme wird abgeschlossen
  2. STT — Dein Audio wird vom gewählten Anbieter transkribiert
  3. Nachbearbeitung — Der Rohtext wird bereinigt (Wortkorrekturen angewendet)
  4. Polish / Übersetzung — Falls aktiviert, korrigiert die KI die Grammatik oder übersetzt den Text
  5. Inject — Der fertige Text wird in die Zwischenablage gelegt

Windows Der Text wird automatisch über simuliertes Strg+V in das zuvor fokussierte Fenster eingefügt (Smart Clipboard Injection).

Android Wenn Auto-Paste aktiviert ist, wird der Text automatisch über den Accessibility Service in das aktive Textfeld eingefügt.

Der Ergebnisbereich

Nach der Verarbeitung erscheint dein Text im Ergebnisbereich. Ein Hinweis bestätigt, dass der Text in die Zwischenablage kopiert wurde und zum Einfügen bereit ist.

Aufnahme-Signale (Audio Cues)

Talk to me signalisiert dir akustisch und visuell, wann das Mikrofon tatsächlich aufnimmt — damit kein Wort verloren geht.

Akustische Signale

  • Start-Beep (kurzer hoher Blip): „Mikrofon ist live, du kannst sprechen."
  • Stop-Beep (kurzer tiefer Blip): „Aufnahme beendet."

Beide Beeps sind in den Einstellungen ein-/ausschaltbar und in der Lautstärke regelbar (Standard: 100 %).

Visuelle Signale

  • Idle/Standby: Mikrofon-Icon ist orange — Aufnahme inaktiv.
  • Aufnahme aktiv: Mikrofon-Icon ist grün — jedes gesprochene Wort wird aufgenommen.

Hinweis: Start-Beep auf Speakerphones

Manche Audio-Geräte unterdrücken den Start-Beep. Das ist kein Bug, sondern eine Hardware-Eigenschaft:

GerätetypBeep hörbar?Empfehlung
Lautsprecher + getrenntes Mikrofon✅ Ja
Headset mit getrenntem Mic + Speaker✅ Ja
USB-Speakerphone (Jabra Speak2, Logitech P710e etc.)⚠️ Eventuell neinHeadset oder externe Lautsprecher verwenden
Bluetooth-Headset im Hands-Free-Profil⚠️ Eventuell neinKabelgebundenes Headset als Alternative

Wichtig: Wenn du das Standard-Audiogerät wechselst, starte Talk to me neu, damit der Beep auf dem neuen Gerät gespielt wird.

6. Text-to-Speech

Der Text-to-Speech-Tab ermöglicht es dir, beliebigen geschriebenen Text in natürlich klingende Sprache umzuwandeln.

Grundlegende Nutzung

  1. Wechsle zum Text-to-Speech-Tab.
  2. Gib Text ein oder füge ihn in das Textfeld ein.
  3. Klicke/tippe auf Vorlesen, um die Wiedergabe zu starten.

Wiedergabesteuerung

  • Pause — Hält die Wiedergabe vorübergehend an
  • Fortsetzen — Setzt die Wiedergabe von der Pausenposition fort
  • Stop — Beendet die Wiedergabe vollständig
  • Wiederholen — Spielt dasselbe Audio erneut ab, ohne es neu zu synthetisieren

Anbieter- und Stimmauswahl

  • ElevenLabs: Wähle aus deinen verfügbaren Stimmen oder verwende „Default (Brian v3)". Benutzerdefinierte Voice-IDs werden unterstützt.
  • OpenAI TTS: Nova, Alloy, Echo, Fable, Onyx, Shimmer
  • Deepgram Aura 2: Schnelle Synthese

Modellauswahl (ElevenLabs)

ModellZeichenlimitAm besten für
Eleven v35.000Höchste Qualität, kurze Inhalte
Multilingual v210.000Mehrsprachige Unterstützung
Flash v2.540.000Schnelle Synthese, lange Texte
Turbo v2.540.000Ausgewogenes Verhältnis von Geschwindigkeit und Qualität

Audioqualität

QualitätBeschreibung
MP3 192 kbpsCreator-Qualität — höchste Klangtreue
MP3 128 kbpsStandard — guter Kompromiss
MP3 64 kbpsKompakt — kleinere Dateigröße
MP3 32 kbpsMinimal — niedrigste Qualität

Textnormalisierung

EinstellungBeschreibung
AutoDas Modell entscheidet, wie Zahlen behandelt werden
Immer aktivZahlen werden in Wörter umgewandelt (z. B. „42" → „zweiundvierzig")
AusKeine Normalisierung

Stimmfeinabstimmung (ElevenLabs)

ReglerBereichBeschreibung
StabilitätVariabel ↔ StabilNiedriger = ausdrucksstärker; Höher = konsistenter
ÄhnlichkeitKreativ ↔ OriginalWie genau die Ausgabe der Originalstimme entspricht
StilNeutral ↔ ExpressivGrad des emotionalen Ausdrucks
GeschwindigkeitLangsam (0,7×) ↔ Schnell (1,2×)Wiedergabegeschwindigkeit

Zusätzliche Optionen

  • Code-Filter: Entfernt Codeblöcke und technische Syntax vor der Synthese.
  • Automatische Aufnahme: Speichert synthetisiertes Audio automatisch. Tippe auf das Ordner-Symbol, um das Verzeichnis auszuwählen.
  • Speaker Boost: Verbessert die Stimmklarheit (nur ElevenLabs).

7. Die Pipeline

Die Pipeline ist die zentrale Verarbeitungs-Engine von Talk to me. Sie visualisiert die Stufen, die dein Audio von der Aufnahme bis zur finalen Ausgabe durchläuft.

Pipeline-Stufen

StufeBezeichnungBeschreibung
1CaptureAudioaufnahme und Abschluss
2STTSpeech-to-Text-Transkription
3PostNachbearbeitung (Bereinigung, Wortkorrekturen)
4Polish oder TransKI-Polish oder KI-Übersetzung
5InjectText in Zwischenablage kopiert / automatisch eingefügt

TDF-Indikatoren (Text Display Field)

Jede Pipeline-Stufe zeigt den aktiven Anbieter (z. B. „Scribe v2", „GPT-5.4") und nach Abschluss die Zeitinformationen an.

Zeitanzeige

Nach der Verarbeitung zeigt eine Zeitleiste:

STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s

Wenn Voice Translate aktiv ist, wird zusätzlich eine S2S (Speech-to-Speech)-Zeit angezeigt.

8. Voice Translate

Voice Translate kombiniert KI-Übersetzung mit Text-to-Speech, um ein Echtzeit-Speech-to-Speech-Übersetzungserlebnis zu schaffen.

Neu seit v0.5.150: Die Textübersetzung ist automatisch aktiv, sobald sich deine Eingabesprache (Speech Input) und Ausgabesprache (Text Output) unterscheiden. Du brauchst keinen extra Schalter mehr für die Textübersetzung. Der Voice Translate-Button steuert nur noch, ob der finale Text akustisch vorgelesen werden soll (Sprachausgabe über TTS).

Beispiele

  • Eingabe Deutsch, Ausgabe Englisch, Voice Translate aus → Text wird automatisch übersetzt, aber nur als Text in die Zwischenablage gelegt.
  • Eingabe Deutsch, Ausgabe Englisch, Voice Translate an → Text wird übersetzt und zusätzlich auf Englisch vorgelesen.
  • Eingabe Deutsch, Ausgabe Deutsch, Voice Translate an → Keine Übersetzung, aber der deutsche Text wird vorgelesen (klassisches TTS).

So funktioniert es

  1. Aktiviere Voice Translate (lila wenn aktiv).
  2. Nimm ein Diktat in deiner Ausgangssprache auf.
  3. Die App transkribiert → übersetzt → liest die Übersetzung laut vor.

Konfiguration

  • Zielsprache: Stelle sie ein unter Einstellungen → KI-Übersetzung → Übersetzen nach
  • TTS-Stimme: Verwendet deinen konfigurierten TTS-Anbieter und die gewählte Stimme

Anwendungsfälle

  • Reisen: Sprich in deiner Sprache und lass dir die Übersetzung vorlesen.
  • Sprachenlernen: Höre, wie dein Text in einer anderen Sprache klingt.
  • Live-Sprachimmersion: Verwandle deine eigenen Gedanken in lebendige Sprachpraxis — sprich in deiner Muttersprache und nimm die Ausgabe in der Sprache auf, die du meistern möchtest.

9. KI-Polish & Übersetzung

KI-Polish

Wenn aktiviert, korrigiert KI-Polish Grammatik, Zeichensetzung und (mit der Einstellung „Stark") entfernt Füllwörter wie „ähm", „also", „quasi", „halt".

Polish-Stärke:

  • Leicht — Nur Grammatik- und Zeichensetzungskorrektur
  • Stark — Entfernt zusätzlich Füllwörter

Statusanzeigen:

  • POLISH (cyan) — Aktiv
  • AUS — Deaktiviert
  • KEY FEHLT (gelb) — Kein LLM-Schlüssel konfiguriert

KI-Übersetzung

Wenn aktiviert, wird dein diktierter Text in die Zielsprache übersetzt.

Statusanzeigen:

  • ÜBERSETZEN (cyan) — Aktiv, zeigt die Zielsprache
  • SPRACHAUSGABE (lila) — Voice Translate ist ebenfalls aktiv
  • NUR TEXT — Übersetzung ohne Sprachausgabe
  • AUS — Deaktiviert
Hinweis: Seit v0.5.150 erkennt Talk to me automatisch, wenn Eingabe- und Ausgabesprache unterschiedlich sind, und aktiviert die Übersetzung — auch ohne expliziten Toggle. KI-Polish bleibt unabhängig davon verfügbar und wird nicht mehr automatisch deaktiviert.

10. Quick-Override-Steuerung

Die Quick-Override-Steuerung ermöglicht es dir, die Ein- oder Ausgabesprache für ein einzelnes Diktat vorübergehend zu ändern, ohne deine gespeicherten Einstellungen zu modifizieren.

Spracheingabe-Override

Wähle eine andere Eingabesprache für die nächste Aufnahme:

  • Automatische Erkennung — Der STT-Anbieter erkennt die Sprache automatisch
  • Einzelne Sprachen (siehe Anhang A)

Textausgabe-Override

Wähle eine andere Ausgabesprache (entspricht dem vorübergehenden Aktivieren der Übersetzung):

  • Standard (wie Eingabe) — Keine Übersetzung
  • Alle 20 Übersetzungssprachen

Auf Einstellungen zurücksetzen

Wenn ein Override aktiv ist, erscheint ein Zurücksetzen-Button (↩-Symbol). Tippe/klicke darauf, um zu deinen gespeicherten Einstellungen zurückzukehren.

11. Key Pool

Der Key Pool ist der Ort, an dem du deine API-Schlüssel verwaltest. Talk to me verwendet eine Pool-basierte Architektur — du kannst mehrere Schlüssel pro Kategorie hinzufügen, und die App rotiert automatisch zwischen ihnen basierend auf Trust Scores.

Kategorien

KategorieZweckUnterstützte Anbieter
Speech-to-TextTranskriptionOpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper
KI-Polish / LLMGrammatik, ÜbersetzungOpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Text-to-SpeechSprachsyntheseElevenLabs, Deepgram, OpenAI TTS

Einen Schlüssel hinzufügen

  1. Klappe den Key Pool-Bereich auf.
  2. Klicke/tippe auf + Schlüssel hinzufügen in der gewünschten Kategorie.
  3. Wähle den Anbieter.
  4. Gib ein Label ein (z. B. „Mein OpenAI-Schlüssel").
  5. Gib deinen API-Schlüssel ein.
  6. Klicke/tippe auf Schlüssel speichern.

Key-Slot-Funktionen

Jeder Key-Slot zeigt an:

  • Label und Anbieter
  • Maskierter Schlüssel (letzte 4 Zeichen sichtbar)
  • Trust Score — Farbcodiert (grün/gelb/rot)
  • Statistiken — Aufrufe, Erfolge, Fehler, Ratenlimits

Aktionen pro Slot:

  • Testen — Überprüft, ob der Schlüssel funktioniert
  • Pausieren / Aktivieren — Vorübergehend deaktivieren oder wieder aktivieren
  • Entfernen — Dauerhaft löschen

Trust System

StufeScoreFarbeVerhalten
Ausgezeichnet≥80%GrünBevorzugt
Gut≥60%GrünNormal
OK≥40%GelbFallback
Schwach≥20%GelbSelten verwendet
Kritisch<20%RotLetzter Ausweg

Schlüssel, die Ratenlimits erreichen, werden automatisch in eine Abkühlphase versetzt, während andere Schlüssel verwendet werden.

12. KI-Sprachchat

Talk to me enthält zwei unabhängige KI-Sprachchat-Engines, jede mit eigenen Stärken. Du kannst jederzeit über den KI-Chat-Tab zwischen ihnen wechseln.

EngineTechnologieHauptvorteil
12a. Deepgram Voice AgentDeepgram Agent API (WebSocket)32+ Voreinstellungen, 6 LLM-Anbieter, 4 TTS-Anbieter, Latenz-Überwachung, verwalteter & BYO-Modus
12b. Gemini 3.1 Flash LiveGoogle Gemini Live API (WebSocket)30 ausdrucksstarke Stimmen, Persona-Voreinstellungen, Denktiefe-Steuerung, native Google Multimodal-KI

Vollständiger Freisprech-Lautsprechermodus (Android)

Beide Sprachchat-Engines funktionieren vollständig freihändig über den Lautsprecher deines Telefons. Talk to me verwendet proprietäre akustische Echounterdrückung (AEC) über eine native Android-Bridge, um deine Stimme von der Lautsprecherausgabe der KI zu trennen. Unterbreche jederzeit — die KI stoppt sofort und macht dort weiter, wo du möchtest. Keine Kopfhörer oder zusätzliche Ausrüstung erforderlich. Desktop-Benutzer mit jedem Standard-Setup funktionieren ebenso gut.

12a. Deepgram Voice Agent

Der Deepgram Voice Agent bietet Echtzeit-Vollduplex-KI-Sprachgespräche über eine einzelne WebSocket-Verbindung zur Deepgram Agent API. Er orchestriert Speech-to-Text (STT), Large Language Models (LLMs) und Text-to-Speech (TTS) in einer einheitlichen Pipeline — du sprichst, die KI denkt und antwortet mit natürlicher Stimme, alles in Echtzeit.

Erste Schritte

  1. Wechsle zum KI-Chat-Tab, dann wähle den Deepgram-Untertab.
  2. Füge einen Deepgram API-Schlüssel im Key Pool hinzu (scrolle nach unten zum Abschnitt “Deepgram Voice Agent”).
  3. Wähle eine Konfigurations-Voreinstellung oder konfiguriere manuell.
  4. Tippe auf die grüne Schaltfläche Gespräch starten.

Konfigurations-Voreinstellungen (32+ Optionen)

Talk to me wird mit über 32 Voreinstellungen in sechs Kategorien ausgeliefert. Jede Voreinstellung konfiguriert STT-Modell, LLM-Anbieter/Modell, TTS-Anbieter/Stimme und Turn-Detection-Parameter vor.

Top Tier — Beste Qualität

VoreinstellungLLMTTSSTT
Gemini 3.0 Pro + Sonic-3Google Gemini 3.0 ProCartesia Sonic-3Nova-3
Claude 4.5 + Sonic-3Anthropic Claude Sonnet 4.5Cartesia Sonic-3 (Tessa)Nova-3
Claude 4.6 + Sonic-3Anthropic Claude Sonnet 4.6Cartesia Sonic-3 (Katie)Nova-3
GPT-5.4 + Sonic-3OpenAI GPT-5.4Cartesia Sonic-3 (Katie)Nova-3
GPT-5.4 + KieferOpenAI GPT-5.4Cartesia Sonic-3 (Kiefer, Male)Nova-3

Ultra-Fast — Niedrigste Latenz (~1,1s)

VoreinstellungLLMTTSSTT
GPT-4o Mini + Sonic-3OpenAI GPT-4o MiniCartesia Sonic-3Nova-3
GPT-5.4 Nano + Sonic-3OpenAI GPT-5.4 NanoCartesia Sonic-3Nova-3
Haiku 4.5 + Sonic-3Anthropic Claude Haiku 4.5Cartesia Sonic-3Nova-3
Gemini 2.5 Flash + Sonic-3Google Gemini 2.5 FlashCartesia Sonic-3Nova-3
Nemotron 49B + Sonic-3NVIDIA Nemotron Super 49BCartesia Sonic-3Nova-3

Flux — Nur Englisch, Ultra-Low-Latency

Flux verwendet Deepgrams Flux-STT-Modell mit aggressiver End-of-Turn-Erkennung für die absolut schnellsten Antwortzeiten. Nur Englisch.

VoreinstellungLLMTTS
Flux + GPT-4o Mini + Sonic-3OpenAI GPT-4o MiniCartesia Sonic-3
Flux + GPT-5.4 Nano + Sonic-3OpenAI GPT-5.4 NanoCartesia Sonic-3
Flux + GPT-5.4 + Sonic-3OpenAI GPT-5.4Cartesia Sonic-3
Flux + Claude 4.6 + Sonic-3Anthropic Claude 4.6Cartesia Sonic-3
Flux + Gemini Flash + Sonic-3Google Gemini 2.5 FlashCartesia Sonic-3

Balanced — Qualität + Geschwindigkeit

VoreinstellungLLMTTS
GPT-5 Mini + Sonic-3OpenAI GPT-5 MiniCartesia Sonic-3
GPT-4.1 Mini + Sonic-3OpenAI GPT-4.1 MiniCartesia Sonic-3
Haiku 4.5 + TessaAnthropic Haiku 4.5Cartesia Sonic-3 (Tessa)
Gemini 3.0 Flash + Sonic-3Google Gemini 3.0 FlashCartesia Sonic-3

Experimental — Deepgram Aura-2 TTS (sprachspezifisch)

VoreinstellungLLMTTS-Stimme
GPT-5.4 + Julius (DE)OpenAI GPT-5.4Aura-2 Julius (Deutsch, Männlich)
GPT-5.4 + Zeus (EN)OpenAI GPT-5.4Aura-2 Zeus (Englisch, Männlich)
Claude 4.6 + Thalia (EN)Anthropic Claude 4.6Aura-2 Thalia (Englisch, Weiblich)
GPT-5.4 + Agathe (FR)OpenAI GPT-5.4Aura-2 Agathe (Französisch, Weiblich)
GPT-5.4 + Celeste (ES)OpenAI GPT-5.4Aura-2 Celeste (Spanisch, Weiblich)

Full BYO — Eigene LLM- & TTS-Schlüssel mitbringen

Im Full-BYO-Modus übernimmt Deepgram nur STT (Nova-3). Deine eigenen API-Schlüssel für LLM- und TTS-Anbieter werden direkt verwendet.

VoreinstellungLLM (BYO Key)TTS (BYO Key)
GPT-5.4 + ElevenLabsOpenAI GPT-5.4ElevenLabs Turbo v2.5
GPT-5.4 + OpenAI TTSOpenAI GPT-5.4OpenAI TTS-1
GPT-5.4 Nano + ElevenLabsOpenAI GPT-5.4 NanoElevenLabs Turbo v2.5
Gemini 3 Pro + ElevenLabsGoogle Gemini 3 ProElevenLabs Turbo v2.5
Gemini Flash + OpenAI TTSGoogle Gemini 2.5 FlashOpenAI TTS-1
Claude 4.6 + ElevenLabsAnthropic Claude 4.6ElevenLabs Turbo v2.5
Claude 4.6 + OpenAI TTSAnthropic Claude 4.6OpenAI TTS-1
Grok 3 Mini + ElevenLabsxAI Grok 3 MiniElevenLabs Turbo v2.5

Voreinstellung sperren & entsperren

Wenn eine Voreinstellung aktiv ist, sind alle Konfigurationsfelder auf die Voreinstellungswerte gesperrt (angezeigt durch ein Schloss-Symbol). Dies verhindert versehentliche Änderungen. Um einzelne Einstellungen zu überschreiben, tippe auf Zum manuellen Bearbeiten entsperren. Das Ändern einer Einstellung wechselt automatisch zur “Manuellen Konfiguration”.

Manuelle Konfiguration

Tippe auf das Zahnrad-Symbol neben der Start-Schaltfläche, um das Konfigurationspanel zu öffnen. Alle folgenden Felder sind verfügbar:

LLM-Anbieter

AnbieterWichtige Modelle
OpenAIGPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (inkl. Nano, Mini)
AnthropicClaude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6
GoogleGemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite
NVIDIALlama Nemotron Super 49B, Nemotron 3 Nano 30B
xAIGrok 3, Grok 3 Mini, Grok 3 Fast
GroqGPT OSS 20B

TTS-Anbieter

AnbieterStimmenSprachenSchlüssel erforderlich
Cartesia Sonic-39 Stimmen (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default)42 Sprachen (mehrsprachige Auto-Erkennung)Nur Deepgram-Schlüssel (verwaltet)
Deepgram Aura-235+ Stimmen (EN, DE, FR, ES, IT, NL, JA)Sprachspezifisch pro StimmeNur Deepgram-Schlüssel (verwaltet)
ElevenLabsDeine ElevenLabs-Stimmen (automatisch geladen)MehrsprachigElevenLabs API-Schlüssel (BYO)
OpenAI TTS10 Stimmen (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer)EnglischOpenAI API-Schlüssel (BYO)

STT-Modell

ModellSprachenEinsatzbereich
Nova-3MehrsprachigStandard, beste Gesamtgenauigkeit
Nova-3 GeneralMehrsprachigAllgemeine Variante
Nova-3 MedicalMehrsprachigFür medizinische Terminologie optimiert
FluxNur EnglischUltra-Low-Latency Turn-Erkennung

Weitere Einstellungen

  • Sprache — Auto-Erkennung (Mehrsprachig) oder eine bestimmte Sprache: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Niederländisch, Japanisch, Portugiesisch, Hindi, Russisch
  • Begrüßungsnachricht — Text, den der Agent beim Gesprächsstart spricht (optional)
  • Systemanweisung — Definiere die Persönlichkeit und das Verhalten der KI. Eine Basisanweisung ist immer enthalten, die Markdown-Formatierung und Rückfragen in der Sprachausgabe verhindert.

Erweiterte Einstellungen

Klappe den Bereich Erweitert für Feinabstimmung auf:

  • Temperature (0,00 – 2,00) — Steuert die Kreativität der Antworten. Standard: 0,7. Niedriger = fokussierter, höher = kreativer.
  • STT-Modell — Zwischen Nova-3-Varianten und Flux wechseln.

Wenn Flux STT ausgewählt ist, erscheinen zusätzliche Steuerelemente:

  • Eager EOT Threshold (0,0 – 1,0) — Wie aggressiv das System das Sprechende erkennt. Höher = schnellere Antwort, kann dich aber mitten im Satz abschneiden.
  • EOT Timeout (0 – 5000ms) — Maximale Stille, bevor der Agent antwortet.

Für ElevenLabs BYO: Ein benutzerdefiniertes Voice-ID-Feld ermöglicht die direkte Eingabe einer beliebigen ElevenLabs Voice ID.
Für OpenAI TTS BYO: Wähle aus 10 OpenAI-Stimmen (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).

Während eines Gesprächs

  • Status-Anzeige — Zeigt Bereit, Verbinden, Live (mit verstrichener Zeit) oder Fehler
  • Audio-Pegelanzeige — Zeigt den Mikrofon-Eingang mit Zuhören/Still-Status
  • Denk-Anzeige — Ein grünes Badge erscheint, während das LLM deine Eingabe verarbeitet
  • Gesprächstranskript — Echtzeit-Anzeige des gesamten Dialogs. Deine Nachrichten erscheinen rechts (grün), die des Agenten links (blau).
  • Barge-in — Unterbreche die KI jederzeit durch Sprechen. Der Agent stoppt sofort und hört dir zu.
  • Größenänderungsgriff — Ziehe den Griff unter dem Transkript, um den Chat-Bereich zu vergrößern/verkleinern (120px bis 85% des Bildschirms)
  • Duale Start/Stop-Schaltflächen — Eine oben, eine unten fixiert für einfachen Zugriff beim Scrollen

Latenz-Überwachung

Nach dem ersten Turn erscheint ein kompakter Latenzbalken mit drei Schlüsselmetriken:

  • LLM — Zeit von deiner Sprache bis zum ersten LLM-Token
  • TTFB — Gesamte Time to First Byte (End-to-End)
  • TURN — Volle Turn-Dauer einschließlich Audio-Wiedergabe

Werte sind farbcodiert: grün (< 2s), gelb (2–5s), rot (> 5s).

Tippe auf den Latenzbalken, um eine detaillierte Turn-für-Turn-Tabelle aufzuklappen mit Spalten: #, Sprachdauer, LLM-Zeit, TTS-Zeit, TTFB, Audio-Länge, Gesamt. Durchschnittliche LLM- und TTFB-Werte werden in der Kopfzeile angezeigt.

Echounterdrückung (AEC)

Talk to me enthält proprietäre akustische Echounterdrückung über eine native Android-Kotlin-Bridge. Die Lautsprecherausgabe der KI wird erfasst und in Echtzeit vom Mikrofon-Eingang subtrahiert, was selbstauslösende Rückkopplungsschleifen verhindert. Dies ermöglicht vollständig freihändigen Betrieb über den Lautsprecher ohne Kopfhörer. Funktioniert mit allen verwalteten Voreinstellungen und den meisten BYO-Konfigurationen.

Key Pool — Deepgram Voice Agent

Der Deepgram Voice Agent Key Pool ist ein dedizierter, einklappbarer Bereich unterhalb des Chat-Bereichs. Er verwaltet:

  • Deepgram API-Schlüssel (erforderlich) — für STT und verwaltetes LLM/TTS-Routing
  • LLM-Schlüssel (optional, nur Full BYO) — OpenAI, Anthropic, Gemini, xAI
  • TTS-Schlüssel (optional, nur Full BYO) — ElevenLabs, OpenAI TTS

Jede Schlüsselkarte zeigt ein 4-Zeilen-Layout: Bezeichnung, Anbieter-Badge + maskierter Schlüssel, Vertrauensscore mit Statistiken und Test/Pause-Aktionsschaltflächen. Du kannst einzelne Schlüssel oder alle auf einmal testen.

Sitzungslimits

Sitzungen sind auf maximal 15 Minuten begrenzt (API-Beschränkung). Die verstrichene Zeit wird in der Stop-Schaltfläche angezeigt. Die Sitzung endet automatisch, wenn das Limit erreicht ist.

Tipps

  • Starte mit einer verwalteten Voreinstellung (Top Tier oder Ultra-Fast) — sie benötigen nur einen Deepgram-Schlüssel und bieten die beste Erfahrung.
  • GPT-5.4 Nano + Cartesia Sonic-3 liefert ~1,1s Antwortzeiten — die schnellste Option.
  • Flux-Voreinstellungen sind nur auf Englisch, aber extrem schnell dank aggressiver End-of-Turn-Erkennung.
  • Full-BYO-Voreinstellungen verwenden deine eigenen LLM/TTS-Schlüssel für maximale Kontrolle, können aber bei einigen TTS-Anbietern reduzierte Barge-in-Leistung haben.
  • Alle Einstellungen werden beim nächsten Sitzungsstart wirksam, nicht während einer laufenden Sitzung.

12b. Gemini 3.1 Flash Live

Gemini 3.1 Flash Live bietet Echtzeit-Sprachgespräche, angetrieben von Googles neuestem Audio-KI-Modell. Es liefert die Geschwindigkeit und den natürlichen Rhythmus, der für sprach-zentrierte Interaktion benötigt wird, mit Sub-Sekunden-Latenz, 30 ausdrucksstarken Stimmen und nativem multimodalem Verständnis.

Voraussetzungen

Du benötigst einen Google Gemini API-Schlüssel (kostenpflichtige Stufe empfohlen), der im LLM Key Pool in den Einstellungen hinzugefügt wird. Der Schlüssel ist automatisch für den KI-Sprachchat verfügbar. Das verwendete Modell ist gemini-3.1-flash-live-preview.

Ein Gespräch starten

Navigiere zum KI-Chat-Tab, dann wähle den Gemini-Untertab. Tippe auf Gespräch starten. Die App verbindet sich über WebSocket mit Gemini, öffnet dein Mikrofon und beginnt zuzuhören. Sprich natürlich — Gemini antwortet in Echtzeit-Audio. Tippe auf Beenden, um zu stoppen.

Stimmen (30 Optionen)

Wähle aus 30 natürlichen KI-Stimmen, jede mit eigener Persönlichkeit:

StimmeCharakterGeeignet für
SulafatWarmGeschichtenerzählen, Gutenachtgeschichten, ruhige Gespräche
GacruxReifAutoritative Erzählung, Mentoring, tiefgründige Diskussionen
AlgenibRauFilmische Erzählung, dramatisches Vorlesen, Charakterstimme
KoreBestimmtProfessionelle Briefings, Nachrichtenvortrag, sachliche Fragen & Antworten
PuckLebhaftEnergiegeladene Gespräche, Motivation, Brainstorming
ZephyrStrahlendOptimistische Chats, freundliche Hilfe, Begrüßungen
CharonInformativTutorials, Erklärungen im Dokumentarstil
FenrirAufgeregtBegeisterte Reaktionen, Spielkommentare, Hype
LedaJugendlichLockerer Chat, Gen-Z-Gespräche, trendige Themen
AoedeUnbeschwertEntspannte Gespräche, Reisegespräche, Lifestyle
AchernarSanftMeditationsanleitung, ASMR-Stil, sanfte Ermutigung
AlgiebaGeschmeidigPodcast-Moderation, Hörbücher, lange Vorlesungen
DespinaGeschmeidigElegante Erzählung, Luxusmarken-Stimme
AchirdFreundlichKundenservice, alltägliche Unterstützung, einladender Ton
VindemiatrixEinfühlsamUnterstützende Gespräche, therapeutischer Ton, Empathie
SadaltagerSachkundigTechnische Erklärungen, Experten-Q&A, enzyklopädisch
RasalgethiInformativWissenschaftsdokumentationen, Bildungsinhalte
SchedarAusgeglichenAusgewogene Diskussionen, neutrale Berichterstattung, Debatten
AlnilamBestimmtBefehlende Präsenz, Führung, formelle Anlässe
PulcherrimaDirektDurchsetzungsstarke Kommunikation, Pitches, Präsentationen
ZubenelgenubiLässigLockerer Chat, Freunde treffen, Humor
SadachbiaLebhaftAnimiertes Geschichtenerzählen, Kinderinhalte, verspielt
LaomedeiaLebhaftMorgenshow, fröhliche Updates, positive Stimmung
CallirrhoeLockerLockere Beratung, Lifestyle-Coaching, nahbar
AutonoeStrahlendKreativsitzungen, Ideenfindung, Kunstdiskussionen
EnceladusHauchigIntime Erzählung, Gedichtvorlesung, atmosphärisch
IapetusKlarPräzise Anweisungen, Schritt-für-Schritt-Anleitungen, Klarheit
ErinomeKlarKlare Kommunikation, Unternehmensschulung, Diktion
UmbrielLockerEntspanntes Q&A, Wochenend-Stimmung, gedämpfte Gespräche

Tipp: Höre alle Stimmen in der Google AI Studio Stimmbibliothek an.

Sprache

Wähle aus 24 unterstützten Sprachen oder belasse es auf Automatische Erkennung. Gemini antwortet in der Sprache, die du sprichst — oder in der Sprache, die du auswählst. Unterstützt: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Rumänisch, Russisch, Ukrainisch, Türkisch, Arabisch, Hindi, Bengalisch, Tamil, Telugu, Marathi, Japanisch, Koreanisch, Thailändisch, Vietnamesisch, Indonesisch.

Persona-Voreinstellungen

Persona-Voreinstellungen definieren, wie Gemini sich verhält — seine Persönlichkeit, seinen Ton und seinen Kommunikationsstil. Wähle aus sechs Voreinstellungen oder erstelle deine eigene:

VoreinstellungVerhalten
Friendly AssistantWarm, gesprächig, zugänglich — ideal für den Alltag
ProfessionalKlar, prägnant, autoritativ — für Geschäft und Arbeit
EnthusiasticEnergisch, positiv, ermutigend — für Brainstorming und Motivation
Calm & SoothingLangsam, sanft, geduldig — für Entspannung und geführte Sitzungen
TeacherGeduldig, schrittweise, verwendet Analogien — für Lernen und Erklärungen
CreativeFantasievoll, ausdrucksstark, bildhafte Sprache — für Geschichten und Kunst
CustomSchreibe deine eigene Systemanweisung von Grund auf

Systemanweisung

Die Systemanweisung ist ein Text-Briefing, das du Gemini vor Beginn des Gesprächs gibst. Stelle es dir wie eine Regieanweisung vor: Sage der KI, wer sie ist, wie sie sich verhalten soll und worauf sie sich konzentrieren soll.

Beispiele:

  • “Du bist ein geduldiger italienischer Sprachtutor. Sprich langsam. Korrigiere meine Grammatik sanft.”
  • “Du bist ein erfahrener Softwarearchitekt. Antworte knapp und technisch.”
  • “Du bist ein kreativer Geschichtenerzähler. Sprich mit Flair. Verwende bildhafte Sprache.”

Bei Verwendung einer Persona-Voreinstellung wird dein benutzerdefinierter Text an die Voreinstellungsanweisung angehängt. Im Custom-Modus ist dein Text die gesamte Anweisung. Schreibe auf Englisch für beste Ergebnisse. Einstellungen werden automatisch gespeichert.

Denktiefe

Steuere, wie intensiv Gemini nachdenkt, bevor es antwortet:

StufeVerhalten
MinimalSchnellste Antworten, minimale interne Überlegung (Standard)
LowKurze Überlegung, gute Balance
MediumDurchdachte Antworten, längere Pause vor der Antwort
HighTiefes Nachdenken, am besten für komplexe Fragen

Temperature & Top-P

Temperature (0,0 – 2,0) steuert, wie kreativ vs. vorhersagbar die KI antwortet:

BereichVerhaltenGeeignet für
0,0 – 0,5Fokussiert, deterministischFakten, technische Antworten, präzise Anweisungen
0,7 – 1,0Ausgewogen, natürlich (Standard: 1,0)Die meisten Gespräche, alltägliche Nutzung
1,2 – 2,0Kreativ, überraschendBrainstorming, Geschichtenerzählen, kreatives Schreiben

Top-P (0,0 – 1,0) begrenzt den Pool an Wörtern, die die KI in Betracht zieht. Bei 0,95 (Standard) wählt das Modell aus den wahrscheinlichsten 95% der Wörter. Niedrigere Werte machen die Ausgabe konservativer.

Sprachaktivitätserkennung (VAD)

VAD-Einstellungen steuern, wie Gemini erkennt, wann du anfängst und aufhörst zu sprechen:

  • Sprachbeginn-Empfindlichkeit — Wie leicht das System den Sprachbeginn erkennt.
  • Sprachende-Empfindlichkeit — Wie schnell das System entscheidet, dass du aufgehört hast zu sprechen.
  • Stille-Dauer — Wie viele Millisekunden Stille vergehen müssen, bevor deine Wortmeldung als abgeschlossen gilt (100–2000ms).

Echounterdrückung (AEC)

Identisch zum Deepgram Voice Agent profitiert Gemini 3.1 Flash Live von Talk to me’s proprietärer akustischer Echounterdrückung über die native Android-Kotlin-Bridge. Vollständiger Freisprech-Lautsprechermodus funktioniert ohne Kopfhörer.

Tipps für beste Ergebnisse

  • Sprich natürlich — Gemini unterstützt natürliches Barge-in (jederzeit unterbrechen)
  • Auf Android eliminiert die integrierte AEC das Echo — keine Kopfhörer nötig
  • Die Sitzungslänge ist auf 15 Minuten pro Verbindung begrenzt (API-Limit)
  • Alle Einstellungen werden beim nächsten Sitzungsstart wirksam (nicht während einer laufenden Sitzung)
  • Die Audio-Pegelanzeige zeigt einen farbigen Verlauf (grün, gelb, orange, rot), der deinen Mikrofon-Eingangspegel anzeigt
  • Die Transkription deiner Sprache und der Gemini-Antworten kann unabhängig voneinander ein-/ausgeschaltet werden

13. Globale Hotkeys Windows

Talk to me registriert systemweite Hotkeys, damit du das Diktieren steuern kannst, ohne zum App-Fenster zu wechseln.

Primäre Hotkeys

HotkeyAktion
Strg+WinAufnahme starten / stoppen (global, funktioniert aus jeder App)
Strg+Win (während Verarbeitung)Aktuelle Pipeline abbrechen

TTS-Hotkey

Wenn Text in einer beliebigen Anwendung markiert ist, liest der TTS-Hotkey ihn mit deinem konfigurierten TTS-Anbieter laut vor.

Low-Level Hook

Der globale Hotkey verwendet einen Windows Low-Level-Keyboard-Hook, was bedeutet, dass er auch funktioniert, wenn die App minimiert ist oder eine andere Anwendung den Fokus hat. Der Hook arbeitet im „Zero-Swallow-Modus" — er fängt die Tastenkombination ab, ohne andere Tastatureingaben zu blockieren.

14. Auto-Read Windows

Auto-Read ist eine Windows-exklusive Funktion, die Text aus der aktuell fokussierten Anwendung extrahiert und ihn per TTS vorliest.

So funktioniert es

  1. Aktiviere Auto-Read, indem du auf den Auto-Read-Button klickst.
  2. Markiere Text in einer beliebigen Anwendung (oder verwende Strg+C zum Kopieren).
  3. Talk to me erkennt den Inhalt der Zwischenablage und liest ihn automatisch mit deiner TTS-Konfiguration vor.

Anwendungsfälle

  • E-Mails, Artikel oder Dokumente vorlesen lassen, ohne auf den Bildschirm zu starren.
  • Eigene Texte überprüfen, indem du sie dir vorlesen lässt.
  • Barrierefreiheits-Unterstützung für sehbeeinträchtigte Nutzer.

15. Notification Listener Windows

Der Notification Listener erfasst Windows-Toast-Benachrichtigungen und liest sie per TTS vor.

Voraussetzungen

  • Windows Desktop Version
  • Benachrichtigungszugriff in den Windows-Einstellungen erteilt

So funktioniert es

  1. Aktiviere den Notification Listener, indem du auf den Umschalter klickst.
  2. Erteile den Benachrichtigungszugriff, wenn Windows danach fragt.
  3. Wenn eine Windows-Toast-Benachrichtigung eintrifft (E-Mail, Chat-Nachricht, Kalendererinnerung), macht Talk to me Folgendes: Extrahiert den Titel und Inhalt der Benachrichtigung und liest sie mit deiner TTS-Konfiguration laut vor.

Konfiguration

  • Aktivieren/Deaktivieren in Einstellungen → Hands-Free
  • TTS-Stimme und Anbieter folgen deinen globalen TTS-Einstellungen

16. MP3-Aufnahme & Speichern Windows

TTS-Ausgabe aufnehmen

Wenn aktiviert, wird jede TTS-Synthese automatisch als MP3-Datei mit fortlaufender Nummerierung gespeichert (z. B. recording_001.mp3, recording_002.mp3).

Aufnahmen speichern

Klicke auf Aufnahmen speichern, um den Ordner mit allen aufgenommenen MP3-Dateien zu öffnen. Du kannst das Aufnahmeverzeichnis in den Einstellungen konfigurieren.

Hinweis zu Android-Berechtigungen Android

Die Android-Version von Talk to me benötigt mehrere Systemberechtigungen (Mikrofon, Overlay, Accessibility Service, Benachrichtigungszugriff) — jeweils mit einem eigenen Bestätigungsdialog. Wir verstehen, dass sich das umständlich anfühlen kann.

Wir hätten eine einfachere Einrichtung bevorzugt. Allerdings verlangen die Google Play Store Richtlinien und die Android-Sicherheitsvorgaben, dass jede sensible Berechtigung einzeln angefragt wird, mit einer klaren Erklärung, wofür sie verwendet wird und wofür nicht. Diese mehrstufigen Bestätigungsdialoge sind nicht unsere Designentscheidung — sie werden von den Plattform-Compliance-Anforderungen vorgeschrieben.

Jede Berechtigung wird nur dann angefragt, wenn du die entsprechende Funktion tatsächlich benötigst — nicht alle auf einmal bei der Installation. Du kannst jede Berechtigung jederzeit in den Android-Einstellungen widerrufen. Die App funktioniert weiterhin — die jeweilige Funktion wird einfach deaktiviert.

Hier ist eine Übersicht aller Android-Berechtigungen und warum sie benötigt werden:

BerechtigungFunktionErforderlich?
MikrofonSpeech-to-Text Diktat, AI Voice ChatJa — Kernfunktion
Über anderen Apps anzeigenFloating Bubble (Freisprecher-Overlay)Nur bei Overlay-Nutzung
Accessibility ServiceText automatisch in Chat-App-Eingabefelder einfügenNur bei Auto-Paste-Nutzung
BenachrichtigungszugriffEingehende Nachrichten vorlesenNur bei Auto-Read-Nutzung
InternetKommunikation mit KI-AnbieternJa — für alle Funktionen erforderlich

Vielen Dank für dein Verständnis. Wir nehmen deine Privatsphäre ernst — keine dieser Berechtigungen wird verwendet, um persönliche Daten zu sammeln, zu speichern oder zu übertragen. Siehe Datenschutz und Sicherheit für alle Details.

17. Floating Bubble (Overlay) Android

Die Floating Bubble ist ein kleines kreisförmiges Symbol, das über allen anderen Apps schwebt und freihändigen Zugang zum Diktieren bietet, ohne die App wechseln zu müssen.

Overlay aktivieren

  1. Tippe auf den Overlay-Button in der Haupt-App.
  2. Falls Androids Berechtigung „Über anderen Apps anzeigen" noch nicht erteilt ist, wirst du aufgefordert, sie zu aktivieren.
  3. Eine kleine Talk to me-Bubble erscheint auf dem Bildschirm.

Die Bubble verwenden

  • Einfaches Tippen: Aufnahme starten oder stoppen. Roter pulsierender Rand während der Aufnahme, blauer pulsierender Rand während der TTS-Wiedergabe.
  • Dreifaches Tippen: Test-Wiedergabe — liest einen vordefinierten Text vor, um zu bestätigen, dass TTS funktioniert.
  • Langes Drücken: Löscht die Warteschlange ungelesener Nachrichten.
  • Ziehen: Verschiebe die Bubble an eine beliebige Stelle auf dem Bildschirm.

Aufnahme über die Bubble

  1. Tippe auf die Bubble, um die Aufnahme zu starten.
  2. Nach der Transkription bestätigt ein „✓ Eingefügt!"-Toast, dass der Text eingefügt oder in die Zwischenablage gelegt wurde.

Bubble-Übersetzung und Auto-Einfügen

Die Bubble nutzt dieselbe Übersetzungslogik wie das Hauptfenster: Wenn sich Eingabe- und Ausgabesprache unterscheiden, wird dein Diktat automatisch übersetzt, bevor es eingefügt wird. Auch Voice Translate (akustisches Vorlesen) funktioniert in der Bubble.

Über Androids Accessibility Service fügt die Bubble den (ggf. übersetzten) Text direkt in das fokussierte Eingabefeld ein. In allen von uns getesteten Mainstream-Apps — darunter WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest und Skool — funktioniert das automatische Einfügen zuverlässig.

Falls du eine sehr exotische App nutzt, in der das automatische Einfügen scheitert, liegt der bereits übersetzte Text garantiert in der Zwischenablage — ein langer Druck auf das Eingabefeld und „Einfügen" macht den Text sichtbar.

Overlay beenden

Tippe erneut auf den Overlay-Button oder tippe auf Stopp in der Benachrichtigung.

18. Auto-Paste Android

Auto-Paste nutzt Androids Accessibility Service, um diktierten Text automatisch in das aktuell fokussierte Textfeld einzufügen.

Auto-Paste aktivieren

  1. Tippe auf den Auto-Paste-Button.
  2. Gehe zu Androids Barrierefreiheits-Einstellungen.
  3. Finde Talk to me und aktiviere es.
  4. Der Button zeigt nun ✓ mit einem cyanfarbenen Rand.

Eingabehilfe-Schaltfläche

Beim Aktivieren des Accessibility Service fragt Android nach einer Aktivierungsmethode. Diese bestimmt, wie du den Dienst schnell ein-/ausschalten kannst:

  • Eingabehilfe-Schaltfläche (empfohlen): Ein kleiner Button erscheint in der Navigationsleiste. Tippe darauf, um den Dienst umzuschalten.
  • Lauter + Leiser (3 Sekunden halten): Drücke und halte beide Lautstärketasten gleichzeitig 3 Sekunden lang, um umzuschalten.

Wir empfehlen die Eingabehilfe-Schaltfläche für die einfachste Bedienung. Dies ist eine Standard-Android-Systemfunktion — die Wahl beeinflusst nicht, wie Auto-Paste funktioniert.

Wichtige Hinweise

  • Erfordert die Android-Berechtigung für Barrierefreiheit (eine sensible Berechtigung).
  • Muss nach App-Updates möglicherweise erneut erteilt werden.
  • Wird ausschließlich zum Einfügen von Text verwendet — auf keine anderen Barrierefreiheitsdaten wird zugegriffen.

App-Kompatibilität

Auto-Paste funktioniert in den meisten Android-Apps zuverlässig. Folgende Apps wurden mit v0.5.159 getestet:

AppAuto-PasteÜbersetzung
WhatsApp
Gmail (Empfänger + Body)
Discord
Microsoft Teams
Viber
Chrome
ChatGPT
Facebook
Instagram
Pinterest
Skool (WebView in Chrome)
Viber

„App wurde Zugriff verweigert" — Eingeschränkte Einstellungen (Android 13+)

Auf manchen Geräten erscheint beim Aktivieren von Auto-Paste oder Benachrichtigungszugriff die Meldung „App wurde Zugriff verweigert" oder „Diese Einstellung ist derzeit nicht verfügbar." Das ist kein Fehler — es ist eine Sicherheitsfunktion von Android 13+ namens Eingeschränkte Einstellungen.

Betroffene Hersteller: Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.

So löst du das Problem:

  1. Öffne Android-Einstellungen → Apps → Alle Apps anzeigen → suche Talk to me.
  2. Tippe auf Talk to me, um die App-Info-Seite zu öffnen (nicht die Benachrichtigungs-Unterseite).
  3. Tippe auf das Drei-Punkte-Menü (⋮) oben rechts.
  4. Wähle Eingeschränkte Einstellungen zulassen.
  5. Bestätige mit PIN/Fingerabdruck.
  6. Gehe zurück zu Einstellungen → Bedienungshilfen und aktiviere Talk to me.

Tipp: Falls das ⋮-Menü nicht sichtbar ist, versuche zuerst die Berechtigung zu aktivieren (löst die Fehlermeldung aus). Gehe dann zur App-Info-Seite — das Menü sollte jetzt erscheinen.

Lenovo (ZUI): Wenn du in den Einstellungen auf Apps tippst, landest du möglicherweise auf der Benachrichtigungs-Unterseite statt auf der App-Info. Navigiere zurück und suche die vollständige App-Info-Seite mit Speicher, Berechtigungen und Batterie.

19. Auto-Read Nachrichten Android

Auto-Read liest eingehende Chat-Nachrichten automatisch per TTS vor — ideal beim Autofahren, Kochen oder Trainieren.

So funktioniert es

  1. Aktiviere Auto-Read (Kopfhörer-Symbol).
  2. Stelle sicher, dass der Benachrichtigungszugriff erteilt ist.
  3. Das Overlay muss aktiv sein.
  4. Wenn eine Nachricht von einer erlaubten App eintrifft, kündigt Talk to me den Absender an und liest die Nachricht laut vor.

Vorausgewählte Chat-Apps

WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.

Du kannst Apps in der Auto-Read App-Konfiguration hinzufügen oder entfernen.

20. Benachrichtigungszugriff Android

Der Benachrichtigungszugriff ermöglicht es Talk to me, eingehende Benachrichtigungen zu lesen — erforderlich für Auto-Read Nachrichten.

Zugriff erteilen

  1. Tippe auf den Benachrichtigungszugriff-Button.
  2. Gehe zu Androids Benachrichtigungslistener-Einstellungen.
  3. Finde Talk to me und aktiviere es.
  4. Der Button zeigt ✓ mit einem cyanfarbenen Rand.

Wichtige Hinweise

  • Systemberechtigung — verarbeitet nur Benachrichtigungen von explizit erlaubten Apps.
  • Es werden keine Benachrichtigungsdaten gespeichert, übertragen oder protokolliert.

21. Auto-Read App-Konfiguration Android

Steuere, welche Apps ihre Benachrichtigungen vorlesen lassen dürfen.

Bekannte Chat-Apps

Vorausgewählte Messaging-Apps mit individuellen Umschaltern (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).

Apps suchen und hinzufügen

  1. Tippe in das Suchfeld und gib einen App-Namen ein.
  2. Passende installierte Apps erscheinen, sortiert nach Relevanz.
  3. Setze das Häkchen, um eine App hinzuzufügen.

Wie die Filterung funktioniert

  • Nur Benachrichtigungen von erlaubten Apps werden vorgelesen.
  • Änderungen werden sofort wirksam — kein Neustart erforderlich.

22. Einstellungen

UI-Sprache

English, Deutsch, Français, Español — unabhängig von deiner Systemsprache.

Qualitätsvoreinstellung

VoreinstellungSTT-AnbieterLLM-AnbieterModellPolish
Top PerformerScribe v2OpenAIGPT-5.4Stark
StandardScribe v2OpenAIGPT-4.1 miniStark
BudgetWhisperGroqStandardLeicht
KostenlosDeepgramGroqStandardAus
BenutzerdefiniertManuellManuellManuellManuell

Speech-to-Text

  • Anbieter: OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
  • Benutzerdefinierte Schlüsselwörter (nur Scribe): Eigennamen, Marken, Fachbegriffe
  • Sprache: Automatische Erkennung oder spezifisch

Text-to-Speech

  • Anbieter: ElevenLabs, OpenAI TTS, Deepgram Aura 2
  • Modell (ElevenLabs): Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5

LLM-Anbieter (Polish)

  • Anbieter: OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
  • Modell: Anbieter-Standard oder spezifisch
  • Polish-Stärke: Leicht oder Stark

Übersetzungsanbieter

Separater Anbieter für KI-Übersetzung (kann sich vom Polish-Anbieter unterscheiden).

KI-Polish / KI-Übersetzung

Schalte beides unabhängig voneinander ein/aus. Wenn KI-Übersetzung aktiviert ist:

  • Übersetzen nach: 20 Zielsprachen
  • Voice Translate: Übersetzungen automatisch per TTS vorlesen

Android Hands-Free

Schnellumschalter für Overlay, Auto-Read Nachrichten, Auto-Paste, Benachrichtigungszugriff.

Speichern und Testen

  • Alle aktuellen Einstellungen speichern — Speichert Änderungen dauerhaft auf dem Gerät
  • Aktuelle Konfiguration testen — Testet alle konfigurierten Anbieter mit Antwortzeiten

23. Wortkorrekturen

Wortkorrekturen bringen Talk to me die korrekte Schreibweise von Namen, Marken und Fachbegriffen bei, die die Spracherkennung falsch erkennt.

Korrekturen hinzufügen

Einzeln hinzufügen

Gib Falsche Schreibweise und Korrekte Schreibweise ein und tippe/klicke auf Hinzufügen.

Massenimport

Gib die korrekte Schreibweise ein und liste dann die falschen Varianten auf (eine pro Zeile). Verwende Mit KI generieren, um wahrscheinliche Fehlschreibungen automatisch zu erstellen.

Multi-Import

Gib Paare als falsch;richtig ein (eines pro Zeile). Unterstützt ;, ->, Komma oder Tab als Trennzeichen.

Wie Korrekturen funktionieren

Während der Nachbearbeitung (Pipeline-Stufe 3) werden falsche Schreibweisen automatisch ersetzt, bevor KI-Polish ausgeführt wird.

24. Sicherung und Wiederherstellung

Einstellungen exportieren

  1. Öffne Sicherung & Wiederherstellung in den Einstellungen.
  2. Tippe/klicke auf Einstellungen exportieren.
  3. Gib ein Verschlüsselungspasswort ein und bestätige es (mind. 6 Zeichen).
  4. Windows: Der Speicherdialog schlägt talktome-settings.ttm vor — du wählst den Ordner.
  5. Android: Die Sicherung wird unter Downloads als TalkToMe-backup.ttm abgelegt. Existiert der Name schon, hängt das System (1), (2) usw. an — alles gültige verschlüsselte Backups.

Einstellungen importieren

  1. Tippe/klicke auf Einstellungen importieren.
  2. Automatisch (Android): Die App sucht die neueste passende Datei TalkToMe-backup mit Endung .ttm (inkl. TalkToMe-backup (1).ttm usw.) im App-Speicher und in Downloads.
  3. Öffnet sich der System-Dateidialog: Auf vielen Geräten (z. B. Samsung) ist die erste Ansicht Zuletzt verwendet und oft Bilder voreingestellt — die .ttm-Dateien erscheinen erst, wenn du oben auf Dokumente oder Diese Woche wechselst oder den Ordner Download direkt öffnest.
  4. Neues Gerät: Kopiere die .ttm vom alten Gerät (USB, Cloud, E-Mail), dann Import und Datei wählen.
  5. Gib das Verschlüsselungspasswort ein.
  6. Alle Einstellungen werden wiederhergestellt und die App startet neu.

Technische Details

  • Verschlüsselung: AES-256-GCM mit PBKDF2-HMAC-SHA256 (100.000 Iterationen)
  • Enthalten: Alle Einstellungen, API-Schlüssel, Wortkorrekturen, Auto-Read-Apps, Qualitätsvoreinstellung, UI-Sprache
  • NICHT enthalten: Lizenzaktivierung (an die Machine ID gebunden)

25. Nutzungs-Dashboard

MetrikBeschreibung
STT-AufrufeDurchgeführte Speech-to-Text-Transkriptionen
LLM PolishKI-Polish- oder KI-Übersetzungsvorgänge
TTS SynthText-to-Speech-Synthesevorgänge

Die Zähler sind kumulativ seit dem letzten Zurücksetzen der Einstellungen.

26. Fehlerbehebung

Allgemein

ProblemLösung
„Kein API-Schlüssel konfiguriert"Füge einen Schlüssel im Key Pool für die benötigte Funktion hinzu
Aufnahme startet nichtPrüfe die Mikrofonberechtigung in den Systemeinstellungen
Voice Translate erzeugt kein AudioStelle sicher, dass ein TTS-API-Schlüssel konfiguriert und funktionsfähig ist
Export schlägt fehlPrüfe den Schreibzugriff auf den Downloads-Ordner
Keine Sicherungsdatei im Import-DialogVon Bilder auf Dokumente / Diese Woche wechseln oder Ordner Download öffnen — siehe §24 Import

Windows Windows-spezifisch

ProblemLösung
Strg+Win-Hotkey funktioniert nichtStelle sicher, dass die App läuft (prüfe den Infobereich der Taskleiste)
Text wird nach dem Diktat nicht eingefügtStelle sicher, dass das Zielfenster Strg+V unterstützt
Notification Listener nicht verfügbarVerfügbar auf Windows Desktop — stelle sicher, dass der Benachrichtigungszugriff in den Windows-Einstellungen erteilt ist
Mini-Player erscheint zu groß/kleinDie DPI-bewusste Größenanpassung erfolgt automatisch; starte die App neu, wenn die Anzeigeeinstellungen geändert wurden

Android Android-spezifisch

ProblemLösung
Auto-Read funktioniert nichtStelle sicher, dass das Overlay aktiv ist, Auto-Read aktiviert ist und der Benachrichtigungszugriff erteilt wurde
Auto-Paste funktioniert nichtAktiviere den Accessibility Service erneut in den Android-Einstellungen
Bubble erscheint nichtErteile die Berechtigung „Über anderen Apps anzeigen"
„App wurde Zugriff verweigert" bei BerechtigungenEingeschränkte Einstellungen (Android 13+) — siehe §18 „Eingeschränkte Berechtigungen" für die Schritt-für-Schritt-Lösung
Bildschirm dreht sich nicht (Tablet)Prüfe, ob der PC-Modus aktiv ist (Schnelleinstellungen von oben herunterziehen). Im PC-Modus wird Auto-Rotate ignoriert — zurück in den Android-Modus wechseln. Betrifft insbesondere Lenovo-Tablets (ZUI).

27. Datenschutz und Sicherheit

Datenverarbeitung

  • Keine Datenerfassung: Talk to me erfasst, speichert oder überträgt keine Nutzerdaten an Server der mrocon GmbH.
  • Direkte API-Kommunikation: Audio und Text gehen direkt von deinem Gerät an deinen gewählten KI-Anbieter.
  • Nur lokale Speicherung: Alle Einstellungen und API-Schlüssel werden ausschließlich auf deinem Gerät gespeichert.
  • Keine Analysen: Kein Tracking, keine Analysen, keine Telemetrie jeglicher Art.

Berechtigungen

Windows

BerechtigungZweck
MikrofonAudio für Diktate aufnehmen
BenachrichtigungszugriffBenachrichtigungen lesen
InternetKommunikation mit KI-Anbietern

Android

BerechtigungZweck
MikrofonAudio für Diktate aufnehmen
Overlay (Über anderen Apps anzeigen)Floating Bubble anzeigen
BenachrichtigungslistenerBenachrichtigungen für Auto-Read lesen
Accessibility ServiceText automatisch in Felder einfügen
InternetKommunikation mit KI-Anbietern
Installierte Pakete abfragenApp-Namen in den Auto-Read-Einstellungen anzeigen

Verschlüsselung

  • Windows: API-Schlüssel verschlüsselt mit DPAPI (Windows Data Protection API)
  • Android: API-Schlüssel im app-privaten internen Speicher
  • Sicherungsdateien: AES-256-GCM-Verschlüsselung

Anhang A — Unterstützte Sprachen

Spracheingabe-Sprachen

Automatische Erkennung, Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Koreanisch, Chinesisch, Russisch, Arabisch, Hindi, Polnisch, Türkisch, Schwedisch, Ukrainisch

Übersetzungs-Zielsprachen

Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Chinesisch, Koreanisch, Russisch, Arabisch, Hindi, Polnisch, Türkisch, Schwedisch, Ukrainisch, Dänisch, Finnisch, Norwegisch

TTS-Sprachen

Auto, Deutsch, Englisch, Französisch, Italienisch, Spanisch, Portugiesisch, Niederländisch, Polnisch, Schwedisch, Dänisch, Finnisch, Norwegisch, Türkisch, Japanisch, Koreanisch, Chinesisch

UI-Sprachen

English, Deutsch, Français, Español

Anhang B — Unterstützte Anbieter

Speech-to-Text

AnbieterHinweise
OpenAI WhisperAm weitesten verbreitet, zuverlässig
Deepgram Nova-2 / Nova-3Schnell, gute Genauigkeit
ElevenLabs Scribe v2Unterstützt benutzerdefinierte Schlüsselwörter
Groq WhisperKostenloses Kontingent verfügbar, schnell

LLM (Polish / Übersetzung)

AnbieterHinweise
OpenAIGPT-4o-mini, GPT-5.4 usw.
GroqKostenloses Kontingent, Llama-Modelle
AnthropicClaude-Modelle
Google GeminiGemini-Modelle
xAI GrokKostenloses Kontingent verfügbar

Text-to-Speech

AnbieterHinweise
ElevenLabsBeste Qualität, Voice-Cloning, 4 Modelle
OpenAI TTS6 integrierte Stimmen, unkompliziert
Deepgram Aura 2Schnelle Synthese

Anhang C — Qualitätsvoreinstellungen

Voreinstellung STT LLM Modell Polish Kosten
Top PerformerScribe v2OpenAIGPT-5.4Stark$$$
StandardScribe v2OpenAIGPT-4.1 miniStark$$
BudgetWhisperGroqStandardLeicht$
KostenlosDeepgramGroqStandardAusKostenlos
BenutzerdefiniertManuellManuellManuellManuellVariabel

Anhang D — Tastenkürzel Windows

TastenkürzelAktion
Strg+WinAufnahme starten / stoppen
Strg+Win (während Verarbeitung)Pipeline abbrechen
TTS-HotkeyMarkierten Text vorlesen

Talk to me ist ein Produkt der mrocon GmbH. Alle Rechte vorbehalten.

Für Support kontaktiere team@talktome.studio oder besuche talktome.studio.

↑ Zurück nach oben