Benutzerhandbuch — Talk to me

Talk to me — Benutzerhandbuch

Version: 0.5.149 (Windows Desktop) / 0.5.157 (Android Hands-Free) Letzte Aktualisierung: 2026-04-20

Dieses Handbuch deckt sowohl die Windows Desktop- als auch die Android Hands-Free-Edition von Talk to me ab. Abschnitte mit Windows oder Android gelten nur für die jeweilige Plattform. Alle anderen Abschnitte gelten für beide.

1. Einführung

Talk to me ist ein professionelles Diktier-, Übersetzungs- und Sprachinteraktionsstudio für Windows Desktop und Android. Es wandelt deine Sprache in Text um, optimiert ihn mit KI, übersetzt ihn in über 20 Sprachen und liest ihn dir vor — alles in Echtzeit.

Die App folgt einer strikten BYOK (Bring Your Own Key)- und Zero-Knowledge / Zero-Trust-Architektur: Deine API-Schlüssel und Daten verlassen niemals dein Gerät.

Hauptfunktionen

Echtzeit-Diktat: Nimm deine Stimme auf und erhalte in Sekunden optimierten Text.
KI-Polish: Automatische Grammatikkorrektur und Entfernung von Füllwörtern — unterstützt durch den KI-Anbieter deiner Wahl.
Live-Übersetzung: Übersetze diktierten Text spontan in über 20 Sprachen.
Voice Translate (Speech-to-Speech): Dein übersetzter Text wird automatisch in der Zielsprache vorgelesen.
Text-to-Speech: Wandle beliebigen Text in natürlich klingende Sprache um — mit ElevenLabs, OpenAI TTS oder Deepgram.
Live-Sprachimmersion: Sprich in deiner Muttersprache und höre und sieh den Text sofort in der Sprache, die du lernen möchtest.
Wortkorrekturen: Bringe der App die korrekte Schreibweise deiner Namen, Marken und Fachbegriffe bei, die die Spracherkennung falsch erkennt.
Verschlüsseltes Backup: Exportiere alle Einstellungen und API-Schlüssel als passwortgeschützte, verschlüsselte Datei.
Multi-Provider-Unterstützung: Wähle aus OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram und weiteren.

Plattform-Highlights

Funktion	Windows Desktop	Android Hands-Free
Mini-Player (kompakter Modus)	✓	—
Globale Hotkeys (Strg+Win)	✓	—
Auto-Read (Strg+C Textextraktion)	✓	—
Notification Listener	✓	—
MP3-Aufnahme & Speichern	✓	—
Floating Pill (Spektrumanalysator)	✓	—
Floating Bubble (Overlay)	—	✓
Auto-Paste (Barrierefreiheit)	—	✓
Auto-Read Nachrichten (aus Chat-Apps)	—	✓
App-basierter Benachrichtigungszugriff	—	✓

Sicherheitsprinzipien

Zero-Knowledge: Talk to me speichert, überträgt oder hat niemals Zugriff auf deine API-Schlüssel auf irgendeinem Server. Alle Schlüssel werden ausschließlich lokal auf deinem Gerät gespeichert.
Zero-Trust: Die App „telefoniert" nie nach Hause. Keine Analysen, kein Tracking, keine Telemetrie. Deine Diktierdaten fließen direkt von deinem Gerät zum gewählten KI-Anbieter — und nirgendwo anders hin.
BYOK: Du bringst deine eigenen API-Schlüssel von den Anbietern mit, denen du vertraust. Talk to me verkauft keinen API-Zugang weiter.

2. Erste Schritte

Windows Installation — Windows Desktop

Talk to me für Windows ist als EV-signierter Installer auf talktome.studio oder über den Microsoft Store verfügbar.

Systemanforderungen:

Windows 10 oder neuer (64-Bit)
Eine aktive Internetverbindung
Mindestens ein API-Schlüssel eines unterstützten Anbieters

Der Installer ist digital mit einem Extended Validation (EV)-Zertifikat von Certum (mrocon GmbH) signiert. Windows SmartScreen zeigt keine Warnungen an.

Android Installation — Android

Talk to me für Android ist als APK auf talktome.studio oder über den Google Play Store verfügbar.

Systemanforderungen:

Android 8.0 oder neuer
Eine aktive Internetverbindung
Mindestens ein API-Schlüssel eines unterstützten Anbieters

Erster Start

Wenn du Talk to me zum ersten Mal öffnest, siehst du das License Gate. Du hast zwei Möglichkeiten:

Lizenzschlüssel eingeben, um die vollständige App sofort freizuschalten.
7-Tage-Testversion starten, um alle Funktionen ohne Lizenzschlüssel zu erkunden.

Nach der Aktivierung oder dem Start der Testversion lädt die App und du kannst sie sofort nutzen — vorausgesetzt, du hast mindestens einen API-Schlüssel konfiguriert (siehe Key Pool).

3. Lizenzaktivierung

Das License Gate

Beim ersten Start (oder nach Ablauf der Testversion) wird das License Gate angezeigt. Es zeigt:

Das Talk to me-Wortbild
Ein Textfeld für deinen Lizenzschlüssel (Format: TTM-XXXX-XXXX-XXXX-XXXX)
Deine Machine ID (eine eindeutige Gerätekennung, benötigt für die Aktivierung)
Einen Aktivieren-Button
Einen 7-Tage-Testversion starten-Button (sofern noch keine Testversion genutzt wurde)
Links zu Lizenz kaufen und dem Kundenportal

Lizenz aktivieren

Gib deinen Lizenzschlüssel in das Textfeld ein.
Tippe/klicke auf Aktivieren.
Die App verifiziert deinen Schlüssel online und aktiviert ihn für dieses Gerät.
Nach der Aktivierung siehst du das License Gate nicht mehr — es sei denn, du deaktivierst die Lizenz oder sie läuft ab.

Die Testversion

Tippe/klicke auf 7-Tage-Testversion starten, um alle Funktionen für 7 Tage freizuschalten.
Ein Banner am oberen Rand der App zeigt die verbleibenden Testtage an.
Nach 7 Tagen läuft die Testversion ab und das License Gate erscheint erneut.

Lizenz-Modal

Innerhalb der App kannst du deinen Lizenzstatus einsehen, indem du auf den Lizenz-Button (Schild-Symbol) klickst. Das Lizenz-Modal zeigt:

Status: Aktiv, Testversion, Karenzzeit oder Abgelaufen
Produkt: Name deines Lizenzprodukts
Plan: Jährlich oder Lebenslang
Ablaufdatum: Ablaufdatum (oder „Lebenslang")
Geräte: Anzahl aktiver Geräte / maximal erlaubte Anzahl
Schlüssel: Dein Lizenzschlüssel (teilweise maskiert)
Machine ID: Die eindeutige Kennung deines Geräts

Von diesem Modal aus kannst du:

Gerät deaktivieren — gibt die Lizenz von diesem Gerät frei, damit du sie auf einem anderen verwenden kannst
Schließen — zurück zur App

4. App-Übersicht

Die App ist in drei Haupt-Tabs und mehrere unterstützende Bereiche gegliedert:

Navigation

Am oberen Bildschirmrand kannst du über drei Tabs zwischen den Hauptmodi der App wechseln:

Speech-to-Text — Nimm deine Stimme auf und erhalte optimierten, übersetzten Text
Text-to-Speech — Wandle geschriebenen Text in gesprochenes Audio um
AI Voice Chat — Führe Echtzeit-Sprachgespräche mit KI (siehe §12)

Interface-Layout

Unterhalb der Tabs ist die Hauptoberfläche vertikal angeordnet:

Quick-Override-Steuerung — Sprachauswahl für Ein- und Ausgabe
Aktionsbuttons — Schnellzugriff auf Plattformfunktionen
Statusanzeige — Zeigt den aktuellen Zustand (Bereit, Aufnahme, Transkription usw.)
Pipeline-Anzeige — Visueller Fortschritt deines Diktats durch die Verarbeitungsstufen
Ergebnisbereich — Dein transkribierter/übersetzter Text
TTS-Panel (nur im Text-to-Speech-Tab) — Texteingabe und Wiedergabesteuerung
AI Voice Chat-Panel (nur im AI Voice Chat-Tab) — Stimm-/Persona-Auswahl, Gesprächssteuerung, Live-Transkript (siehe §12)
Key Pool — Verwaltung deiner API-Schlüssel
Einstellungen — Alle Konfigurationsoptionen

Aktionsbuttons

Windows Desktop-Aktionsbuttons:

Voice Translate — Speech-to-Speech-Übersetzung ein-/ausschalten
Notification Listener — Benachrichtigungs-Vorlesen ein-/ausschalten
Auto-Read — Strg+C Text-to-Speech ein-/ausschalten
TTS aufnehmen — MP3-Aufnahme der TTS-Ausgabe ein-/ausschalten
Aufnahmen speichern — Aufnahmeordner öffnen

Android Aktionsbuttons:

Lizenz — Lizenz-Modal öffnen
Voice Translate — Speech-to-Speech-Übersetzung ein-/ausschalten
Overlay — Floating Bubble starten/stoppen
Auto-Paste — Barrierefreiheits-Einstellungen öffnen
Auto-Read — Auto-Read Nachrichten ein-/ausschalten
Benachrichtigungszugriff — Benachrichtigungslistener-Einstellungen öffnen

Der Info-Button

In der Kopfzeile öffnet der Info-Button das App-Info-Modal, das Folgendes anzeigt:

Einen Link zu talktome.studio
Die Support-E-Mail-Adresse (tippe/klicke zum Kopieren)
Die aktuelle App-Version
Anzahl der erkannten Mikrofone

5. Speech-to-Text

Der Speech-to-Text-Tab ist der Hauptmodus von Talk to me. Hier nimmst du deine Stimme auf und erhältst optimierten, optional übersetzten Text.

Ein Diktat aufnehmen

Stelle sicher, dass der Status Bereit — Diktat starten (grün) anzeigt.
Klicke/tippe auf den großen Diktat starten-Button.
Der Button wird rot und zeigt Aufnahme stoppen. Sprich deutlich.
Während der Aufnahme siehst du: Aufnahmedauer in Sekunden, Audiopegelmesser mit der Eingabelautstärke, den aktuell aktiven STT-Anbieter und die Sprache.
Klicke/tippe erneut auf den Button, um die Aufnahme zu stoppen.

Windows Du kannst die Aufnahme auch mit dem globalen Hotkey Strg+Win starten/stoppen (das App-Fenster muss dafür nicht im Fokus sein).

Was nach der Aufnahme passiert

Nachdem du die Aufnahme gestoppt hast, verarbeitet die App dein Audio durch die Pipeline (siehe Die Pipeline):

Capture — Audioaufnahme wird abgeschlossen
STT — Dein Audio wird vom gewählten Anbieter transkribiert
Nachbearbeitung — Der Rohtext wird bereinigt (Wortkorrekturen angewendet)
Polish / Übersetzung — Falls aktiviert, korrigiert die KI die Grammatik oder übersetzt den Text
Inject — Der fertige Text wird in die Zwischenablage gelegt

Windows Der Text wird automatisch über simuliertes Strg+V in das zuvor fokussierte Fenster eingefügt (Smart Clipboard Injection).

Android Wenn Auto-Paste aktiviert ist, wird der Text automatisch über den Accessibility Service in das aktive Textfeld eingefügt.

Der Ergebnisbereich

Nach der Verarbeitung erscheint dein Text im Ergebnisbereich. Ein Hinweis bestätigt, dass der Text in die Zwischenablage kopiert wurde und zum Einfügen bereit ist.

Aufnahme-Signale (Audio Cues)

Talk to me signalisiert dir akustisch und visuell, wann das Mikrofon tatsächlich aufnimmt — damit kein Wort verloren geht.

Akustische Signale

Start-Beep (kurzer hoher Blip): „Mikrofon ist live, du kannst sprechen."
Stop-Beep (kurzer tiefer Blip): „Aufnahme beendet."

Beide Beeps sind in den Einstellungen ein-/ausschaltbar und in der Lautstärke regelbar (Standard: 100 %).

Visuelle Signale

Idle/Standby: Mikrofon-Icon ist orange — Aufnahme inaktiv.
Aufnahme aktiv: Mikrofon-Icon ist grün — jedes gesprochene Wort wird aufgenommen.

Hinweis: Start-Beep auf Speakerphones

Manche Audio-Geräte unterdrücken den Start-Beep. Das ist kein Bug, sondern eine Hardware-Eigenschaft:

Gerätetyp	Beep hörbar?	Empfehlung
Lautsprecher + getrenntes Mikrofon	✅ Ja	—
Headset mit getrenntem Mic + Speaker	✅ Ja	—
USB-Speakerphone (Jabra Speak2, Logitech P710e etc.)	⚠️ Eventuell nein	Headset oder externe Lautsprecher verwenden
Bluetooth-Headset im Hands-Free-Profil	⚠️ Eventuell nein	Kabelgebundenes Headset als Alternative

Wichtig: Wenn du das Standard-Audiogerät wechselst, starte Talk to me neu, damit der Beep auf dem neuen Gerät gespielt wird.

6. Text-to-Speech

Der Text-to-Speech-Tab ermöglicht es dir, beliebigen geschriebenen Text in natürlich klingende Sprache umzuwandeln.

Grundlegende Nutzung

Wechsle zum Text-to-Speech-Tab.
Gib Text ein oder füge ihn in das Textfeld ein.
Klicke/tippe auf Vorlesen, um die Wiedergabe zu starten.

Wiedergabesteuerung

Pause — Hält die Wiedergabe vorübergehend an
Fortsetzen — Setzt die Wiedergabe von der Pausenposition fort
Stop — Beendet die Wiedergabe vollständig
Wiederholen — Spielt dasselbe Audio erneut ab, ohne es neu zu synthetisieren

Anbieter- und Stimmauswahl

ElevenLabs: Wähle aus deinen verfügbaren Stimmen oder verwende „Default (Brian v3)". Benutzerdefinierte Voice-IDs werden unterstützt.
OpenAI TTS: Nova, Alloy, Echo, Fable, Onyx, Shimmer
Deepgram Aura 2: Schnelle Synthese

Modellauswahl (ElevenLabs)

Modell	Zeichenlimit	Am besten für
Eleven v3	5.000	Höchste Qualität, kurze Inhalte
Multilingual v2	10.000	Mehrsprachige Unterstützung
Flash v2.5	40.000	Schnelle Synthese, lange Texte
Turbo v2.5	40.000	Ausgewogenes Verhältnis von Geschwindigkeit und Qualität

Audioqualität

Qualität	Beschreibung
MP3 192 kbps	Creator-Qualität — höchste Klangtreue
MP3 128 kbps	Standard — guter Kompromiss
MP3 64 kbps	Kompakt — kleinere Dateigröße
MP3 32 kbps	Minimal — niedrigste Qualität

Textnormalisierung

Einstellung	Beschreibung
Auto	Das Modell entscheidet, wie Zahlen behandelt werden
Immer aktiv	Zahlen werden in Wörter umgewandelt (z. B. „42" → „zweiundvierzig")
Aus	Keine Normalisierung

Stimmfeinabstimmung (ElevenLabs)

Regler	Bereich	Beschreibung
Stabilität	Variabel ↔ Stabil	Niedriger = ausdrucksstärker; Höher = konsistenter
Ähnlichkeit	Kreativ ↔ Original	Wie genau die Ausgabe der Originalstimme entspricht
Stil	Neutral ↔ Expressiv	Grad des emotionalen Ausdrucks
Geschwindigkeit	Langsam (0,7×) ↔ Schnell (1,2×)	Wiedergabegeschwindigkeit

Zusätzliche Optionen

Code-Filter: Entfernt Codeblöcke und technische Syntax vor der Synthese.
Automatische Aufnahme: Speichert synthetisiertes Audio automatisch. Tippe auf das Ordner-Symbol, um das Verzeichnis auszuwählen.
Speaker Boost: Verbessert die Stimmklarheit (nur ElevenLabs).

7. Die Pipeline

Die Pipeline ist die zentrale Verarbeitungs-Engine von Talk to me. Sie visualisiert die Stufen, die dein Audio von der Aufnahme bis zur finalen Ausgabe durchläuft.

Pipeline-Stufen

Stufe	Bezeichnung	Beschreibung
1	Capture	Audioaufnahme und Abschluss
2	STT	Speech-to-Text-Transkription
3	Post	Nachbearbeitung (Bereinigung, Wortkorrekturen)
4	Polish oder Trans	KI-Polish oder KI-Übersetzung
5	Inject	Text in Zwischenablage kopiert / automatisch eingefügt

TDF-Indikatoren (Text Display Field)

Jede Pipeline-Stufe zeigt den aktiven Anbieter (z. B. „Scribe v2", „GPT-5.4") und nach Abschluss die Zeitinformationen an.

Zeitanzeige

Nach der Verarbeitung zeigt eine Zeitleiste:

STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s

Wenn Voice Translate aktiv ist, wird zusätzlich eine S2S (Speech-to-Speech)-Zeit angezeigt.

8. Voice Translate

Voice Translate kombiniert KI-Übersetzung mit Text-to-Speech, um ein Echtzeit-Speech-to-Speech-Übersetzungserlebnis zu schaffen.

Neu seit v0.5.150: Die Textübersetzung ist automatisch aktiv, sobald sich deine Eingabesprache (Speech Input) und Ausgabesprache (Text Output) unterscheiden. Du brauchst keinen extra Schalter mehr für die Textübersetzung. Der Voice Translate-Button steuert nur noch, ob der finale Text akustisch vorgelesen werden soll (Sprachausgabe über TTS).

Beispiele

Eingabe Deutsch, Ausgabe Englisch, Voice Translate aus → Text wird automatisch übersetzt, aber nur als Text in die Zwischenablage gelegt.
Eingabe Deutsch, Ausgabe Englisch, Voice Translate an → Text wird übersetzt und zusätzlich auf Englisch vorgelesen.
Eingabe Deutsch, Ausgabe Deutsch, Voice Translate an → Keine Übersetzung, aber der deutsche Text wird vorgelesen (klassisches TTS).

So funktioniert es

Aktiviere Voice Translate (lila wenn aktiv).
Nimm ein Diktat in deiner Ausgangssprache auf.
Die App transkribiert → übersetzt → liest die Übersetzung laut vor.

Konfiguration

Zielsprache: Stelle sie ein unter Einstellungen → KI-Übersetzung → Übersetzen nach
TTS-Stimme: Verwendet deinen konfigurierten TTS-Anbieter und die gewählte Stimme

Anwendungsfälle

Reisen: Sprich in deiner Sprache und lass dir die Übersetzung vorlesen.
Sprachenlernen: Höre, wie dein Text in einer anderen Sprache klingt.
Live-Sprachimmersion: Verwandle deine eigenen Gedanken in lebendige Sprachpraxis — sprich in deiner Muttersprache und nimm die Ausgabe in der Sprache auf, die du meistern möchtest.

9. KI-Polish & Übersetzung

KI-Polish

Wenn aktiviert, korrigiert KI-Polish Grammatik, Zeichensetzung und (mit der Einstellung „Stark") entfernt Füllwörter wie „ähm", „also", „quasi", „halt".

Polish-Stärke:

Leicht — Nur Grammatik- und Zeichensetzungskorrektur
Stark — Entfernt zusätzlich Füllwörter

Statusanzeigen:

POLISH (cyan) — Aktiv
AUS — Deaktiviert
KEY FEHLT (gelb) — Kein LLM-Schlüssel konfiguriert

KI-Übersetzung

Wenn aktiviert, wird dein diktierter Text in die Zielsprache übersetzt.

Statusanzeigen:

ÜBERSETZEN (cyan) — Aktiv, zeigt die Zielsprache
SPRACHAUSGABE (lila) — Voice Translate ist ebenfalls aktiv
NUR TEXT — Übersetzung ohne Sprachausgabe
AUS — Deaktiviert

Hinweis: Seit v0.5.150 erkennt Talk to me automatisch, wenn Eingabe- und Ausgabesprache unterschiedlich sind, und aktiviert die Übersetzung — auch ohne expliziten Toggle. KI-Polish bleibt unabhängig davon verfügbar und wird nicht mehr automatisch deaktiviert.

10. Quick-Override-Steuerung

Die Quick-Override-Steuerung ermöglicht es dir, die Ein- oder Ausgabesprache für ein einzelnes Diktat vorübergehend zu ändern, ohne deine gespeicherten Einstellungen zu modifizieren.

Spracheingabe-Override

Wähle eine andere Eingabesprache für die nächste Aufnahme:

Automatische Erkennung — Der STT-Anbieter erkennt die Sprache automatisch
Einzelne Sprachen (siehe Anhang A)

Textausgabe-Override

Wähle eine andere Ausgabesprache (entspricht dem vorübergehenden Aktivieren der Übersetzung):

Standard (wie Eingabe) — Keine Übersetzung
Alle 20 Übersetzungssprachen

Auf Einstellungen zurücksetzen

Wenn ein Override aktiv ist, erscheint ein Zurücksetzen-Button (↩-Symbol). Tippe/klicke darauf, um zu deinen gespeicherten Einstellungen zurückzukehren.

11. Key Pool

Der Key Pool ist der Ort, an dem du deine API-Schlüssel verwaltest. Talk to me verwendet eine Pool-basierte Architektur — du kannst mehrere Schlüssel pro Kategorie hinzufügen, und die App rotiert automatisch zwischen ihnen basierend auf Trust Scores.

Kategorien

Kategorie	Zweck	Unterstützte Anbieter
Speech-to-Text	Transkription	OpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper
KI-Polish / LLM	Grammatik, Übersetzung	OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Text-to-Speech	Sprachsynthese	ElevenLabs, Deepgram, OpenAI TTS

Einen Schlüssel hinzufügen

Klappe den Key Pool-Bereich auf.
Klicke/tippe auf + Schlüssel hinzufügen in der gewünschten Kategorie.
Wähle den Anbieter.
Gib ein Label ein (z. B. „Mein OpenAI-Schlüssel").
Gib deinen API-Schlüssel ein.
Klicke/tippe auf Schlüssel speichern.

Key-Slot-Funktionen

Jeder Key-Slot zeigt an:

Label und Anbieter
Maskierter Schlüssel (letzte 4 Zeichen sichtbar)
Trust Score — Farbcodiert (grün/gelb/rot)
Statistiken — Aufrufe, Erfolge, Fehler, Ratenlimits

Aktionen pro Slot:

Testen — Überprüft, ob der Schlüssel funktioniert
Pausieren / Aktivieren — Vorübergehend deaktivieren oder wieder aktivieren
Entfernen — Dauerhaft löschen

Trust System

Stufe	Score	Farbe	Verhalten
Ausgezeichnet	≥80%	Grün	Bevorzugt
Gut	≥60%	Grün	Normal
OK	≥40%	Gelb	Fallback
Schwach	≥20%	Gelb	Selten verwendet
Kritisch	<20%	Rot	Letzter Ausweg

Schlüssel, die Ratenlimits erreichen, werden automatisch in eine Abkühlphase versetzt, während andere Schlüssel verwendet werden.

12. KI-Sprachchat

Talk to me enthält zwei unabhängige KI-Sprachchat-Engines, jede mit eigenen Stärken. Du kannst jederzeit über den KI-Chat-Tab zwischen ihnen wechseln.

Engine	Technologie	Hauptvorteil
12a. Deepgram Voice Agent	Deepgram Agent API (WebSocket)	32+ Voreinstellungen, 6 LLM-Anbieter, 4 TTS-Anbieter, Latenz-Überwachung, verwalteter & BYO-Modus
12b. Gemini 3.1 Flash Live	Google Gemini Live API (WebSocket)	30 ausdrucksstarke Stimmen, Persona-Voreinstellungen, Denktiefe-Steuerung, native Google Multimodal-KI

Vollständiger Freisprech-Lautsprechermodus (Android)

Beide Sprachchat-Engines funktionieren vollständig freihändig über den Lautsprecher deines Telefons. Talk to me verwendet proprietäre akustische Echounterdrückung (AEC) über eine native Android-Bridge, um deine Stimme von der Lautsprecherausgabe der KI zu trennen. Unterbreche jederzeit — die KI stoppt sofort und macht dort weiter, wo du möchtest. Keine Kopfhörer oder zusätzliche Ausrüstung erforderlich. Desktop-Benutzer mit jedem Standard-Setup funktionieren ebenso gut.

12a. Deepgram Voice Agent

Der Deepgram Voice Agent bietet Echtzeit-Vollduplex-KI-Sprachgespräche über eine einzelne WebSocket-Verbindung zur Deepgram Agent API. Er orchestriert Speech-to-Text (STT), Large Language Models (LLMs) und Text-to-Speech (TTS) in einer einheitlichen Pipeline — du sprichst, die KI denkt und antwortet mit natürlicher Stimme, alles in Echtzeit.

Erste Schritte

Wechsle zum KI-Chat-Tab, dann wähle den Deepgram-Untertab.
Füge einen Deepgram API-Schlüssel im Key Pool hinzu (scrolle nach unten zum Abschnitt “Deepgram Voice Agent”).
Wähle eine Konfigurations-Voreinstellung oder konfiguriere manuell.
Tippe auf die grüne Schaltfläche Gespräch starten.

Konfigurations-Voreinstellungen (32+ Optionen)

Talk to me wird mit über 32 Voreinstellungen in sechs Kategorien ausgeliefert. Jede Voreinstellung konfiguriert STT-Modell, LLM-Anbieter/Modell, TTS-Anbieter/Stimme und Turn-Detection-Parameter vor.

Top Tier — Beste Qualität

Voreinstellung	LLM	TTS	STT
Gemini 3.0 Pro + Sonic-3	Google Gemini 3.0 Pro	Cartesia Sonic-3	Nova-3
Claude 4.5 + Sonic-3	Anthropic Claude Sonnet 4.5	Cartesia Sonic-3 (Tessa)	Nova-3
Claude 4.6 + Sonic-3	Anthropic Claude Sonnet 4.6	Cartesia Sonic-3 (Katie)	Nova-3
GPT-5.4 + Sonic-3	OpenAI GPT-5.4	Cartesia Sonic-3 (Katie)	Nova-3
GPT-5.4 + Kiefer	OpenAI GPT-5.4	Cartesia Sonic-3 (Kiefer, Male)	Nova-3

Ultra-Fast — Niedrigste Latenz (~1,1s)

Voreinstellung	LLM	TTS	STT
GPT-4o Mini + Sonic-3	OpenAI GPT-4o Mini	Cartesia Sonic-3	Nova-3
GPT-5.4 Nano + Sonic-3	OpenAI GPT-5.4 Nano	Cartesia Sonic-3	Nova-3
Haiku 4.5 + Sonic-3	Anthropic Claude Haiku 4.5	Cartesia Sonic-3	Nova-3
Gemini 2.5 Flash + Sonic-3	Google Gemini 2.5 Flash	Cartesia Sonic-3	Nova-3
Nemotron 49B + Sonic-3	NVIDIA Nemotron Super 49B	Cartesia Sonic-3	Nova-3

Flux — Nur Englisch, Ultra-Low-Latency

Flux verwendet Deepgrams Flux-STT-Modell mit aggressiver End-of-Turn-Erkennung für die absolut schnellsten Antwortzeiten. Nur Englisch.

Voreinstellung	LLM	TTS
Flux + GPT-4o Mini + Sonic-3	OpenAI GPT-4o Mini	Cartesia Sonic-3
Flux + GPT-5.4 Nano + Sonic-3	OpenAI GPT-5.4 Nano	Cartesia Sonic-3
Flux + GPT-5.4 + Sonic-3	OpenAI GPT-5.4	Cartesia Sonic-3
Flux + Claude 4.6 + Sonic-3	Anthropic Claude 4.6	Cartesia Sonic-3
Flux + Gemini Flash + Sonic-3	Google Gemini 2.5 Flash	Cartesia Sonic-3

Balanced — Qualität + Geschwindigkeit

Voreinstellung	LLM	TTS
GPT-5 Mini + Sonic-3	OpenAI GPT-5 Mini	Cartesia Sonic-3
GPT-4.1 Mini + Sonic-3	OpenAI GPT-4.1 Mini	Cartesia Sonic-3
Haiku 4.5 + Tessa	Anthropic Haiku 4.5	Cartesia Sonic-3 (Tessa)
Gemini 3.0 Flash + Sonic-3	Google Gemini 3.0 Flash	Cartesia Sonic-3

Experimental — Deepgram Aura-2 TTS (sprachspezifisch)

Voreinstellung	LLM	TTS-Stimme
GPT-5.4 + Julius (DE)	OpenAI GPT-5.4	Aura-2 Julius (Deutsch, Männlich)
GPT-5.4 + Zeus (EN)	OpenAI GPT-5.4	Aura-2 Zeus (Englisch, Männlich)
Claude 4.6 + Thalia (EN)	Anthropic Claude 4.6	Aura-2 Thalia (Englisch, Weiblich)
GPT-5.4 + Agathe (FR)	OpenAI GPT-5.4	Aura-2 Agathe (Französisch, Weiblich)
GPT-5.4 + Celeste (ES)	OpenAI GPT-5.4	Aura-2 Celeste (Spanisch, Weiblich)

Full BYO — Eigene LLM- & TTS-Schlüssel mitbringen

Im Full-BYO-Modus übernimmt Deepgram nur STT (Nova-3). Deine eigenen API-Schlüssel für LLM- und TTS-Anbieter werden direkt verwendet.

Voreinstellung	LLM (BYO Key)	TTS (BYO Key)
GPT-5.4 + ElevenLabs	OpenAI GPT-5.4	ElevenLabs Turbo v2.5
GPT-5.4 + OpenAI TTS	OpenAI GPT-5.4	OpenAI TTS-1
GPT-5.4 Nano + ElevenLabs	OpenAI GPT-5.4 Nano	ElevenLabs Turbo v2.5
Gemini 3 Pro + ElevenLabs	Google Gemini 3 Pro	ElevenLabs Turbo v2.5
Gemini Flash + OpenAI TTS	Google Gemini 2.5 Flash	OpenAI TTS-1
Claude 4.6 + ElevenLabs	Anthropic Claude 4.6	ElevenLabs Turbo v2.5
Claude 4.6 + OpenAI TTS	Anthropic Claude 4.6	OpenAI TTS-1
Grok 3 Mini + ElevenLabs	xAI Grok 3 Mini	ElevenLabs Turbo v2.5

Voreinstellung sperren & entsperren

Wenn eine Voreinstellung aktiv ist, sind alle Konfigurationsfelder auf die Voreinstellungswerte gesperrt (angezeigt durch ein Schloss-Symbol). Dies verhindert versehentliche Änderungen. Um einzelne Einstellungen zu überschreiben, tippe auf Zum manuellen Bearbeiten entsperren. Das Ändern einer Einstellung wechselt automatisch zur “Manuellen Konfiguration”.

Manuelle Konfiguration

Tippe auf das Zahnrad-Symbol neben der Start-Schaltfläche, um das Konfigurationspanel zu öffnen. Alle folgenden Felder sind verfügbar:

LLM-Anbieter

Anbieter	Wichtige Modelle
OpenAI	GPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (inkl. Nano, Mini)
Anthropic	Claude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6
Google	Gemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite
NVIDIA	Llama Nemotron Super 49B, Nemotron 3 Nano 30B
xAI	Grok 3, Grok 3 Mini, Grok 3 Fast
Groq	GPT OSS 20B

TTS-Anbieter

Anbieter	Stimmen	Sprachen	Schlüssel erforderlich
Cartesia Sonic-3	9 Stimmen (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default)	42 Sprachen (mehrsprachige Auto-Erkennung)	Nur Deepgram-Schlüssel (verwaltet)
Deepgram Aura-2	35+ Stimmen (EN, DE, FR, ES, IT, NL, JA)	Sprachspezifisch pro Stimme	Nur Deepgram-Schlüssel (verwaltet)
ElevenLabs	Deine ElevenLabs-Stimmen (automatisch geladen)	Mehrsprachig	ElevenLabs API-Schlüssel (BYO)
OpenAI TTS	10 Stimmen (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer)	Englisch	OpenAI API-Schlüssel (BYO)

STT-Modell

Modell	Sprachen	Einsatzbereich
Nova-3	Mehrsprachig	Standard, beste Gesamtgenauigkeit
Nova-3 General	Mehrsprachig	Allgemeine Variante
Nova-3 Medical	Mehrsprachig	Für medizinische Terminologie optimiert
Flux	Nur Englisch	Ultra-Low-Latency Turn-Erkennung

Weitere Einstellungen

Sprache — Auto-Erkennung (Mehrsprachig) oder eine bestimmte Sprache: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Niederländisch, Japanisch, Portugiesisch, Hindi, Russisch
Begrüßungsnachricht — Text, den der Agent beim Gesprächsstart spricht (optional)
Systemanweisung — Definiere die Persönlichkeit und das Verhalten der KI. Eine Basisanweisung ist immer enthalten, die Markdown-Formatierung und Rückfragen in der Sprachausgabe verhindert.

Erweiterte Einstellungen

Klappe den Bereich Erweitert für Feinabstimmung auf:

Temperature (0,00 – 2,00) — Steuert die Kreativität der Antworten. Standard: 0,7. Niedriger = fokussierter, höher = kreativer.
STT-Modell — Zwischen Nova-3-Varianten und Flux wechseln.

Wenn Flux STT ausgewählt ist, erscheinen zusätzliche Steuerelemente:

Eager EOT Threshold (0,0 – 1,0) — Wie aggressiv das System das Sprechende erkennt. Höher = schnellere Antwort, kann dich aber mitten im Satz abschneiden.
EOT Timeout (0 – 5000ms) — Maximale Stille, bevor der Agent antwortet.

Für ElevenLabs BYO: Ein benutzerdefiniertes Voice-ID-Feld ermöglicht die direkte Eingabe einer beliebigen ElevenLabs Voice ID.
Für OpenAI TTS BYO: Wähle aus 10 OpenAI-Stimmen (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).

Während eines Gesprächs

Status-Anzeige — Zeigt Bereit, Verbinden, Live (mit verstrichener Zeit) oder Fehler
Audio-Pegelanzeige — Zeigt den Mikrofon-Eingang mit Zuhören/Still-Status
Denk-Anzeige — Ein grünes Badge erscheint, während das LLM deine Eingabe verarbeitet
Gesprächstranskript — Echtzeit-Anzeige des gesamten Dialogs. Deine Nachrichten erscheinen rechts (grün), die des Agenten links (blau).
Barge-in — Unterbreche die KI jederzeit durch Sprechen. Der Agent stoppt sofort und hört dir zu.
Größenänderungsgriff — Ziehe den Griff unter dem Transkript, um den Chat-Bereich zu vergrößern/verkleinern (120px bis 85% des Bildschirms)
Duale Start/Stop-Schaltflächen — Eine oben, eine unten fixiert für einfachen Zugriff beim Scrollen

Latenz-Überwachung

Nach dem ersten Turn erscheint ein kompakter Latenzbalken mit drei Schlüsselmetriken:

LLM — Zeit von deiner Sprache bis zum ersten LLM-Token
TTFB — Gesamte Time to First Byte (End-to-End)
TURN — Volle Turn-Dauer einschließlich Audio-Wiedergabe

Werte sind farbcodiert: grün (< 2s), gelb (2–5s), rot (> 5s).

Tippe auf den Latenzbalken, um eine detaillierte Turn-für-Turn-Tabelle aufzuklappen mit Spalten: #, Sprachdauer, LLM-Zeit, TTS-Zeit, TTFB, Audio-Länge, Gesamt. Durchschnittliche LLM- und TTFB-Werte werden in der Kopfzeile angezeigt.

Echounterdrückung (AEC)

Talk to me enthält proprietäre akustische Echounterdrückung über eine native Android-Kotlin-Bridge. Die Lautsprecherausgabe der KI wird erfasst und in Echtzeit vom Mikrofon-Eingang subtrahiert, was selbstauslösende Rückkopplungsschleifen verhindert. Dies ermöglicht vollständig freihändigen Betrieb über den Lautsprecher ohne Kopfhörer. Funktioniert mit allen verwalteten Voreinstellungen und den meisten BYO-Konfigurationen.

Key Pool — Deepgram Voice Agent

Der Deepgram Voice Agent Key Pool ist ein dedizierter, einklappbarer Bereich unterhalb des Chat-Bereichs. Er verwaltet:

Deepgram API-Schlüssel (erforderlich) — für STT und verwaltetes LLM/TTS-Routing
LLM-Schlüssel (optional, nur Full BYO) — OpenAI, Anthropic, Gemini, xAI
TTS-Schlüssel (optional, nur Full BYO) — ElevenLabs, OpenAI TTS

Jede Schlüsselkarte zeigt ein 4-Zeilen-Layout: Bezeichnung, Anbieter-Badge + maskierter Schlüssel, Vertrauensscore mit Statistiken und Test/Pause-Aktionsschaltflächen. Du kannst einzelne Schlüssel oder alle auf einmal testen.

Sitzungslimits

Sitzungen sind auf maximal 15 Minuten begrenzt (API-Beschränkung). Die verstrichene Zeit wird in der Stop-Schaltfläche angezeigt. Die Sitzung endet automatisch, wenn das Limit erreicht ist.

Tipps

Starte mit einer verwalteten Voreinstellung (Top Tier oder Ultra-Fast) — sie benötigen nur einen Deepgram-Schlüssel und bieten die beste Erfahrung.
GPT-5.4 Nano + Cartesia Sonic-3 liefert ~1,1s Antwortzeiten — die schnellste Option.
Flux-Voreinstellungen sind nur auf Englisch, aber extrem schnell dank aggressiver End-of-Turn-Erkennung.
Full-BYO-Voreinstellungen verwenden deine eigenen LLM/TTS-Schlüssel für maximale Kontrolle, können aber bei einigen TTS-Anbietern reduzierte Barge-in-Leistung haben.
Alle Einstellungen werden beim nächsten Sitzungsstart wirksam, nicht während einer laufenden Sitzung.

12b. Gemini 3.1 Flash Live

Gemini 3.1 Flash Live bietet Echtzeit-Sprachgespräche, angetrieben von Googles neuestem Audio-KI-Modell. Es liefert die Geschwindigkeit und den natürlichen Rhythmus, der für sprach-zentrierte Interaktion benötigt wird, mit Sub-Sekunden-Latenz, 30 ausdrucksstarken Stimmen und nativem multimodalem Verständnis.

Voraussetzungen

Du benötigst einen Google Gemini API-Schlüssel (kostenpflichtige Stufe empfohlen), der im LLM Key Pool in den Einstellungen hinzugefügt wird. Der Schlüssel ist automatisch für den KI-Sprachchat verfügbar. Das verwendete Modell ist gemini-3.1-flash-live-preview.

Ein Gespräch starten

Navigiere zum KI-Chat-Tab, dann wähle den Gemini-Untertab. Tippe auf Gespräch starten. Die App verbindet sich über WebSocket mit Gemini, öffnet dein Mikrofon und beginnt zuzuhören. Sprich natürlich — Gemini antwortet in Echtzeit-Audio. Tippe auf Beenden, um zu stoppen.

Stimmen (30 Optionen)

Wähle aus 30 natürlichen KI-Stimmen, jede mit eigener Persönlichkeit:

Stimme	Charakter	Geeignet für
Sulafat	Warm	Geschichtenerzählen, Gutenachtgeschichten, ruhige Gespräche
Gacrux	Reif	Autoritative Erzählung, Mentoring, tiefgründige Diskussionen
Algenib	Rau	Filmische Erzählung, dramatisches Vorlesen, Charakterstimme
Kore	Bestimmt	Professionelle Briefings, Nachrichtenvortrag, sachliche Fragen & Antworten
Puck	Lebhaft	Energiegeladene Gespräche, Motivation, Brainstorming
Zephyr	Strahlend	Optimistische Chats, freundliche Hilfe, Begrüßungen
Charon	Informativ	Tutorials, Erklärungen im Dokumentarstil
Fenrir	Aufgeregt	Begeisterte Reaktionen, Spielkommentare, Hype
Leda	Jugendlich	Lockerer Chat, Gen-Z-Gespräche, trendige Themen
Aoede	Unbeschwert	Entspannte Gespräche, Reisegespräche, Lifestyle
Achernar	Sanft	Meditationsanleitung, ASMR-Stil, sanfte Ermutigung
Algieba	Geschmeidig	Podcast-Moderation, Hörbücher, lange Vorlesungen
Despina	Geschmeidig	Elegante Erzählung, Luxusmarken-Stimme
Achird	Freundlich	Kundenservice, alltägliche Unterstützung, einladender Ton
Vindemiatrix	Einfühlsam	Unterstützende Gespräche, therapeutischer Ton, Empathie
Sadaltager	Sachkundig	Technische Erklärungen, Experten-Q&A, enzyklopädisch
Rasalgethi	Informativ	Wissenschaftsdokumentationen, Bildungsinhalte
Schedar	Ausgeglichen	Ausgewogene Diskussionen, neutrale Berichterstattung, Debatten
Alnilam	Bestimmt	Befehlende Präsenz, Führung, formelle Anlässe
Pulcherrima	Direkt	Durchsetzungsstarke Kommunikation, Pitches, Präsentationen
Zubenelgenubi	Lässig	Lockerer Chat, Freunde treffen, Humor
Sadachbia	Lebhaft	Animiertes Geschichtenerzählen, Kinderinhalte, verspielt
Laomedeia	Lebhaft	Morgenshow, fröhliche Updates, positive Stimmung
Callirrhoe	Locker	Lockere Beratung, Lifestyle-Coaching, nahbar
Autonoe	Strahlend	Kreativsitzungen, Ideenfindung, Kunstdiskussionen
Enceladus	Hauchig	Intime Erzählung, Gedichtvorlesung, atmosphärisch
Iapetus	Klar	Präzise Anweisungen, Schritt-für-Schritt-Anleitungen, Klarheit
Erinome	Klar	Klare Kommunikation, Unternehmensschulung, Diktion
Umbriel	Locker	Entspanntes Q&A, Wochenend-Stimmung, gedämpfte Gespräche

Tipp: Höre alle Stimmen in der Google AI Studio Stimmbibliothek an.

Sprache

Wähle aus 24 unterstützten Sprachen oder belasse es auf Automatische Erkennung. Gemini antwortet in der Sprache, die du sprichst — oder in der Sprache, die du auswählst. Unterstützt: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Rumänisch, Russisch, Ukrainisch, Türkisch, Arabisch, Hindi, Bengalisch, Tamil, Telugu, Marathi, Japanisch, Koreanisch, Thailändisch, Vietnamesisch, Indonesisch.

Persona-Voreinstellungen

Persona-Voreinstellungen definieren, wie Gemini sich verhält — seine Persönlichkeit, seinen Ton und seinen Kommunikationsstil. Wähle aus sechs Voreinstellungen oder erstelle deine eigene:

Voreinstellung	Verhalten
Friendly Assistant	Warm, gesprächig, zugänglich — ideal für den Alltag
Professional	Klar, prägnant, autoritativ — für Geschäft und Arbeit
Enthusiastic	Energisch, positiv, ermutigend — für Brainstorming und Motivation
Calm & Soothing	Langsam, sanft, geduldig — für Entspannung und geführte Sitzungen
Teacher	Geduldig, schrittweise, verwendet Analogien — für Lernen und Erklärungen
Creative	Fantasievoll, ausdrucksstark, bildhafte Sprache — für Geschichten und Kunst
Custom	Schreibe deine eigene Systemanweisung von Grund auf

Systemanweisung

Die Systemanweisung ist ein Text-Briefing, das du Gemini vor Beginn des Gesprächs gibst. Stelle es dir wie eine Regieanweisung vor: Sage der KI, wer sie ist, wie sie sich verhalten soll und worauf sie sich konzentrieren soll.

Beispiele:

“Du bist ein geduldiger italienischer Sprachtutor. Sprich langsam. Korrigiere meine Grammatik sanft.”
“Du bist ein erfahrener Softwarearchitekt. Antworte knapp und technisch.”
“Du bist ein kreativer Geschichtenerzähler. Sprich mit Flair. Verwende bildhafte Sprache.”

Bei Verwendung einer Persona-Voreinstellung wird dein benutzerdefinierter Text an die Voreinstellungsanweisung angehängt. Im Custom-Modus ist dein Text die gesamte Anweisung. Schreibe auf Englisch für beste Ergebnisse. Einstellungen werden automatisch gespeichert.

Denktiefe

Steuere, wie intensiv Gemini nachdenkt, bevor es antwortet:

Stufe	Verhalten
Minimal	Schnellste Antworten, minimale interne Überlegung (Standard)
Low	Kurze Überlegung, gute Balance
Medium	Durchdachte Antworten, längere Pause vor der Antwort
High	Tiefes Nachdenken, am besten für komplexe Fragen

Temperature & Top-P

Temperature (0,0 – 2,0) steuert, wie kreativ vs. vorhersagbar die KI antwortet:

Bereich	Verhalten	Geeignet für
0,0 – 0,5	Fokussiert, deterministisch	Fakten, technische Antworten, präzise Anweisungen
0,7 – 1,0	Ausgewogen, natürlich (Standard: 1,0)	Die meisten Gespräche, alltägliche Nutzung
1,2 – 2,0	Kreativ, überraschend	Brainstorming, Geschichtenerzählen, kreatives Schreiben

Top-P (0,0 – 1,0) begrenzt den Pool an Wörtern, die die KI in Betracht zieht. Bei 0,95 (Standard) wählt das Modell aus den wahrscheinlichsten 95% der Wörter. Niedrigere Werte machen die Ausgabe konservativer.

Sprachaktivitätserkennung (VAD)

VAD-Einstellungen steuern, wie Gemini erkennt, wann du anfängst und aufhörst zu sprechen:

Sprachbeginn-Empfindlichkeit — Wie leicht das System den Sprachbeginn erkennt.
Sprachende-Empfindlichkeit — Wie schnell das System entscheidet, dass du aufgehört hast zu sprechen.
Stille-Dauer — Wie viele Millisekunden Stille vergehen müssen, bevor deine Wortmeldung als abgeschlossen gilt (100–2000ms).

Echounterdrückung (AEC)

Identisch zum Deepgram Voice Agent profitiert Gemini 3.1 Flash Live von Talk to me’s proprietärer akustischer Echounterdrückung über die native Android-Kotlin-Bridge. Vollständiger Freisprech-Lautsprechermodus funktioniert ohne Kopfhörer.

Tipps für beste Ergebnisse

Sprich natürlich — Gemini unterstützt natürliches Barge-in (jederzeit unterbrechen)
Auf Android eliminiert die integrierte AEC das Echo — keine Kopfhörer nötig
Die Sitzungslänge ist auf 15 Minuten pro Verbindung begrenzt (API-Limit)
Alle Einstellungen werden beim nächsten Sitzungsstart wirksam (nicht während einer laufenden Sitzung)
Die Audio-Pegelanzeige zeigt einen farbigen Verlauf (grün, gelb, orange, rot), der deinen Mikrofon-Eingangspegel anzeigt
Die Transkription deiner Sprache und der Gemini-Antworten kann unabhängig voneinander ein-/ausgeschaltet werden

13. Globale Hotkeys Windows

Talk to me registriert systemweite Hotkeys, damit du das Diktieren steuern kannst, ohne zum App-Fenster zu wechseln.

Primäre Hotkeys

Hotkey	Aktion
Strg+Win	Aufnahme starten / stoppen (global, funktioniert aus jeder App)
Strg+Win (während Verarbeitung)	Aktuelle Pipeline abbrechen

TTS-Hotkey

Wenn Text in einer beliebigen Anwendung markiert ist, liest der TTS-Hotkey ihn mit deinem konfigurierten TTS-Anbieter laut vor.

Low-Level Hook

Der globale Hotkey verwendet einen Windows Low-Level-Keyboard-Hook, was bedeutet, dass er auch funktioniert, wenn die App minimiert ist oder eine andere Anwendung den Fokus hat. Der Hook arbeitet im „Zero-Swallow-Modus" — er fängt die Tastenkombination ab, ohne andere Tastatureingaben zu blockieren.

14. Auto-Read Windows

Auto-Read ist eine Windows-exklusive Funktion, die Text aus der aktuell fokussierten Anwendung extrahiert und ihn per TTS vorliest.

So funktioniert es

Aktiviere Auto-Read, indem du auf den Auto-Read-Button klickst.
Markiere Text in einer beliebigen Anwendung (oder verwende Strg+C zum Kopieren).
Talk to me erkennt den Inhalt der Zwischenablage und liest ihn automatisch mit deiner TTS-Konfiguration vor.

Anwendungsfälle

E-Mails, Artikel oder Dokumente vorlesen lassen, ohne auf den Bildschirm zu starren.
Eigene Texte überprüfen, indem du sie dir vorlesen lässt.
Barrierefreiheits-Unterstützung für sehbeeinträchtigte Nutzer.

15. Notification Listener Windows

Der Notification Listener erfasst Windows-Toast-Benachrichtigungen und liest sie per TTS vor.

Voraussetzungen

Windows Desktop Version
Benachrichtigungszugriff in den Windows-Einstellungen erteilt

So funktioniert es

Aktiviere den Notification Listener, indem du auf den Umschalter klickst.
Erteile den Benachrichtigungszugriff, wenn Windows danach fragt.
Wenn eine Windows-Toast-Benachrichtigung eintrifft (E-Mail, Chat-Nachricht, Kalendererinnerung), macht Talk to me Folgendes: Extrahiert den Titel und Inhalt der Benachrichtigung und liest sie mit deiner TTS-Konfiguration laut vor.

Konfiguration

Aktivieren/Deaktivieren in Einstellungen → Hands-Free
TTS-Stimme und Anbieter folgen deinen globalen TTS-Einstellungen

16. MP3-Aufnahme & Speichern Windows

TTS-Ausgabe aufnehmen

Wenn aktiviert, wird jede TTS-Synthese automatisch als MP3-Datei mit fortlaufender Nummerierung gespeichert (z. B. recording_001.mp3, recording_002.mp3).

Aufnahmen speichern

Klicke auf Aufnahmen speichern, um den Ordner mit allen aufgenommenen MP3-Dateien zu öffnen. Du kannst das Aufnahmeverzeichnis in den Einstellungen konfigurieren.

Hinweis zu Android-Berechtigungen Android

Die Android-Version von Talk to me benötigt mehrere Systemberechtigungen (Mikrofon, Overlay, Accessibility Service, Benachrichtigungszugriff) — jeweils mit einem eigenen Bestätigungsdialog. Wir verstehen, dass sich das umständlich anfühlen kann.

Wir hätten eine einfachere Einrichtung bevorzugt. Allerdings verlangen die Google Play Store Richtlinien und die Android-Sicherheitsvorgaben, dass jede sensible Berechtigung einzeln angefragt wird, mit einer klaren Erklärung, wofür sie verwendet wird und wofür nicht. Diese mehrstufigen Bestätigungsdialoge sind nicht unsere Designentscheidung — sie werden von den Plattform-Compliance-Anforderungen vorgeschrieben.

Jede Berechtigung wird nur dann angefragt, wenn du die entsprechende Funktion tatsächlich benötigst — nicht alle auf einmal bei der Installation. Du kannst jede Berechtigung jederzeit in den Android-Einstellungen widerrufen. Die App funktioniert weiterhin — die jeweilige Funktion wird einfach deaktiviert.

Hier ist eine Übersicht aller Android-Berechtigungen und warum sie benötigt werden:

Berechtigung	Funktion	Erforderlich?
Mikrofon	Speech-to-Text Diktat, AI Voice Chat	Ja — Kernfunktion
Über anderen Apps anzeigen	Floating Bubble (Freisprecher-Overlay)	Nur bei Overlay-Nutzung
Accessibility Service	Text automatisch in Chat-App-Eingabefelder einfügen	Nur bei Auto-Paste-Nutzung
Benachrichtigungszugriff	Eingehende Nachrichten vorlesen	Nur bei Auto-Read-Nutzung
Internet	Kommunikation mit KI-Anbietern	Ja — für alle Funktionen erforderlich

Vielen Dank für dein Verständnis. Wir nehmen deine Privatsphäre ernst — keine dieser Berechtigungen wird verwendet, um persönliche Daten zu sammeln, zu speichern oder zu übertragen. Siehe Datenschutz und Sicherheit für alle Details.

17. Floating Bubble (Overlay) Android

Die Floating Bubble ist ein kleines kreisförmiges Symbol, das über allen anderen Apps schwebt und freihändigen Zugang zum Diktieren bietet, ohne die App wechseln zu müssen.

Overlay aktivieren

Tippe auf den Overlay-Button in der Haupt-App.
Falls Androids Berechtigung „Über anderen Apps anzeigen" noch nicht erteilt ist, wirst du aufgefordert, sie zu aktivieren.
Eine kleine Talk to me-Bubble erscheint auf dem Bildschirm.

Die Bubble verwenden

Einfaches Tippen: Aufnahme starten oder stoppen. Roter pulsierender Rand während der Aufnahme, blauer pulsierender Rand während der TTS-Wiedergabe.
Dreifaches Tippen: Test-Wiedergabe — liest einen vordefinierten Text vor, um zu bestätigen, dass TTS funktioniert.
Langes Drücken: Löscht die Warteschlange ungelesener Nachrichten.
Ziehen: Verschiebe die Bubble an eine beliebige Stelle auf dem Bildschirm.

Aufnahme über die Bubble

Tippe auf die Bubble, um die Aufnahme zu starten.
Nach der Transkription bestätigt ein „✓ Eingefügt!"-Toast, dass der Text eingefügt oder in die Zwischenablage gelegt wurde.

Bubble-Übersetzung und Auto-Einfügen

Die Bubble nutzt dieselbe Übersetzungslogik wie das Hauptfenster: Wenn sich Eingabe- und Ausgabesprache unterscheiden, wird dein Diktat automatisch übersetzt, bevor es eingefügt wird. Auch Voice Translate (akustisches Vorlesen) funktioniert in der Bubble.

Über Androids Accessibility Service fügt die Bubble den (ggf. übersetzten) Text direkt in das fokussierte Eingabefeld ein. In allen von uns getesteten Mainstream-Apps — darunter WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest und Skool — funktioniert das automatische Einfügen zuverlässig.

Falls du eine sehr exotische App nutzt, in der das automatische Einfügen scheitert, liegt der bereits übersetzte Text garantiert in der Zwischenablage — ein langer Druck auf das Eingabefeld und „Einfügen" macht den Text sichtbar.

Overlay beenden

Tippe erneut auf den Overlay-Button oder tippe auf Stopp in der Benachrichtigung.

18. Auto-Paste Android

Auto-Paste nutzt Androids Accessibility Service, um diktierten Text automatisch in das aktuell fokussierte Textfeld einzufügen.

Auto-Paste aktivieren

Tippe auf den Auto-Paste-Button.
Gehe zu Androids Barrierefreiheits-Einstellungen.
Finde Talk to me und aktiviere es.
Der Button zeigt nun ✓ mit einem cyanfarbenen Rand.

Eingabehilfe-Schaltfläche

Beim Aktivieren des Accessibility Service fragt Android nach einer Aktivierungsmethode. Diese bestimmt, wie du den Dienst schnell ein-/ausschalten kannst:

Eingabehilfe-Schaltfläche (empfohlen): Ein kleiner Button erscheint in der Navigationsleiste. Tippe darauf, um den Dienst umzuschalten.
Lauter + Leiser (3 Sekunden halten): Drücke und halte beide Lautstärketasten gleichzeitig 3 Sekunden lang, um umzuschalten.

Wir empfehlen die Eingabehilfe-Schaltfläche für die einfachste Bedienung. Dies ist eine Standard-Android-Systemfunktion — die Wahl beeinflusst nicht, wie Auto-Paste funktioniert.

Wichtige Hinweise

Erfordert die Android-Berechtigung für Barrierefreiheit (eine sensible Berechtigung).
Muss nach App-Updates möglicherweise erneut erteilt werden.
Wird ausschließlich zum Einfügen von Text verwendet — auf keine anderen Barrierefreiheitsdaten wird zugegriffen.

App-Kompatibilität

Auto-Paste funktioniert in den meisten Android-Apps zuverlässig. Folgende Apps wurden mit v0.5.159 getestet:

App	Auto-Paste	Übersetzung
WhatsApp	✅	✅
Gmail (Empfänger + Body)	✅	✅
Discord	✅	✅
Microsoft Teams	✅	✅
Viber	✅	✅
Chrome	✅	✅
ChatGPT	✅	✅
Facebook	✅	✅
Instagram	✅	✅
Pinterest	✅	✅
Skool (WebView in Chrome)	✅	✅
Viber	✅	✅

„App wurde Zugriff verweigert" — Eingeschränkte Einstellungen (Android 13+)

Auf manchen Geräten erscheint beim Aktivieren von Auto-Paste oder Benachrichtigungszugriff die Meldung „App wurde Zugriff verweigert" oder „Diese Einstellung ist derzeit nicht verfügbar." Das ist kein Fehler — es ist eine Sicherheitsfunktion von Android 13+ namens Eingeschränkte Einstellungen.

Betroffene Hersteller: Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.

So löst du das Problem:

Öffne Android-Einstellungen → Apps → Alle Apps anzeigen → suche Talk to me.
Tippe auf Talk to me, um die App-Info-Seite zu öffnen (nicht die Benachrichtigungs-Unterseite).
Tippe auf das Drei-Punkte-Menü (⋮) oben rechts.
Wähle Eingeschränkte Einstellungen zulassen.
Bestätige mit PIN/Fingerabdruck.
Gehe zurück zu Einstellungen → Bedienungshilfen und aktiviere Talk to me.

Tipp: Falls das ⋮-Menü nicht sichtbar ist, versuche zuerst die Berechtigung zu aktivieren (löst die Fehlermeldung aus). Gehe dann zur App-Info-Seite — das Menü sollte jetzt erscheinen.

Lenovo (ZUI): Wenn du in den Einstellungen auf Apps tippst, landest du möglicherweise auf der Benachrichtigungs-Unterseite statt auf der App-Info. Navigiere zurück und suche die vollständige App-Info-Seite mit Speicher, Berechtigungen und Batterie.

19. Auto-Read Nachrichten Android

Auto-Read liest eingehende Chat-Nachrichten automatisch per TTS vor — ideal beim Autofahren, Kochen oder Trainieren.

So funktioniert es

Aktiviere Auto-Read (Kopfhörer-Symbol).
Stelle sicher, dass der Benachrichtigungszugriff erteilt ist.
Das Overlay muss aktiv sein.
Wenn eine Nachricht von einer erlaubten App eintrifft, kündigt Talk to me den Absender an und liest die Nachricht laut vor.

Vorausgewählte Chat-Apps

WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.

Du kannst Apps in der Auto-Read App-Konfiguration hinzufügen oder entfernen.

20. Benachrichtigungszugriff Android

Der Benachrichtigungszugriff ermöglicht es Talk to me, eingehende Benachrichtigungen zu lesen — erforderlich für Auto-Read Nachrichten.

Zugriff erteilen

Tippe auf den Benachrichtigungszugriff-Button.
Gehe zu Androids Benachrichtigungslistener-Einstellungen.
Finde Talk to me und aktiviere es.
Der Button zeigt ✓ mit einem cyanfarbenen Rand.

Wichtige Hinweise

Systemberechtigung — verarbeitet nur Benachrichtigungen von explizit erlaubten Apps.
Es werden keine Benachrichtigungsdaten gespeichert, übertragen oder protokolliert.

21. Auto-Read App-Konfiguration Android

Steuere, welche Apps ihre Benachrichtigungen vorlesen lassen dürfen.

Bekannte Chat-Apps

Vorausgewählte Messaging-Apps mit individuellen Umschaltern (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).

Apps suchen und hinzufügen

Tippe in das Suchfeld und gib einen App-Namen ein.
Passende installierte Apps erscheinen, sortiert nach Relevanz.
Setze das Häkchen, um eine App hinzuzufügen.

Wie die Filterung funktioniert

Nur Benachrichtigungen von erlaubten Apps werden vorgelesen.
Änderungen werden sofort wirksam — kein Neustart erforderlich.

22. Einstellungen

UI-Sprache

English, Deutsch, Français, Español — unabhängig von deiner Systemsprache.

Qualitätsvoreinstellung

Voreinstellung	STT-Anbieter	LLM-Anbieter	Modell	Polish
Top Performer	Scribe v2	OpenAI	GPT-5.4	Stark
Standard	Scribe v2	OpenAI	GPT-4.1 mini	Stark
Budget	Whisper	Groq	Standard	Leicht
Kostenlos	Deepgram	Groq	Standard	Aus
Benutzerdefiniert	Manuell	Manuell	Manuell	Manuell

Speech-to-Text

Anbieter: OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
Benutzerdefinierte Schlüsselwörter (nur Scribe): Eigennamen, Marken, Fachbegriffe
Sprache: Automatische Erkennung oder spezifisch

Text-to-Speech

Anbieter: ElevenLabs, OpenAI TTS, Deepgram Aura 2
Modell (ElevenLabs): Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5

LLM-Anbieter (Polish)

Anbieter: OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Modell: Anbieter-Standard oder spezifisch
Polish-Stärke: Leicht oder Stark

Übersetzungsanbieter

Separater Anbieter für KI-Übersetzung (kann sich vom Polish-Anbieter unterscheiden).

KI-Polish / KI-Übersetzung

Schalte beides unabhängig voneinander ein/aus. Wenn KI-Übersetzung aktiviert ist:

Übersetzen nach: 20 Zielsprachen
Voice Translate: Übersetzungen automatisch per TTS vorlesen

Android Hands-Free

Schnellumschalter für Overlay, Auto-Read Nachrichten, Auto-Paste, Benachrichtigungszugriff.

Speichern und Testen

Alle aktuellen Einstellungen speichern — Speichert Änderungen dauerhaft auf dem Gerät
Aktuelle Konfiguration testen — Testet alle konfigurierten Anbieter mit Antwortzeiten

23. Wortkorrekturen

Wortkorrekturen bringen Talk to me die korrekte Schreibweise von Namen, Marken und Fachbegriffen bei, die die Spracherkennung falsch erkennt.

Korrekturen hinzufügen

Einzeln hinzufügen

Gib Falsche Schreibweise und Korrekte Schreibweise ein und tippe/klicke auf Hinzufügen.

Massenimport

Gib die korrekte Schreibweise ein und liste dann die falschen Varianten auf (eine pro Zeile). Verwende Mit KI generieren, um wahrscheinliche Fehlschreibungen automatisch zu erstellen.

Multi-Import

Gib Paare als falsch;richtig ein (eines pro Zeile). Unterstützt ;, ->, Komma oder Tab als Trennzeichen.

Wie Korrekturen funktionieren

Während der Nachbearbeitung (Pipeline-Stufe 3) werden falsche Schreibweisen automatisch ersetzt, bevor KI-Polish ausgeführt wird.

24. Sicherung und Wiederherstellung

Einstellungen exportieren

Öffne Sicherung & Wiederherstellung in den Einstellungen.
Tippe/klicke auf Einstellungen exportieren.
Gib ein Verschlüsselungspasswort ein und bestätige es (mind. 6 Zeichen).
Windows: Der Speicherdialog schlägt talktome-settings.ttm vor — du wählst den Ordner.
Android: Die Sicherung wird unter Downloads als TalkToMe-backup.ttm abgelegt. Existiert der Name schon, hängt das System (1), (2) usw. an — alles gültige verschlüsselte Backups.

Einstellungen importieren

Tippe/klicke auf Einstellungen importieren.
Automatisch (Android): Die App sucht die neueste passende Datei TalkToMe-backup mit Endung .ttm (inkl. TalkToMe-backup (1).ttm usw.) im App-Speicher und in Downloads.
Öffnet sich der System-Dateidialog: Auf vielen Geräten (z. B. Samsung) ist die erste Ansicht Zuletzt verwendet und oft Bilder voreingestellt — die .ttm-Dateien erscheinen erst, wenn du oben auf Dokumente oder Diese Woche wechselst oder den Ordner Download direkt öffnest.
Neues Gerät: Kopiere die .ttm vom alten Gerät (USB, Cloud, E-Mail), dann Import und Datei wählen.
Gib das Verschlüsselungspasswort ein.
Alle Einstellungen werden wiederhergestellt und die App startet neu.

Technische Details

Verschlüsselung: AES-256-GCM mit PBKDF2-HMAC-SHA256 (100.000 Iterationen)
Enthalten: Alle Einstellungen, API-Schlüssel, Wortkorrekturen, Auto-Read-Apps, Qualitätsvoreinstellung, UI-Sprache
NICHT enthalten: Lizenzaktivierung (an die Machine ID gebunden)

25. Nutzungs-Dashboard

Metrik	Beschreibung
STT-Aufrufe	Durchgeführte Speech-to-Text-Transkriptionen
LLM Polish	KI-Polish- oder KI-Übersetzungsvorgänge
TTS Synth	Text-to-Speech-Synthesevorgänge

Die Zähler sind kumulativ seit dem letzten Zurücksetzen der Einstellungen.

26. Fehlerbehebung

Allgemein

Problem	Lösung
„Kein API-Schlüssel konfiguriert"	Füge einen Schlüssel im Key Pool für die benötigte Funktion hinzu
Aufnahme startet nicht	Prüfe die Mikrofonberechtigung in den Systemeinstellungen
Voice Translate erzeugt kein Audio	Stelle sicher, dass ein TTS-API-Schlüssel konfiguriert und funktionsfähig ist
Export schlägt fehl	Prüfe den Schreibzugriff auf den Downloads-Ordner
Keine Sicherungsdatei im Import-Dialog	Von Bilder auf Dokumente / Diese Woche wechseln oder Ordner Download öffnen — siehe §24 Import

Windows Windows-spezifisch

Problem	Lösung
Strg+Win-Hotkey funktioniert nicht	Stelle sicher, dass die App läuft (prüfe den Infobereich der Taskleiste)
Text wird nach dem Diktat nicht eingefügt	Stelle sicher, dass das Zielfenster Strg+V unterstützt
Notification Listener nicht verfügbar	Verfügbar auf Windows Desktop — stelle sicher, dass der Benachrichtigungszugriff in den Windows-Einstellungen erteilt ist
Mini-Player erscheint zu groß/klein	Die DPI-bewusste Größenanpassung erfolgt automatisch; starte die App neu, wenn die Anzeigeeinstellungen geändert wurden

Android Android-spezifisch

Problem	Lösung
Auto-Read funktioniert nicht	Stelle sicher, dass das Overlay aktiv ist, Auto-Read aktiviert ist und der Benachrichtigungszugriff erteilt wurde
Auto-Paste funktioniert nicht	Aktiviere den Accessibility Service erneut in den Android-Einstellungen
Bubble erscheint nicht	Erteile die Berechtigung „Über anderen Apps anzeigen"
„App wurde Zugriff verweigert" bei Berechtigungen	Eingeschränkte Einstellungen (Android 13+) — siehe §18 „Eingeschränkte Berechtigungen" für die Schritt-für-Schritt-Lösung
Bildschirm dreht sich nicht (Tablet)	Prüfe, ob der PC-Modus aktiv ist (Schnelleinstellungen von oben herunterziehen). Im PC-Modus wird Auto-Rotate ignoriert — zurück in den Android-Modus wechseln. Betrifft insbesondere Lenovo-Tablets (ZUI).

27. Datenschutz und Sicherheit

Datenverarbeitung

Keine Datenerfassung: Talk to me erfasst, speichert oder überträgt keine Nutzerdaten an Server der mrocon GmbH.
Direkte API-Kommunikation: Audio und Text gehen direkt von deinem Gerät an deinen gewählten KI-Anbieter.
Nur lokale Speicherung: Alle Einstellungen und API-Schlüssel werden ausschließlich auf deinem Gerät gespeichert.
Keine Analysen: Kein Tracking, keine Analysen, keine Telemetrie jeglicher Art.

Berechtigungen

Windows

Berechtigung	Zweck
Mikrofon	Audio für Diktate aufnehmen
Benachrichtigungszugriff	Benachrichtigungen lesen
Internet	Kommunikation mit KI-Anbietern

Android

Berechtigung	Zweck
Mikrofon	Audio für Diktate aufnehmen
Overlay (Über anderen Apps anzeigen)	Floating Bubble anzeigen
Benachrichtigungslistener	Benachrichtigungen für Auto-Read lesen
Accessibility Service	Text automatisch in Felder einfügen
Internet	Kommunikation mit KI-Anbietern
Installierte Pakete abfragen	App-Namen in den Auto-Read-Einstellungen anzeigen

Verschlüsselung

Windows: API-Schlüssel verschlüsselt mit DPAPI (Windows Data Protection API)
Android: API-Schlüssel im app-privaten internen Speicher
Sicherungsdateien: AES-256-GCM-Verschlüsselung

Anhang A — Unterstützte Sprachen

Spracheingabe-Sprachen

Automatische Erkennung, Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Koreanisch, Chinesisch, Russisch, Arabisch, Hindi, Polnisch, Türkisch, Schwedisch, Ukrainisch

Übersetzungs-Zielsprachen

Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Japanisch, Chinesisch, Koreanisch, Russisch, Arabisch, Hindi, Polnisch, Türkisch, Schwedisch, Ukrainisch, Dänisch, Finnisch, Norwegisch

TTS-Sprachen

Auto, Deutsch, Englisch, Französisch, Italienisch, Spanisch, Portugiesisch, Niederländisch, Polnisch, Schwedisch, Dänisch, Finnisch, Norwegisch, Türkisch, Japanisch, Koreanisch, Chinesisch

UI-Sprachen

English, Deutsch, Français, Español

Anhang B — Unterstützte Anbieter

Speech-to-Text

Anbieter	Hinweise
OpenAI Whisper	Am weitesten verbreitet, zuverlässig
Deepgram Nova-2 / Nova-3	Schnell, gute Genauigkeit
ElevenLabs Scribe v2	Unterstützt benutzerdefinierte Schlüsselwörter
Groq Whisper	Kostenloses Kontingent verfügbar, schnell

LLM (Polish / Übersetzung)

Anbieter	Hinweise
OpenAI	GPT-4o-mini, GPT-5.4 usw.
Groq	Kostenloses Kontingent, Llama-Modelle
Anthropic	Claude-Modelle
Google Gemini	Gemini-Modelle
xAI Grok	Kostenloses Kontingent verfügbar

Text-to-Speech

Anbieter	Hinweise
ElevenLabs	Beste Qualität, Voice-Cloning, 4 Modelle
OpenAI TTS	6 integrierte Stimmen, unkompliziert
Deepgram Aura 2	Schnelle Synthese

Anhang C — Qualitätsvoreinstellungen

Voreinstellung	STT	LLM	Modell	Polish	Kosten
Top Performer	Scribe v2	OpenAI	GPT-5.4	Stark	$$$
Standard	Scribe v2	OpenAI	GPT-4.1 mini	Stark	$$
Budget	Whisper	Groq	Standard	Leicht	$
Kostenlos	Deepgram	Groq	Standard	Aus	Kostenlos
Benutzerdefiniert	Manuell	Manuell	Manuell	Manuell	Variabel

Anhang D — Tastenkürzel Windows

Tastenkürzel	Aktion
Strg+Win	Aufnahme starten / stoppen
Strg+Win (während Verarbeitung)	Pipeline abbrechen
TTS-Hotkey	Markierten Text vorlesen

Für Support kontaktiere team@talktome.studio oder besuche talktome.studio.

↑ Zurück nach oben