Talk to me — parlez, tapez, écoutez

Talk to me — Manuel d'utilisation

Version : 0.5.149 (Windows Desktop) / 0.5.157 (Android Hands-Free) Dernière mise à jour : 2026-04-20
Ce manuel couvre les éditions Windows Desktop et Android Hands-Free de Talk to me. Les sections marquées Windows ou Android s'appliquent uniquement à cette plateforme. Toutes les autres sections s'appliquent aux deux.

1. Introduction

Talk to me est un studio professionnel de dictée, traduction et interaction vocale disponible pour Windows Desktop et Android. Il convertit votre parole en texte, le peaufine avec l'IA, le traduit dans plus de 20 langues et vous le lit — le tout en temps réel.

L'application suit une architecture stricte BYOK (Bring Your Own Key) et Zero-Knowledge / Zero-Trust : vos clés API et vos données ne quittent jamais votre appareil.

Fonctionnalités clés

  • Dictée en temps réel : Enregistrez votre voix et obtenez un texte peaufiné en quelques secondes.
  • Correction IA : Correction automatique de la grammaire et suppression des mots parasites par le fournisseur IA de votre choix.
  • Traduction en direct : Traduisez le texte dicté dans plus de 20 langues instantanément.
  • Traduction vocale (Speech-to-Speech) : Votre texte traduit est automatiquement lu à haute voix dans la langue cible.
  • Synthèse vocale : Convertissez n'importe quel texte en parole naturelle avec ElevenLabs, OpenAI TTS ou Deepgram.
  • Immersion linguistique en direct : Parlez dans votre langue maternelle, voyez et entendez instantanément le résultat dans la langue que vous souhaitez maîtriser.
  • Corrections de mots : Apprenez à l'application vos noms, marques et termes que la reconnaissance vocale ne transcrit pas correctement.
  • Sauvegarde chiffrée : Exportez tous les paramètres et clés API dans un fichier chiffré protégé par mot de passe.
  • Support multi-fournisseurs : Choisissez parmi OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram et plus encore.

Points forts par plateforme

Fonctionnalité Windows Desktop Android Hands-Free
Mini-Player (mode compact)
Raccourcis globaux (Ctrl+Win)
Lecture auto (extraction de texte Ctrl+C)
Écouteur de notifications (Édition complète)
Enregistrement & sauvegarde MP3
Pastille flottante (analyseur de spectre)
Bulle flottante (Overlay)
Collage automatique (Accessibilité)
Lecture automatique des messages (depuis les applis de chat)
Accès aux notifications au niveau des applications

Principes de sécurité

  • Zero-Knowledge : Talk to me ne stocke, ne transmet et n'a jamais accès à vos clés API sur aucun serveur. Toutes les clés sont stockées localement sur votre appareil.
  • Zero-Trust : L'application ne contacte jamais nos serveurs. Aucune analyse, aucun suivi, aucune télémétrie. Vos données de dictée vont directement de votre appareil vers le fournisseur IA de votre choix et nulle part ailleurs.
  • BYOK : Vous apportez vos propres clés API des fournisseurs en qui vous avez confiance. Talk to me ne revend pas l'accès aux API.

2. Premiers pas

Windows Installation — Windows Desktop

Talk to me pour Windows est disponible en tant qu'installateur signé EV depuis talktome.studio ou via le Microsoft Store.

Configuration requise :

  • Windows 10 ou ultérieur (64 bits)
  • Une connexion Internet active
  • Au moins une clé API d'un fournisseur pris en charge

L'installateur est signé numériquement avec un certificat Extended Validation (EV) de Certum (mrocon GmbH). Windows SmartScreen n'affichera aucun avertissement.

Android Installation — Android

Talk to me pour Android est disponible en tant qu'APK depuis talktome.studio ou via le Google Play Store.

Configuration requise :

  • Android 8.0 ou ultérieur
  • Une connexion Internet active
  • Au moins une clé API d'un fournisseur pris en charge

Premier lancement

Lorsque vous ouvrez Talk to me pour la première fois, vous verrez le portail de licence. Vous avez deux options :

  1. Entrer une clé de licence pour débloquer immédiatement l'application complète.
  2. Démarrer un essai gratuit de 7 jours pour explorer toutes les fonctionnalités sans clé de licence.

Après l'activation ou le début de l'essai, l'application se charge et vous pouvez commencer à l'utiliser immédiatement — à condition d'avoir au moins une clé API configurée (voir Key Pool).

Android Démarrage rapide — Vos 5 premières minutes

Après avoir activé votre licence (ou démarré l'essai gratuit), l'application s'ouvre et vous verrez l'écran principal — le Cockpit. Ne vous inquiétez pas si la plupart des boutons apparaissent en orange ou inactifs. C'est tout à fait normal ! Voici ce qu'il faut faire, étape par étape :

Étape 1 — Activer l'accès au microphone

Le grand bouton au centre de l'écran affiche « Activer l'accès au microphone ». C'est la première et la plus importante étape.

  1. Appuyez sur le bouton Activer l'accès au microphone.
  2. Une boîte de dialogue de Talk to me explique pourquoi le microphone est nécessaire. Appuyez sur OK.
  3. Android demande ensuite : « Autoriser Talk to me à enregistrer de l'audio ? » — appuyez sur Pendant l'utilisation de l'appli (ou Autoriser).
  4. Terminé ! Le bouton change en « Prêt — Démarrer la dictée » en vert. Vous pouvez maintenant enregistrer votre première dictée.

Étape 2 — Ajouter vos clés API

En bas de l'écran, vous verrez la barre Key Pool — affichant probablement des libellés rouges comme STT 0/5, LLM 0/5, TTS 0/5. Cela signifie qu'aucune clé API n'est encore configurée. Sans clés, l'application ne peut pas se connecter aux services d'IA.

  1. Appuyez sur l'un des libellés Key Pool (par ex. STT) pour ouvrir la section Key Pool.
  2. Appuyez sur Ajouter une clé et collez une clé API de votre fournisseur (par ex. OpenAI, Deepgram, ElevenLabs).
  3. Appuyez sur Enregistrer. Le libellé devient vert lorsqu'une clé valide est enregistrée.
  4. Répétez pour chaque catégorie que vous souhaitez utiliser. Au minimum, vous avez besoin d'une clé STT (pour la dictée). Pour la correction IA, ajoutez une clé LLM. Pour la synthèse vocale, ajoutez une clé TTS.

Voir §11 Key Pool pour un guide détaillé sur les fournisseurs pris en charge et comment obtenir des clés API.

Étape 3 — Fonctionnalités optionnelles (boutons du Cockpit)

Les boutons au centre du Cockpit contrôlent les fonctionnalités optionnelles. Chacun nécessite une permission système lors de la première activation. Vous verrez une courte boîte de dialogue d'explication de Talk to me, suivie de la boîte de dialogue système Android. Les deux sont normales et peuvent être confirmées en toute sécurité.

BoutonFonctionDétails
Auto-Paste Colle automatiquement votre texte dicté dans l'application que vous utilisiez (par ex. WhatsApp, e-mail). Aucun copier-coller manuel nécessaire. §19
Notif Access Permet à l'application de lire les notifications entrantes pour vous les lire automatiquement. §21
Auto-Read Lit les messages entrants à haute voix par synthèse vocale — idéal pour une utilisation mains libres en conduisant ou en cuisinant. §20
Overlay Affiche une petite bulle flottante sur votre écran. Appuyez dessus pour démarrer/arrêter la dictée depuis n'importe quelle application — sans revenir à Talk to me. §18

Vous n'avez pas besoin de tout cela immédiatement. Commencez avec la dictée (étapes 1 + 2), et activez les extras quand vous êtes prêt. Chaque fonctionnalité peut être activée ou désactivée à tout moment.

Free & Paid Tier Overview

Talk to me is a BYOK app (Bring Your Own Key). You use your own API keys from AI providers. Many providers offer generous free tiers — from $200 Deepgram credit to unlimited Gemini usage to free Grok and Groq keys. This means you can use Talk to me for months before any API costs arise.

Tier 1 — Completely Free (no money, no credit card)

What you needWhat you getHow to get it
1× Deepgram account (free)Speech-to-Text dictation (STT)deepgram.com → Sign up → $200 starter credit
1× Gemini API key (free)AI Voice Chat (Gemini Live)aistudio.google.com → Create API Key

What you can do:

  • Dictate with Deepgram Nova-3 (preset “Free”) — no LLM polish, but solid transcription
  • AI Voice Chat via the Gemini Live tab — real-time voice conversation with sub-second latency, 30 voices, 24 languages

How long does it last?

FeatureCredit / LimitLasts for
Deepgram STT$200 starter credit (never expires)~43,000 min (~716 hours) transcription
Gemini Live Voice ChatFree API key (no credit limit)Unlimited (rate limit: ~10 sessions/min)
Gemini LLM (for Polish)Free API key250 requests/day (Flash model)

Reality: With these two free accounts you can use Talk to me productively for months. During intensive daily testing, only $19 of $200 Deepgram credit was used after weeks.

Tier 2 — Free with More Power (additional free keys)

What you needWhat it addsCost
+ 1× xAI accountGrok-3-Mini as LLM for Polish + TranslationFree ($25 starter credit + up to $150/month with data sharing)
+ 1× Groq accountUltra-fast LLM for Polish (Llama models)Free (1,000 requests/day, no credit card)

Unlocked presets:

PresetSTTLLM / PolishAll keys free?
FreeDeepgram Nova-3Yes (1 key)
Free xAIDeepgram Nova-3xAI GrokYes (2 keys)
Free GeminiDeepgram Nova-3Google GeminiYes (2 keys)
Fast FreeOpenAI WhisperGroq LlamaYes (2 keys)
EconomyDeepgram Nova-3Groq LlamaYes (2 keys)
Economy PlusDeepgram Nova-3Groq Llama (Strong Polish)Yes (2 keys)

Also unlocked:

  • Deepgram Voice Agent with 20+ managed presets (uses your $200 credit, $0.05–0.16/min)
  • Full BYO Voice Agent Presets (e.g. GPT-5.4 + ElevenLabs, if you have the keys)

Tier 3 — Premium Quality (paid keys)

For the absolute best quality, you need paid API keys:

ProviderUsed forCostWhat you get
OpenAIGPT-5.4 (best LLM for Polish)Pay-per-use (~$5–15/month)Perfect grammar, style, translation
ElevenLabsScribe v2 (best STT) + TTSFrom $5/month (Starter)Best transcription, premium voices
AnthropicClaude 4.6 Sonnet (top LLM)Pay-per-useExcellent text quality for longer texts

API Key Cost Overview

ProviderSign upStarter creditOngoing costCredit card?
DeepgramFree$200 (never expires!)From $0.0043/min STTNo
Google GeminiFreeUnlimited (rate-limited)$0.005–0.018/min (Live Audio)No
xAI (Grok)Free$25 + up to $150/monthFrom $0.10/1M tokensNo
GroqFreeUnlimited (rate-limited)1,000 requests/day freeNo
OpenAIFree$5 (expires after 3 months)From $0.15/1M tokensYes (for GPT-5+)
AnthropicFree$5 (expires after 30 days)From $1.00/1M tokensYes
ElevenLabsFree10,000 chars/monthFrom $5/month (Starter)Yes

Recommended Start (3 minutes, $0 cost)

  1. Create Deepgram account → deepgram.com → Sign up → Copy API Key
  2. Create Gemini API key → aistudio.google.com → “Create API Key” → Copy key
  3. Enter keys in Talk to me → Settings → LLM Key Pool
  4. Go: Dictation tab → preset “Free Gemini” → Dictate with STT + AI Polish. Gemini Live tab → “Start Conversation” → Real-time voice chat with AI.

Optional for even more:

  1. xAI account → x.ai/api → Sign up → API Key → Enter in Key Pool → preset “Free xAI”
  2. Groq account → console.groq.com → Sign up → API Key → presets “Economy” / “Economy Plus” / “Fast Free”

Feature Availability by Tier

FeatureTier 1 (free)Tier 2 (free+)Tier 3 (premium)
Speech dictation (STT)✓ Deepgram✓ Deepgram + Whisper✓ + ElevenLabs Scribe v2
AI Polish (grammar)✓ Grok/Gemini/Groq✓ + GPT-5.4 / Claude 4.6
Real-time translation✓ (all LLM providers)✓ (best quality)
Gemini Live Voice Chat✓ (unlimited)✓ (unlimited)✓ (unlimited)
Deepgram Voice Agent✓ (from $200 credit)✓ (all presets)
BYO Voice Agent Presets✓ (with xAI/Groq keys)✓ (+ ElevenLabs/OpenAI TTS)
Available presets26+ dictation + 20+ Voice AgentAll (30+)

All prices and free tier conditions are set by the respective providers and may change. Last updated: April 2026.

3. Activation de la licence

Le portail de licence

Au premier lancement (ou après l'expiration de l'essai), le portail de licence s'affiche. Il montre :

  • Le logo Talk to me
  • Un champ de texte pour votre clé de licence (format : TTM-XXXX-XXXX-XXXX-XXXX)
  • Votre Machine ID (un identifiant unique de l'appareil, nécessaire pour l'activation)
  • Un bouton Activer
  • Un bouton Démarrer l'essai gratuit de 7 jours (si aucun essai n'a été utilisé)
  • Des liens vers Acheter une licence et le Portail client

Activer une licence

  1. Entrez votre clé de licence dans le champ de texte.
  2. Appuyez/cliquez sur Activer.
  3. L'application vérifie votre clé en ligne et l'active pour cet appareil.
  4. Une fois activée, vous ne verrez plus le portail de licence sauf si vous désactivez ou si votre licence expire.

L'essai gratuit

  • Appuyez/cliquez sur Démarrer l'essai gratuit de 7 jours pour débloquer toutes les fonctionnalités pendant 7 jours.
  • Une bannière en haut de l'application indique combien de jours d'essai il reste.
  • Après 7 jours, l'essai expire et le portail de licence réapparaît.

Fenêtre de licence

Une fois dans l'application, vous pouvez consulter l'état de votre licence en cliquant sur le bouton Licence (icône bouclier). La fenêtre de licence affiche :

  • Statut : Active, Essai, Période de grâce ou Expirée
  • Produit : Le nom du produit de votre licence
  • Forfait : Annuel ou à vie
  • Expire : Date d'expiration (ou « À vie »)
  • Appareils : Nombre d'appareils actifs / maximum autorisé
  • Clé : Votre clé de licence (partiellement masquée)
  • Machine ID : L'identifiant unique de votre appareil

Depuis cette fenêtre, vous pouvez :

  • Désactiver l'appareil — libère la licence de cet appareil pour que vous puissiez l'utiliser sur un autre
  • Fermer — retourner à l'application

4. Aperçu de l'application

L'application est organisée en trois onglets principaux et plusieurs sections complémentaires :

Navigation

En haut de l'écran, trois onglets vous permettent de basculer entre les modes principaux de l'application :

  • Reconnaissance vocale — Enregistrez votre voix et obtenez un texte peaufiné et traduit
  • Synthèse vocale — Convertissez du texte écrit en audio parlé
  • Chat vocal IA — Ayez des conversations vocales en temps réel avec l'IA (voir §12)

Disposition de l'interface

Sous les onglets, l'interface principale est organisée verticalement :

  1. Contrôles de remplacement rapide — Sélecteurs de langue pour l'entrée et la sortie
  2. Boutons d'action — Accès rapide aux fonctionnalités de la plateforme
  3. Indicateur d'état — Affiche l'état actuel (Prêt, Enregistrement, Transcription, etc.)
  4. Affichage du Pipeline — Progression visuelle de votre dictée à travers les étapes de traitement
  5. Zone de résultat — Votre texte transcrit/traduit
  6. Panneau TTS (onglet Synthèse vocale uniquement) — Saisie de texte et contrôles de lecture
  7. Panneau Chat vocal IA (onglet Chat vocal IA uniquement) — Sélection de voix/persona, contrôles de conversation, transcription en direct (voir §12)
  8. Key Pool — Gérez vos clés API
  9. Paramètres — Toutes les options de configuration

Boutons d'action

Windows Boutons d'action du bureau :

  • Traduction vocale — Activer/désactiver la traduction parole-à-parole
  • Écouteur de notifications — Activer/désactiver la lecture des notifications (Édition complète)
  • Lecture automatique — Activer/désactiver la synthèse vocale Ctrl+C
  • Enregistrer les lectures TTS — Activer/désactiver l'enregistrement MP3 de la sortie TTS
  • Sauvegarder les enregistrements — Ouvrir le dossier des enregistrements

Android Boutons d'action :

  • Licence — Ouvrir la fenêtre de licence
  • Traduction vocale — Activer/désactiver la traduction parole-à-parole
  • Overlay — Démarrer/arrêter la bulle flottante
  • Collage automatique — Ouvrir les paramètres d'accessibilité
  • Lecture automatique — Activer/désactiver la lecture automatique des messages
  • Accès aux notif. — Ouvrir les paramètres de l'écouteur de notifications

Le bouton Info

Dans l'en-tête, le bouton Info ouvre la fenêtre d'informations de l'application, qui affiche :

  • Un lien vers talktome.studio
  • L'adresse e-mail du support (appuyez/cliquez pour copier)
  • La version actuelle de l'application
  • Le nombre de microphones détectés

5. Reconnaissance vocale

L'onglet Reconnaissance vocale est le mode principal de Talk to me. Ici, vous enregistrez votre voix et recevez un texte peaufiné, éventuellement traduit.

Enregistrer une dictée

  1. Assurez-vous que l'état affiche Prêt — Démarrer la dictée (vert).
  2. Cliquez/appuyez sur le grand bouton Démarrer la dictée.
  3. Le bouton devient rouge et affiche Arrêter l'enregistrement. Parlez clairement.
  4. Pendant l'enregistrement, vous pouvez voir : la durée de l'enregistrement en secondes, le niveau audio affichant le volume d'entrée, le fournisseur STT actif et la langue.
  5. Cliquez/appuyez à nouveau sur le bouton pour arrêter l'enregistrement.

Windows Vous pouvez également démarrer/arrêter l'enregistrement à l'aide du raccourci global Ctrl+Win (pas besoin de mettre la fenêtre de l'application au premier plan).

Que se passe-t-il après l'enregistrement

Après avoir arrêté l'enregistrement, l'application traite votre audio à travers le Pipeline (voir Le Pipeline) :

  1. Capture — L'enregistrement audio est finalisé
  2. STT — Votre audio est transcrit par le fournisseur sélectionné
  3. Post-traitement — Le texte brut est nettoyé (corrections de mots appliquées)
  4. Correction / Traduction — Si activée, l'IA corrige la grammaire ou traduit le texte
  5. Injection — Le texte final est placé dans votre presse-papiers

Windows Le texte est automatiquement collé dans la fenêtre précédemment active via un Ctrl+V simulé (injection intelligente du presse-papiers).

Android Si le collage automatique est activé, le texte est automatiquement inséré dans le champ de texte actif via le service d'accessibilité.

La zone de résultat

Après le traitement, votre texte apparaît dans la zone de résultat. Un message confirme que le texte a été copié dans votre presse-papiers et est prêt à être collé.

Signaux d'enregistrement (Audio Cues)

Talk to me te signale de manière acoustique et visuelle quand le microphone enregistre réellement — pour qu'aucun mot ne soit perdu.

Signaux acoustiques

  • Bip de démarrage (court bip aigu) : « Le microphone est actif, tu peux parler. »
  • Bip d'arrêt (court bip grave) : « Enregistrement terminé. »

Les deux bips peuvent être activés/désactivés dans les paramètres et leur volume est réglable (par défaut : 100 %).

Signaux visuels

  • Veille : L'icône du microphone est orange — enregistrement inactif.
  • Enregistrement actif : L'icône du microphone est verte — chaque mot prononcé est capturé.

Remarque : bip de démarrage sur les haut-parleurs USB

Certains appareils audio suppriment le bip de démarrage. Ce n'est pas un bug mais une caractéristique matérielle :

Type d'appareilBip audible ?Recommandation
Haut-parleurs + microphone séparé✅ Oui
Casque avec micro + écouteur séparés✅ Oui
Haut-parleur USB (Jabra Speak2, Logitech P710e etc.)⚠️ Peut-être pasUtiliser un casque ou des haut-parleurs externes
Casque Bluetooth en profil Hands-Free⚠️ Peut-être pasCasque filaire comme alternative

Important : Si tu changes le périphérique audio par défaut, redémarre Talk to me pour que le bip soit joué sur le nouveau périphérique.

6. Synthèse vocale

L'onglet Synthèse vocale vous permet de convertir n'importe quel texte écrit en parole naturelle.

Utilisation de base

  1. Basculez sur l'onglet Synthèse vocale.
  2. Tapez ou collez du texte dans la zone de texte.
  3. Cliquez/appuyez sur Lire à haute voix pour démarrer la lecture.

Contrôles de lecture

  • Pause — Interrompt temporairement la lecture
  • Reprendre — Continue là où vous avez mis en pause
  • Arrêter — Arrête complètement la lecture
  • Rejouer — Rejoue le même audio sans re-synthèse

Sélection du fournisseur et de la voix

  • ElevenLabs : Choisissez parmi vos voix disponibles ou utilisez « Default (Brian v3) ». Voice-ID personnalisés pris en charge.
  • OpenAI TTS : Nova, Alloy, Echo, Fable, Onyx, Shimmer
  • Deepgram Aura 2 : Synthèse rapide

Sélection du modèle (ElevenLabs)

ModèleLimite de caractèresIdéal pour
Eleven v35 000Qualité maximale, contenu court
Multilingual v210 000Support multilingue
Flash v2.540 000Synthèse rapide, textes longs
Turbo v2.540 000Équilibre vitesse et qualité

Qualité audio

QualitéDescription
MP3 192 kbpsQualité créateur — fidélité maximale
MP3 128 kbpsStandard — bon équilibre
MP3 64 kbpsCompact — taille de fichier réduite
MP3 32 kbpsMinimal — qualité la plus basse

Normalisation du texte

ParamètreDescription
AutoLe modèle décide comment traiter les nombres
Toujours activéLes nombres sont convertis en mots (par ex. « 42 » → « quarante-deux »)
DésactivéAucune normalisation appliquée

Réglage fin de la voix (ElevenLabs)

CurseurPlageDescription
StabilityVariable ↔ StablePlus bas = plus expressif ; Plus haut = plus cohérent
SimilarityCréatif ↔ OriginalDegré de correspondance avec la voix originale
StyleNeutre ↔ ExpressifNiveau d'expression émotionnelle
SpeedLent (0.7×) ↔ Rapide (1.2×)Vitesse de lecture

Options supplémentaires

  • Code-Filter : Supprime les blocs de code et la syntaxe technique avant la synthèse.
  • Auto-Record : Sauvegarde automatiquement l'audio synthétisé. Appuyez sur l'icône de dossier pour choisir le répertoire.
  • Speaker Boost : Améliore la clarté de la voix (ElevenLabs uniquement).

7. Le Pipeline

Le Pipeline est le moteur de traitement central de Talk to me. Il visualise les étapes que votre audio traverse de l'enregistrement à la sortie finale.

Étapes du Pipeline

ÉtapeLibelléDescription
1CaptureEnregistrement et finalisation audio
2STTTranscription de la parole en texte
3PostPost-traitement (nettoyage, corrections de mots)
4Polish ou TransCorrection IA ou traduction IA
5InjectTexte copié dans le presse-papiers / collé automatiquement

Indicateurs TDF (champ d'affichage du texte)

Chaque étape du pipeline affiche le fournisseur actif (par ex. « Scribe v2 », « GPT-5.4 ») et les informations de timing après l'achèvement.

Affichage du timing

Après le traitement, une ligne de timing affiche :

STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s

Si la traduction vocale est active, un timing supplémentaire S2S (Speech-to-Speech) est affiché.

8. Traduction vocale

La traduction vocale combine la traduction IA avec la synthèse vocale pour créer une expérience de traduction parole-à-parole en temps réel.

Nouveau depuis v0.5.150 : La traduction de texte est désormais automatiquement active dès que ta langue d'entrée (Speech Input) et ta langue de sortie (Text Output) diffèrent. Tu n'as plus besoin d'un bouton séparé pour la traduction. Le bouton Voice Translate ne contrôle plus que la lecture à voix haute du texte final (sortie Text-to-Speech).

Exemples

  • Entrée allemand, sortie anglais, Voice Translate désactivé → Le texte est automatiquement traduit, mais uniquement placé dans le presse-papiers.
  • Entrée allemand, sortie anglais, Voice Translate activé → Le texte est traduit et lu à voix haute en anglais.
  • Entrée allemand, sortie allemand, Voice Translate activé → Pas de traduction, mais le texte allemand est lu à voix haute (TTS classique).

Comment ça marche

  1. Activez Traduction vocale (violet lorsqu'actif).
  2. Enregistrez une dictée dans votre langue source.
  3. L'application transcrit → traduit → lit la traduction à haute voix.

Configuration

  • Langue cible : Définie dans Paramètres → Traduction IA → Traduire vers
  • Voix TTS : Utilise le fournisseur et la voix TTS configurés

Cas d'utilisation

  • Voyage : Parlez dans votre langue, faites lire la traduction à haute voix.
  • Apprentissage des langues : Écoutez comment votre texte sonne dans une autre langue.
  • Immersion linguistique en direct : Transformez vos propres pensées en fluidité en direct — parlez dans votre langue maternelle et absorbez le résultat dans la langue que vous souhaitez maîtriser.

9. Correction IA & traduction

Correction IA

Lorsqu'elle est activée, la correction IA corrige la grammaire, la ponctuation et (avec le réglage « Fort ») supprime les mots parasites comme « euh », « ben », « en fait », « du coup ».

Intensité de la correction :

  • Légère — Correction de la grammaire et de la ponctuation uniquement
  • Forte — Supprime également les mots parasites

Indicateurs d'état :

  • POLISH (cyan) — Actif
  • OFF — Désactivé
  • KEY MISSING (jaune) — Aucune clé LLM configurée

Traduction IA

Lorsqu'elle est activée, votre texte dicté est traduit dans la langue cible.

Indicateurs d'état :

  • TRANSLATE (cyan) — Actif, affichant la langue cible
  • VOICE OUTPUT (violet) — Traduction vocale également active
  • TEXT ONLY — Traduction sans sortie vocale
  • OFF — Désactivé
Remarque : Depuis v0.5.150, Talk to me détecte automatiquement quand les langues d'entrée et de sortie diffèrent et active la traduction — sans bouton explicite. Le KI-Polish reste disponible indépendamment et n'est plus automatiquement désactivé.

10. Contrôles de remplacement rapide

Les contrôles de remplacement rapide vous permettent de changer temporairement la langue d'entrée ou de sortie pour une seule dictée sans modifier vos paramètres enregistrés.

Remplacement de l'entrée vocale

Sélectionnez une langue d'entrée différente pour le prochain enregistrement :

  • Détection automatique — Le fournisseur STT détecte la langue automatiquement
  • Langues individuelles (voir Annexe A)

Remplacement de la sortie texte

Sélectionnez une langue de sortie différente (équivalent à activer temporairement la traduction) :

  • Par défaut (identique à l'entrée) — Pas de traduction
  • Les 20 langues de traduction

Réinitialiser aux paramètres

Lorsqu'un remplacement est actif, un bouton Réinitialiser (icône ↩) apparaît. Appuyez/cliquez dessus pour revenir à vos paramètres enregistrés.

11. Key Pool

Le Key Pool est l'endroit où vous gérez vos clés API. Talk to me utilise une architecture basée sur un pool — vous pouvez ajouter plusieurs clés par catégorie, et l'application alterne automatiquement entre elles en fonction des scores de confiance.

Catégories

CatégorieFonctionFournisseurs pris en charge
Speech-to-TextTranscriptionOpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper
AI-Polish / LLMGrammaire, traductionOpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Text-to-SpeechSynthèse vocaleElevenLabs, Deepgram, OpenAI TTS

Ajouter une clé

  1. Développez la section Key Pool.
  2. Cliquez/appuyez sur + Ajouter une clé dans la catégorie souhaitée.
  3. Sélectionnez le Fournisseur.
  4. Entrez un Libellé (par ex. « Ma clé OpenAI »).
  5. Entrez votre clé API.
  6. Cliquez/appuyez sur Enregistrer la clé.

Fonctionnalités de l'emplacement de clé

Chaque emplacement de clé affiche :

  • Libellé et Fournisseur
  • Clé masquée (4 derniers caractères visibles)
  • Score de confiance — Code couleur (vert/jaune/rouge)
  • Statistiques — Appels, succès, échecs, limites de débit

Actions par emplacement :

  • Tester — Vérifier que la clé fonctionne
  • Suspendre / Activer — Désactiver ou réactiver temporairement
  • Supprimer — Supprimer définitivement

Système de confiance

NiveauScoreCouleurComportement
Excellent≥80%VertPréféré
Bon≥60%VertNormal
Correct≥40%JauneSecours
Faible≥20%JauneRarement utilisé
Critique<20%RougeDernier recours

Les clés qui atteignent les limites de débit sont placées en cooldown automatique pendant que les autres clés sont utilisées.

12. Chat vocal IA

Talk to me inclut deux moteurs de chat vocal IA indépendants, chacun avec ses propres points forts. Vous pouvez basculer entre eux à tout moment depuis l'onglet Chat IA.

MoteurTechnologieAvantage clé
12a. Deepgram Voice AgentDeepgram Agent API (WebSocket)32+ préréglages, 6 fournisseurs LLM, 4 fournisseurs TTS, surveillance de la latence, modes géré & BYO
12b. Gemini 3.1 Flash LiveGoogle Gemini Live API (WebSocket)30 voix expressives, préréglages de persona, contrôle de la profondeur de réflexion, IA multimodale Google native

Mode haut-parleur mains libres complet (Android)

Les deux moteurs de chat vocal fonctionnent entièrement en mains libres via le haut-parleur de votre téléphone. Talk to me utilise une annulation d’écho acoustique (AEC) propriétaire via un pont natif Android pour séparer votre voix de la sortie haut-parleur de l’IA. Interrompez à tout moment — l’IA s’arrête immédiatement et reprend là où vous le souhaitez. Aucun casque ni équipement supplémentaire requis. Les utilisateurs de bureau avec n’importe quelle configuration standard fonctionnent tout aussi bien.

12a. Deepgram Voice Agent

Le Deepgram Voice Agent fournit des conversations vocales IA en temps réel, en full-duplex, via une seule connexion WebSocket à l’API Deepgram Agent. Il orchestre la reconnaissance vocale (STT), les modèles de langage (LLM) et la synthèse vocale (TTS) dans un pipeline unifié — vous parlez, l’IA réfléchit et répond avec une voix naturelle, le tout en temps réel.

Démarrage

  1. Passez à l’onglet AI Chat, puis sélectionnez le sous-onglet Deepgram.
  2. Ajoutez une clé API Deepgram dans le Key Pool (faites défiler jusqu’à la section « Deepgram Voice Agent »).
  3. Choisissez un préréglage de configuration ou configurez manuellement.
  4. Appuyez sur le bouton vert Démarrer la conversation.

Préréglages de configuration (32+ options)

Talk to me est livré avec plus de 32 préréglages répartis en six catégories. Chaque préréglage préconfigure le modèle STT, le fournisseur/modèle LLM, le fournisseur/voix TTS et les paramètres de détection de tour de parole.

Top Tier — Meilleure qualité

PréréglageLLMTTSSTT
Gemini 3.0 Pro + Sonic-3Google Gemini 3.0 ProCartesia Sonic-3Nova-3
Claude 4.5 + Sonic-3Anthropic Claude Sonnet 4.5Cartesia Sonic-3 (Tessa)Nova-3
Claude 4.6 + Sonic-3Anthropic Claude Sonnet 4.6Cartesia Sonic-3 (Katie)Nova-3
GPT-5.4 + Sonic-3OpenAI GPT-5.4Cartesia Sonic-3 (Katie)Nova-3
GPT-5.4 + KieferOpenAI GPT-5.4Cartesia Sonic-3 (Kiefer, Male)Nova-3

Ultra-Fast — Latence la plus basse (~1,1s)

PréréglageLLMTTSSTT
GPT-4o Mini + Sonic-3OpenAI GPT-4o MiniCartesia Sonic-3Nova-3
GPT-5.4 Nano + Sonic-3OpenAI GPT-5.4 NanoCartesia Sonic-3Nova-3
Haiku 4.5 + Sonic-3Anthropic Claude Haiku 4.5Cartesia Sonic-3Nova-3
Gemini 2.5 Flash + Sonic-3Google Gemini 2.5 FlashCartesia Sonic-3Nova-3
Nemotron 49B + Sonic-3NVIDIA Nemotron Super 49BCartesia Sonic-3Nova-3

Flux — Anglais uniquement, latence ultra-basse

Flux utilise le modèle Flux STT de Deepgram avec une détection de fin de tour agressive pour les temps de réponse les plus rapides. Anglais uniquement.

PréréglageLLMTTS
Flux + GPT-4o Mini + Sonic-3OpenAI GPT-4o MiniCartesia Sonic-3
Flux + GPT-5.4 Nano + Sonic-3OpenAI GPT-5.4 NanoCartesia Sonic-3
Flux + GPT-5.4 + Sonic-3OpenAI GPT-5.4Cartesia Sonic-3
Flux + Claude 4.6 + Sonic-3Anthropic Claude 4.6Cartesia Sonic-3
Flux + Gemini Flash + Sonic-3Google Gemini 2.5 FlashCartesia Sonic-3

Équilibré — Qualité + Rapidité

PréréglageLLMTTS
GPT-5 Mini + Sonic-3OpenAI GPT-5 MiniCartesia Sonic-3
GPT-4.1 Mini + Sonic-3OpenAI GPT-4.1 MiniCartesia Sonic-3
Haiku 4.5 + TessaAnthropic Haiku 4.5Cartesia Sonic-3 (Tessa)
Gemini 3.0 Flash + Sonic-3Google Gemini 3.0 FlashCartesia Sonic-3

Expérimental — Deepgram Aura-2 TTS (spécifique à la langue)

PréréglageLLMVoix TTS
GPT-5.4 + Julius (DE)OpenAI GPT-5.4Aura-2 Julius (allemand, homme)
GPT-5.4 + Zeus (EN)OpenAI GPT-5.4Aura-2 Zeus (anglais, homme)
Claude 4.6 + Thalia (EN)Anthropic Claude 4.6Aura-2 Thalia (anglais, femme)
GPT-5.4 + Agathe (FR)OpenAI GPT-5.4Aura-2 Agathe (français, femme)
GPT-5.4 + Celeste (ES)OpenAI GPT-5.4Aura-2 Celeste (espagnol, femme)

Full BYO — Apportez vos propres clés LLM & TTS

En mode Full BYO, Deepgram ne gère que le STT (Nova-3). Vos propres clés API pour les fournisseurs LLM et TTS sont utilisées directement.

PréréglageLLM (clé BYO)TTS (clé BYO)
GPT-5.4 + ElevenLabsOpenAI GPT-5.4ElevenLabs Turbo v2.5
GPT-5.4 + OpenAI TTSOpenAI GPT-5.4OpenAI TTS-1
GPT-5.4 Nano + ElevenLabsOpenAI GPT-5.4 NanoElevenLabs Turbo v2.5
Gemini 3 Pro + ElevenLabsGoogle Gemini 3 ProElevenLabs Turbo v2.5
Gemini Flash + OpenAI TTSGoogle Gemini 2.5 FlashOpenAI TTS-1
Claude 4.6 + ElevenLabsAnthropic Claude 4.6ElevenLabs Turbo v2.5
Claude 4.6 + OpenAI TTSAnthropic Claude 4.6OpenAI TTS-1
Grok 3 Mini + ElevenLabsxAI Grok 3 MiniElevenLabs Turbo v2.5

Verrouillage & Déverrouillage des préréglages

Lorsqu’un préréglage est actif, tous les champs de configuration sont verrouillés aux valeurs du préréglage (indiqué par une icône de cadenas). Cela empêche les modifications accidentelles. Pour remplacer des paramètres individuels, appuyez sur Déverrouiller pour édition manuelle. Modifier un paramètre manuellement bascule le préréglage en « Configuration manuelle ».

Configuration manuelle

Appuyez sur l’icône d’engrenage à côté du bouton Démarrer pour ouvrir le panneau de configuration. Tous les champs ci-dessous sont disponibles :

Fournisseur LLM

FournisseurModèles clés
OpenAIGPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (incl. Nano, Mini)
AnthropicClaude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6
GoogleGemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite
NVIDIALlama Nemotron Super 49B, Nemotron 3 Nano 30B
xAIGrok 3, Grok 3 Mini, Grok 3 Fast
GroqGPT OSS 20B

Fournisseur TTS

FournisseurVoixLanguesClé requise
Cartesia Sonic-39 voix (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default)42 langues (détection automatique multilingue)Clé Deepgram uniquement (géré)
Deepgram Aura-235+ voix (EN, DE, FR, ES, IT, NL, JA)Spécifique à la langue par voixClé Deepgram uniquement (géré)
ElevenLabsVos voix ElevenLabs (chargées automatiquement)MultilingueClé API ElevenLabs (BYO)
OpenAI TTS10 voix (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer)AnglaisClé API OpenAI (BYO)

Modèle STT

ModèleLanguesCas d’utilisation
Nova-3MultilingueStandard, meilleure précision globale
Nova-3 GeneralMultilingueVariante polyvalente
Nova-3 MedicalMultilingueOptimisé pour la terminologie médicale
FluxAnglais uniquementDétection de fin de tour ultra-rapide

Autres paramètres

  • Langue — Détection automatique (multilingue) ou une langue spécifique : anglais, allemand, français, espagnol, italien, néerlandais, japonais, portugais, hindi, russe
  • Message d’accueil — Texte que l’agent prononce au début de la conversation (optionnel)
  • Instruction système — Définissez la personnalité et le comportement de l’IA. Une instruction de base est toujours incluse pour empêcher le formatage markdown et les questions de suivi dans la sortie vocale.

Paramètres avancés

Développez la section Avancé pour un réglage fin :

  • Temperature (0,00 – 2,00) — Contrôle la créativité des réponses. Par défaut : 0,7. Plus bas = plus ciblé, plus haut = plus créatif.
  • Modèle STT — Basculez entre les variantes Nova-3 et Flux.

Lorsque le STT Flux est sélectionné, des contrôles supplémentaires apparaissent :

  • Seuil EOT agressif (0,0 – 1,0) — Agressivité de la détection de fin de tour. Plus élevé = réponse plus rapide mais risque de vous couper en milieu de phrase.
  • Délai EOT (0 – 5000ms) — Silence maximum avant que l’agent réponde.

Pour ElevenLabs BYO : un champ Voice ID personnalisé vous permet d’entrer directement n’importe quel identifiant de voix ElevenLabs.
Pour OpenAI TTS BYO : sélectionnez parmi 10 voix OpenAI (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).

Pendant une conversation

  • Indicateur de statut — Affiche Prêt, Connexion, En direct (avec le temps écoulé) ou Erreur
  • Vumètre — Affiche le niveau d’entrée du microphone avec l’état Écoute/Silence
  • Indicateur de réflexion — Un badge vert apparaît pendant que le LLM traite votre saisie
  • Transcription de la conversation — Affichage en temps réel de tous les dialogues. Vos messages apparaissent à droite (vert), ceux de l’agent à gauche (bleu).
  • Barge-in — Interrompez l’IA à tout moment en parlant. L’agent s’arrête immédiatement et vous écoute.
  • Poignée de redimensionnement — Faites glisser la poignée sous la transcription pour redimensionner la zone de chat (120px à 85% de l’écran)
  • Double bouton Démarrer/Arrêter — Un en haut, un fixe en bas pour un accès facile lors du défilement

Surveillance de la latence

Une barre de latence compacte apparaît après le premier tour, affichant trois métriques clés :

  • LLM — Temps entre votre parole et le premier token LLM
  • TTFB — Temps total jusqu’au premier octet (bout en bout)
  • TURN — Durée totale du tour incluant la lecture audio

Les valeurs sont colorées : vert (< 2s), jaune (2–5s), rouge (> 5s).

Appuyez sur la barre de latence pour développer un tableau détaillé par tour avec les colonnes : #, Durée de parole, Temps LLM, Temps TTS, TTFB, Durée audio, Total. Les moyennes LLM et TTFB sont affichées dans l’en-tête.

Annulation d’écho (AEC)

Talk to me inclut une annulation d’écho acoustique propriétaire via un pont natif Android Kotlin. La sortie haut-parleur de l’IA est capturée et soustraite de l’entrée de votre microphone en temps réel, empêchant les boucles de rétroaction auto-déclenchées. Cela permet un fonctionnement entièrement mains libres sur haut-parleur sans casque. Fonctionne avec tous les préréglages gérés et la plupart des configurations BYO.

Key Pool — Deepgram Voice Agent

Le Key Pool du Deepgram Voice Agent est une section dédiée et réductible sous la zone de chat. Il gère :

  • Clés API Deepgram (requises) — pour le STT et le routage LLM/TTS géré
  • Clés LLM (optionnelles, Full BYO uniquement) — OpenAI, Anthropic, Gemini, xAI
  • Clés TTS (optionnelles, Full BYO uniquement) — ElevenLabs, OpenAI TTS

Chaque carte de clé affiche une mise en page à 4 lignes : libellé, badge fournisseur + clé masquée, score de confiance avec statistiques, et boutons d’action Test/Pause. Vous pouvez tester des clés individuelles ou toutes les clés à la fois.

Limites de session

Les sessions sont limitées à 15 minutes maximum (contrainte de l’API). Le temps écoulé est affiché dans le bouton Arrêter. La session se termine automatiquement lorsque la limite est atteinte.

Conseils

  • Commencez avec un préréglage géré (Top Tier ou Ultra-Fast) — ils ne nécessitent qu’une clé Deepgram et offrent la meilleure expérience.
  • GPT-5.4 Nano + Cartesia Sonic-3 fournit des temps de réponse d’environ 1,1s — l’option la plus rapide.
  • Les préréglages Flux sont en anglais uniquement mais extrêmement rapides grâce à la détection de fin de tour agressive.
  • Les préréglages Full BYO utilisent vos propres clés LLM/TTS pour un contrôle maximal mais peuvent avoir des performances Barge-in réduites avec certains fournisseurs TTS.
  • Tous les paramètres prennent effet au prochain démarrage de session, pas pendant une session en cours.

12b. Gemini 3.1 Flash Live

Gemini 3.1 Flash Live fournit des conversations vocales en temps réel alimentées par le dernier modèle audio IA de Google. Il offre la vitesse et le rythme naturel nécessaires pour une interaction voix en premier, avec une latence inférieure à la seconde, 30 voix expressives et une compréhension multimodale native.

Prérequis

Vous avez besoin d’une clé API Google Gemini (niveau payant recommandé) ajoutée au Key Pool LLM dans les Paramètres. La clé est automatiquement disponible pour le Chat vocal IA.

Démarrer une conversation

Accédez à l’onglet Gemini Live. Appuyez sur Démarrer la conversation. L’application se connecte à Gemini via WebSocket, ouvre votre microphone et commence à écouter. Parlez naturellement — Gemini répond en audio en temps réel. Appuyez sur Fin pour arrêter.

Voix (30 options)

Choisissez parmi 30 voix IA naturelles, chacune avec une personnalité distincte :

VoixCaractèreIdéal pour
SulafatChaleureuseNarration, histoires du soir, conversations calmes
GacruxMatureNarration autoritaire, mentorat, discussions profondes
AlgenibRauqueNarration cinématographique, lecture dramatique, voix de personnage
KoreFermeBriefings professionnels, lecture d’actualités, Q&R factuelles
PuckDynamiqueConversations énergiques, motivation, brainstorming
ZephyrLumineuseConversations optimistes, assistance amicale, salutations
CharonInformatifTutoriels, explications de type documentaire
FenrirEnthousiasteRéactions enthousiastes, commentaires de jeux, engouement
LedaJuvénileDiscussion décontractée, conversations Gen-Z, sujets tendance
AoedeDétendueConversations relaxées, discussions de voyage, lifestyle
AchernarDouceGuidance de méditation, style ASMR, encouragement doux
AlgiebaFluideAnimation de podcast, livres audio, lecture longue
DespinaFluideNarration élégante, voix de marque de luxe
AchirdAmicaleSupport client, assistance quotidienne, ton accueillant
VindemiatrixBienveillanteConversations de soutien, ton thérapeutique, empathie
SadaltagerSavanteExplications techniques, Q&R expert, encyclopédique
RasalgethiInformatifDocumentaires scientifiques, contenu éducatif
SchedarPoséeDiscussions équilibrées, reportages neutres, débats
AlnilamFermePrésence imposante, leadership, cadres formels
PulcherrimaDirecteCommunication assertive, pitchs, présentations
ZubenelgenubiDécontractéeDiscussion détendue, retrouvailles entre amis, humour
SadachbiaViveNarration animée, contenu pour enfants, ludique
LaomedeiaDynamiqueÉmissions matinales, mises à jour joyeuses, énergie positive
CallirrhoeDétendueConseils décontractés, coaching lifestyle, accessible
AutonoeLumineuseSessions créatives, génération d’idées, discussions artistiques
EnceladusSouffléeNarration intime, lecture de poésie, atmosphérique
IapetusClaireInstructions précises, guides pas à pas, clarté
ErinomeClaireCommunication nette, formation en entreprise, diction
UmbrielDétendueQ&R relaxées, ambiance weekend, conversations tranquilles

Astuce : Prévisualisez toutes les voix dans la bibliothèque de voix Google AI Studio.

Langue

Choisissez parmi 24 langues prises en charge ou laissez sur Détection automatique. Gemini répondra dans la langue que vous parlez — ou dans la langue que vous sélectionnez. Prises en charge : anglais, allemand, français, espagnol, italien, portugais, néerlandais, polonais, roumain, russe, ukrainien, turc, arabe, hindi, bengali, tamoul, télougou, marathi, japonais, coréen, thaï, vietnamien, indonésien.

Préréglages de persona

Les préréglages de persona définissent comment Gemini se comporte — sa personnalité, son ton et son style de communication. Choisissez parmi six préréglages ou créez le vôtre :

PréréglageComportement
Friendly AssistantChaleureux, conversationnel, accessible — idéal pour un usage quotidien
ProfessionalClair, concis, autoritaire — pour le travail et les affaires
EnthusiasticÉnergique, positif, encourageant — pour le brainstorming et la motivation
Calm & SoothingLent, doux, patient — pour la détente et les séances guidées
TeacherPatient, étape par étape, utilise des analogies — pour l’apprentissage et les explications
CreativeImaginatif, expressif, langage vivant — pour la narration et l’art
CustomRédigez votre propre instruction système à partir de zéro

Instruction système

L’instruction système est un briefing textuel que vous donnez à Gemini avant le début de la conversation. Pensez-y comme la direction d’un acteur : dites à l’IA qui elle est, comment se comporter et sur quoi se concentrer.

Exemples :

  • « Tu es un tuteur de langue italienne patient. Parle lentement. Corrige ma grammaire gentiment. »
  • « Tu es un architecte logiciel senior. Réponds de manière concise et technique. »
  • « Tu es un conteur créatif. Parle avec panache. Utilise un langage vivant. »

Lorsque vous utilisez un préréglage de persona, votre texte personnalisé est ajouté à l’instruction du préréglage. En mode Custom, votre texte constitue l’instruction entière. Rédigez en anglais pour de meilleurs résultats. Les paramètres sont enregistrés automatiquement.

Profondeur de réflexion

Contrôlez la profondeur de raisonnement de Gemini avant de répondre :

NiveauComportement
MinimalRéponses les plus rapides, raisonnement interne minimal (par défaut)
LowConsidération brève, bon équilibre
MediumRéponses réfléchies, pause plus longue avant de répondre
HighRaisonnement profond, idéal pour les questions complexes

Temperature & Top-P

Temperature (0,0 – 2,0) contrôle le degré de créativité vs. de prévisibilité des réponses de l’IA :

PlageComportementIdéal pour
0,0 – 0,5Ciblé, déterministeFaits, réponses techniques, instructions précises
0,7 – 1,0Équilibré, naturel (par défaut : 1,0)La plupart des conversations, usage quotidien
1,2 – 2,0Créatif, surprenantBrainstorming, narration, écriture créative

Top-P (0,0 – 1,0) limite le pool de mots que l’IA considère. À 0,95 (par défaut), le modèle choisit parmi les 95 % de mots les plus probables. Des valeurs plus basses rendent la sortie plus conservatrice.

Détection d’activité vocale (VAD)

Les paramètres VAD contrôlent comment Gemini détecte quand vous commencez et arrêtez de parler :

  • Sensibilité de début de parole — La facilité avec laquelle le système détecte le début de la parole.
  • Sensibilité de fin de parole — La rapidité avec laquelle le système décide que vous avez fini de parler.
  • Durée de silence — Combien de millisecondes de silence avant que votre tour soit considéré comme terminé (100–2000ms).

Annulation d’écho (AEC)

Identique au Deepgram Voice Agent, Gemini 3.1 Flash Live bénéficie de l’annulation d’écho acoustique propriétaire de Talk to me via le pont natif Android Kotlin. Le mode haut-parleur mains libres complet fonctionne sans casque.

Conseils pour de meilleurs résultats

  • Parlez naturellement — Gemini prend en charge le Barge-in naturel (interrompez à tout moment)
  • Sur Android, l’AEC intégré élimine l’écho — pas besoin de casque
  • La durée de session est limitée à 15 minutes par connexion (limite de l’API)
  • Tous les paramètres prennent effet au prochain démarrage de session (pas pendant une session en cours)
  • Le vumètre affiche un dégradé coloré (vert, jaune, orange, rouge) indiquant le niveau d’entrée de votre microphone
  • La transcription de votre parole et des réponses de Gemini peut être activée/désactivée indépendamment

13. Mini-Player Windows

Le Mini-Player est une fenêtre compacte toujours au premier plan qui offre les contrôles essentiels de dictée sans occuper votre écran entier.

Accéder au mode Mini-Player

Cliquez sur le bouton Réduire (icône ↗) dans l'en-tête. La fenêtre de l'application se réduit à un overlay compact positionné en bas au centre de votre écran.

Disposition du Mini-Player

Le Mini-Player affiche une grille 3×3 de contrôles essentiels :

  • Ligne 1 : Sélecteur d'entrée vocale, bouton Statut/Démarrer, sélecteur de sortie texte
  • Ligne 2 : Bascule Traduction vocale, Pastille en ligne (analyseur de spectre), Sauvegarder les enregistrements
  • Ligne 3 : TDFs de timing du pipeline, aperçu du résultat

Dimensionnement adapté au DPI

Le Mini-Player ajuste automatiquement sa taille en fonction de l'échelle DPI de votre écran, garantissant des dimensions visuelles cohérentes sur les moniteurs avec différentes résolutions (100 %, 125 %, 150 %).

Quitter le mode Mini-Player

Cliquez sur le bouton Agrandir pour revenir à la fenêtre pleine taille à sa position et taille précédentes.

14. Raccourcis globaux Windows

Talk to me enregistre des raccourcis clavier système pour que vous puissiez contrôler la dictée sans basculer vers la fenêtre de l'application.

Raccourcis principaux

RaccourciAction
Ctrl+WinDémarrer / Arrêter l'enregistrement (global, fonctionne depuis n'importe quelle application)
Ctrl+Win (pendant le traitement)Annuler le pipeline en cours

Raccourci TTS

Lorsque du texte est sélectionné dans n'importe quelle application, le raccourci TTS le lit à haute voix en utilisant votre fournisseur TTS configuré.

Hook de bas niveau

Le raccourci global utilise un hook clavier de bas niveau Windows, ce qui signifie qu'il fonctionne même lorsque l'application est minimisée ou qu'une autre application a le focus. Le hook fonctionne en « mode zéro interception » — il intercepte la combinaison de touches sans bloquer les autres entrées clavier.

15. Lecture automatique Windows

La lecture automatique est une fonctionnalité exclusive à Windows qui extrait le texte de l'application active et le lit à haute voix via TTS.

Comment ça marche

  1. Activez la lecture automatique en cliquant sur le bouton correspondant.
  2. Sélectionnez du texte dans n'importe quelle application (ou utilisez Ctrl+C pour copier).
  3. Talk to me détecte le contenu du presse-papiers et le lit automatiquement à haute voix en utilisant votre configuration TTS.

Cas d'utilisation

  • Lire des e-mails, articles ou documents sans regarder l'écran.
  • Relire votre propre écriture en l'entendant prononcée.
  • Support d'accessibilité pour les utilisateurs malvoyants.

16. Écouteur de notifications Windows

L'écouteur de notifications est une fonctionnalité exclusive à l'édition complète qui capture les notifications toast de Windows et les lit à haute voix via TTS.

Prérequis

  • Windows Desktop Édition complète (non disponible dans l'édition Microsoft Store)
  • Permission d'accès aux notifications accordée dans les paramètres Windows

Comment ça marche

  1. Activez l'écouteur de notifications en cliquant sur le bouton bascule.
  2. Accordez l'accès aux notifications lorsque Windows vous le demande.
  3. Lorsqu'une notification toast Windows arrive (e-mail, message de chat, rappel de calendrier), Talk to me extrait le titre et le corps de la notification et les lit à haute voix en utilisant votre configuration TTS.

Configuration

  • Activer/désactiver dans Paramètres → Mains libres
  • La voix et le fournisseur TTS suivent vos paramètres TTS globaux

17. Enregistrement & sauvegarde MP3 Windows

Enregistrer les lectures TTS

Lorsque cette option est activée, chaque synthèse TTS est automatiquement sauvegardée en tant que fichier MP3 avec une numérotation séquentielle (par ex. recording_001.mp3, recording_002.mp3).

Sauvegarder les enregistrements

Cliquez sur Sauvegarder les enregistrements pour ouvrir le dossier contenant tous les fichiers MP3 enregistrés. Vous pouvez configurer le répertoire d'enregistrement dans les Paramètres.

Note sur les permissions Android Android

La version Android de Talk to me nécessite plusieurs permissions système (Microphone, Overlay, Service d'accessibilité, Écouteur de notifications) — chacune avec sa propre boîte de dialogue de confirmation. Nous comprenons que cela peut sembler fastidieux.

Nous aurions préféré une expérience de configuration plus simple. Cependant, les politiques du Google Play Store et les directives de sécurité Android exigent que chaque permission sensible soit demandée individuellement, avec une divulgation claire expliquant à quoi sert la permission et à quoi elle ne sert pas. Ces flux de confirmation en plusieurs étapes ne sont pas notre choix de conception — ils sont imposés par les exigences de conformité de la plateforme.

Chaque permission n'est demandée que lorsque vous avez réellement besoin de la fonctionnalité, pas toutes en même temps lors de l'installation. Vous pouvez révoquer n'importe quelle permission à tout moment via les paramètres Android. L'application continuera de fonctionner — la fonctionnalité correspondante sera simplement désactivée.

Voici un résumé de toutes les permissions Android et pourquoi elles sont nécessaires :

PermissionFonctionnalitéObligatoire ?
MicrophoneDictée de reconnaissance vocale, Chat vocal IAOui — fonctionnalité principale
Affichage par-dessus d'autres applisBulle flottante (overlay mains libres)Uniquement si vous utilisez l'overlay
Service d'accessibilitéCollage automatique du texte dans les champs de saisie des applis de chatUniquement si vous utilisez le collage automatique
Écouteur de notificationsLecture automatique des messages entrantsUniquement si vous utilisez la lecture automatique
InternetCommunication avec les fournisseurs d'IAOui — requis pour toutes les fonctionnalités

Merci pour votre compréhension. Nous prenons votre vie privée au sérieux — aucune de ces permissions n'est utilisée pour collecter, stocker ou transmettre des données personnelles. Voir Confidentialité et sécurité pour les détails complets.

18. Bulle flottante (Overlay) Android

La bulle flottante est une petite icône circulaire qui flotte au-dessus de toutes les autres applications, offrant un accès mains libres à la dictée sans changer d'application.

Activer l'overlay

  1. Appuyez sur le bouton Overlay dans l'application principale.
  2. Si la permission Android « Affichage par-dessus d'autres applis » n'est pas encore accordée, vous serez dirigé pour l'activer.
  3. Une petite bulle Talk to me apparaît à l'écran.

Utiliser la bulle

  • Simple appui : Démarrer ou arrêter l'enregistrement. Bordure pulsante rouge pendant l'enregistrement, bordure pulsante bleue pendant la lecture TTS.
  • Triple appui : Test de lecture — lit un texte prédéfini pour confirmer que le TTS fonctionne.
  • Appui long : Vide la file d'attente des messages non lus.
  • Glisser : Déplacez la bulle n'importe où sur l'écran.

Pendant l'enregistrement via la bulle

  1. Appuyez sur la bulle pour démarrer l'enregistrement.
  2. Après la transcription, un toast « ✓ Inséré ! » confirme que le texte a été collé ou placé dans le presse-papiers.

Traduction et insertion automatique via la Bubble

La Bubble utilise la même logique de traduction que la fenêtre principale : si tes langues d'entrée et de sortie diffèrent, ta dictée est automatiquement traduite avant l'insertion. Voice Translate (lecture à voix haute) fonctionne aussi dans la Bubble.

Grâce au Service d'accessibilité Android, la Bubble insère le texte (éventuellement traduit) directement dans le champ de saisie actif. Dans toutes les apps grand public testées — WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest et Skool — l'insertion automatique fonctionne de manière fiable.

Si tu utilises une app très exotique où l'insertion automatique échoue, le texte déjà traduit se trouve dans le presse-papiers — un appui long sur le champ de saisie et « Coller » rend le texte visible.

Arrêter l'overlay

Appuyez à nouveau sur le bouton Overlay ou appuyez sur Arrêter dans la notification.

19. Collage automatique Android

Le collage automatique utilise le service d'accessibilité Android pour insérer automatiquement le texte dicté dans le champ de texte actuellement actif.

Activer le collage automatique

  1. Appuyez sur le bouton Auto-Paste.
  2. Une boîte de dialogue de divulgation explique ce que le service d'accessibilité fait et ne fait pas. Appuyez sur Activer le collage automatique.
  3. Vous êtes dirigé vers les paramètres d'accessibilité Android. Trouvez Talk to me et activez-le.
  4. Le bouton affiche maintenant ✓ avec une bordure cyan.

Bouton de raccourci d'accessibilité

Lors de l'activation du service d'accessibilité, Android vous demandera de choisir un raccourci d'activation. Cela détermine comment vous pouvez rapidement activer/désactiver le service :

  • Bouton d'accessibilité (recommandé) : Un petit bouton apparaît dans la barre de navigation. Appuyez dessus pour basculer le service.
  • Volume haut + Volume bas (maintenir 3 secondes) : Appuyez et maintenez les deux boutons de volume simultanément pendant 3 secondes pour basculer.

Nous recommandons l'option Bouton d'accessibilité pour la meilleure expérience. C'est une fonctionnalité standard du système Android — le choix n'affecte pas le fonctionnement du collage automatique.

Notes importantes

  • Nécessite la permission d'accessibilité Android (une permission sensible).
  • Peut nécessiter d'être réaccordée après les mises à jour de l'application.
  • Utilisée exclusivement pour l'insertion de texte — aucune autre donnée d'accessibilité n'est consultée.

Compatibilité des apps

Auto-Paste fonctionne de manière fiable dans la plupart des apps Android. Les apps suivantes ont été testées avec v0.5.159 :

AppAuto-PasteTraduction
WhatsApp
Gmail (destinataire + corps)
Discord
Microsoft Teams
Viber
Chrome
ChatGPT
Facebook
Instagram
Pinterest
Skool (WebView dans Chrome)
Viber

« Accès à l'appli refusé » — Paramètres restreints (Android 13+)

Sur certains appareils, lors de l'activation du collage automatique ou de l'accès aux notifications, vous pouvez voir « Accès à l'appli refusé » ou « Pour votre sécurité, ce paramètre est actuellement indisponible. » Ce n'est pas un bug — c'est une fonctionnalité de sécurité d'Android 13+ appelée Paramètres restreints.

Fabricants concernés : Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.

Comment résoudre :

  1. Ouvrez Android Paramètres → Applications → Voir toutes les applis → trouvez Talk to me.
  2. Appuyez sur Talk to me pour ouvrir la page Infos sur l'appli (pas la sous-page Notifications).
  3. Appuyez sur le menu à trois points (⋮) dans le coin supérieur droit.
  4. Sélectionnez Autoriser les paramètres restreints.
  5. Confirmez avec votre code PIN/empreinte digitale.
  6. Retournez dans Paramètres → Accessibilité et activez Talk to me.

Astuce : Si le menu à trois points n'est pas visible, essayez d'abord d'activer la permission (déclenchant l'erreur), puis allez sur la page Infos sur l'appli — le menu devrait maintenant apparaître.

Xiaomi/MIUI/HyperOS : Allez dans Paramètres → Applications → Gérer les applis → Talk to me et faites défiler vers le bas.

Lenovo (ZUI) : Lorsque vous appuyez sur Applications dans les Paramètres, vous pouvez arriver sur la sous-page Notifications au lieu de Infos sur l'appli. Revenez en arrière et cherchez la page complète Infos sur l'appli avec les sections stockage, permissions et batterie.

20. Lecture automatique des messages Android

La lecture automatique lit les messages de chat entrants à haute voix via TTS — idéal pour conduire, cuisiner ou faire du sport.

Comment ça marche

  1. Activez Auto-Read (icône casque).
  2. Assurez-vous que l'accès aux notifications est accordé.
  3. L'overlay doit être actif.
  4. Lorsqu'un message arrive d'une application autorisée, Talk to me annonce l'expéditeur et lit le message à haute voix.

Applications de chat pré-sélectionnées

WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.

Vous pouvez ajouter ou supprimer des applications dans la configuration de lecture automatique des applications.

21. Accès aux notifications Android

L'accès aux notifications permet à Talk to me de lire les notifications entrantes, requis pour la lecture automatique des messages.

Accorder l'accès

  1. Appuyez sur le bouton Notif Access.
  2. Allez dans les paramètres d'écouteur de notifications Android.
  3. Trouvez Talk to me et activez-le.
  4. Le bouton affiche ✓ avec une bordure cyan.

Notes importantes

  • Permission au niveau système — ne traite que les notifications des applications explicitement autorisées.
  • Aucune donnée de notification n'est stockée, transmise ou enregistrée.

22. Configuration de la lecture automatique des applications Android

Contrôlez quelles applications sont autorisées à avoir leurs notifications lues à haute voix.

Applications de chat connues

Applications de messagerie pré-sélectionnées avec des bascules individuelles (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).

Rechercher et ajouter des applications personnalisées

  1. Appuyez sur le champ de recherche et tapez un nom d'application.
  2. Les applications installées correspondantes apparaissent, triées par pertinence.
  3. Cochez la case pour ajouter une application.

Comment fonctionne le filtrage

  • Seules les notifications des applications autorisées sont lues à haute voix.
  • Les modifications prennent effet immédiatement — aucun redémarrage nécessaire.

23. Paramètres

Langue de l'interface

English, Deutsch, Français, Español — indépendante de la langue de votre système.

Préréglage de qualité

PréréglageFournisseur STTFournisseur LLMModèleCorrection
Top PerformerScribe v2OpenAIGPT-5.4Forte
StandardScribe v2OpenAIGPT-4.1 miniForte
BudgetWhisperGroqPar défautLégère
FreeDeepgramGroqPar défautDésactivée
CustomManuelManuelManuelManuel

Reconnaissance vocale

  • Fournisseur : OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
  • Custom Keyterms (Scribe uniquement) : Noms propres, marques, termes techniques
  • Langue : Détection automatique ou spécifique

Synthèse vocale

  • Fournisseur : ElevenLabs, OpenAI TTS, Deepgram Aura 2
  • Modèle (ElevenLabs) : Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5

Fournisseur LLM (Correction)

  • Fournisseur : OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
  • Modèle : Par défaut du fournisseur ou spécifique
  • Intensité de la correction : Légère ou Forte

Fournisseur de traduction

Fournisseur séparé pour la traduction IA (peut différer du fournisseur de correction).

Correction IA / Traduction IA

Activez chacune indépendamment. Lorsque la traduction IA est activée :

  • Traduire vers : 20 langues cibles
  • Traduction vocale : Lecture automatique des traductions via TTS

Android Mains libres

Bascules rapides pour Overlay, Lecture automatique des messages, Collage automatique, Accès aux notifications.

Enregistrer et tester

  • Enregistrer tous les paramètres actuels — Persiste les modifications dans le stockage de l'appareil
  • Tester la configuration actuelle — Teste tous les fournisseurs configurés avec les temps de réponse

24. Corrections de mots

Les corrections de mots apprennent à Talk to me l'orthographe correcte des noms, marques et termes que la reconnaissance vocale ne transcrit pas correctement.

Ajouter des corrections

Ajout individuel

Entrez l'orthographe incorrecte et l'orthographe correcte, puis appuyez/cliquez sur Ajouter.

Import en masse

Entrez l'orthographe correcte, puis listez les variantes incorrectes (une par ligne). Utilisez Générer avec l'IA pour créer automatiquement les fautes d'orthographe probables.

Import multiple

Entrez les paires sous la forme incorrect;correct (une par ligne). Prend en charge les séparateurs ;, ->, virgule ou tabulation.

Comment fonctionnent les corrections

Pendant le post-traitement (étape 3 du Pipeline), les orthographes incorrectes sont automatiquement remplacées avant l'exécution de la correction IA.

25. Sauvegarde et restauration

Exporter les paramètres

  1. Ouvrez Sauvegarde & restauration dans les Paramètres.
  2. Appuyez/cliquez sur Exporter les paramètres.
  3. Entrez et confirmez un mot de passe de chiffrement (min. 6 caractères).
  4. Windows : La boîte de dialogue de sauvegarde suggère talktome-settings.ttm — vous choisissez le dossier.
  5. Android : La sauvegarde est écrite dans votre zone de Téléchargements sous le nom TalkToMe-backup.ttm. Si ce nom existe déjà, le système peut ajouter (1), (2), etc. — tous sont des sauvegardes chiffrées valides.

Importer les paramètres

  1. Appuyez/cliquez sur Importer les paramètres.
  2. Automatique (Android) : L'application recherche le fichier correspondant le plus récent nommé TalkToMe-backup avec une extension .ttm (y compris TalkToMe-backup (1).ttm, etc.) dans le stockage de l'application et dans les Téléchargements.
  3. Si le sélecteur de fichiers système s'ouvre : Sur de nombreux téléphones (par ex. Samsung), le premier écran est Utilisés récemment et peut afficher par défaut les Images — vos fichiers .ttm sont masqués jusqu'à ce que vous changiez le filtre supérieur sur Documents ou Cette semaine, ou que vous ouvriez directement le dossier Téléchargement.
  4. Nouvel appareil : Copiez le .ttm depuis votre ancien appareil (USB, cloud, e-mail), puis utilisez Importer et sélectionnez ce fichier.
  5. Entrez le mot de passe de chiffrement.
  6. Tous les paramètres sont restaurés et l'application redémarre.

Détails techniques

  • Chiffrement : AES-256-GCM avec PBKDF2-HMAC-SHA256 (100 000 itérations)
  • Inclus : Tous les paramètres, clés API, corrections de mots, applications de lecture automatique, préréglage de qualité, langue de l'interface
  • NON inclus : Activation de la licence (liée au Machine ID)

26. Tableau de bord d'utilisation

MétriqueDescription
STT CallsTranscriptions de parole en texte effectuées
LLM PolishOpérations de correction IA ou de traduction IA
TTS SynthOpérations de synthèse vocale

Les compteurs sont cumulatifs depuis la dernière réinitialisation des paramètres.

27. Dépannage

Général

ProblèmeSolution
« Aucune clé API configurée »Ajoutez une clé dans le Key Pool pour la fonctionnalité dont vous avez besoin
L'enregistrement ne démarre pasVérifiez la permission du microphone dans les paramètres système
La traduction vocale ne produit pas d'audioAssurez-vous qu'une clé API TTS est configurée et fonctionnelle
L'export échoueVérifiez l'accès en écriture au dossier Téléchargements
Impossible de voir la sauvegarde dans le sélecteur de fichiers d'importPassez de Images à Documents / Cette semaine, ou ouvrez le dossier Téléchargement — voir §25 Import

Windows Spécifique à Windows

ProblèmeSolution
Le raccourci Ctrl+Win ne fonctionne pasAssurez-vous que l'application est en cours d'exécution (vérifiez la zone de notification)
Le texte n'est pas collé après la dictéeAssurez-vous que la fenêtre cible prend en charge Ctrl+V
L'écouteur de notifications est indisponibleDisponible uniquement dans l'édition complète (pas l'édition Store)
Le Mini-Player semble trop grand/petitLe dimensionnement adapté au DPI s'ajuste automatiquement ; redémarrez l'application si les paramètres d'affichage ont changé

Android Spécifique à Android

ProblèmeSolution
La lecture automatique ne fonctionne pasAssurez-vous que l'overlay est actif, la lecture automatique activée et l'accès aux notifications accordé
Le collage automatique ne fonctionne pasRéactivez le service d'accessibilité dans les paramètres Android
La bulle n'apparaît pasAccordez la permission « Affichage par-dessus d'autres applis »
« Accès à l'appli refusé » lors de l'octroi des permissionsParamètres restreints (Android 13+) — voir §19 « Paramètres restreints » pour la solution étape par étape
L'écran ne pivote pas (Tablette)Vérifiez si le mode PC est actif (déroulez les Paramètres rapides). La rotation automatique est ignorée en mode PC — repassez en mode Android. Affecte principalement les tablettes Lenovo (ZUI).

28. Confidentialité et sécurité

Traitement des données

  • Aucune collecte de données : Talk to me ne collecte, ne stocke et ne transmet aucune donnée utilisateur vers les serveurs de mrocon GmbH.
  • Communication API directe : L'audio et le texte vont directement de votre appareil vers le fournisseur IA de votre choix.
  • Stockage local uniquement : Tous les paramètres et clés API sont stockés exclusivement sur votre appareil.
  • Aucune analyse : Aucun suivi, analyse ou télémétrie d'aucune sorte.

Permissions

Windows

PermissionFonction
MicrophoneEnregistrer l'audio pour la dictée
Accès aux notificationsLire les notifications (Édition complète)
InternetCommuniquer avec les fournisseurs d'IA

Android

PermissionFonction
MicrophoneEnregistrer l'audio pour la dictée
Overlay (Affichage par-dessus d'autres applis)Afficher la bulle flottante
Écouteur de notificationsLire les notifications pour la lecture automatique
Service d'accessibilitéColler automatiquement le texte dans les champs
InternetCommuniquer avec les fournisseurs d'IA
Interroger les paquets installésAfficher les noms d'applications dans les paramètres de lecture automatique

Chiffrement

  • Windows : Clés API chiffrées avec DPAPI (Windows Data Protection API)
  • Android : Clés API dans le stockage interne privé de l'application
  • Fichiers de sauvegarde : Chiffrement AES-256-GCM

Annexe A — Langues prises en charge

Langues d'entrée vocale

Détection automatique, allemand, anglais, français, espagnol, italien, portugais, néerlandais, japonais, coréen, chinois, russe, arabe, hindi, polonais, turc, suédois, ukrainien

Langues cibles de traduction

Allemand, anglais, français, espagnol, italien, portugais, néerlandais, japonais, chinois, coréen, russe, arabe, hindi, polonais, turc, suédois, ukrainien, danois, finnois, norvégien

Langues TTS

Auto, allemand, anglais, français, italien, espagnol, portugais, néerlandais, polonais, suédois, danois, finnois, norvégien, turc, japonais, coréen, chinois

Langues de l'interface

English, Deutsch, Français, Español

Annexe B — Fournisseurs pris en charge

Reconnaissance vocale

FournisseurNotes
OpenAI WhisperLe plus utilisé, fiable
Deepgram Nova-2 / Nova-3Rapide, bonne précision
ElevenLabs Scribe v2Prend en charge les mots-clés personnalisés
Groq WhisperNiveau gratuit disponible, rapide

LLM (Correction / Traduction)

FournisseurNotes
OpenAIGPT-4o-mini, GPT-5.4, etc.
GroqNiveau gratuit, modèles Llama
AnthropicModèles Claude
Google GeminiModèles Gemini
xAI GrokNiveau gratuit disponible

Synthèse vocale

FournisseurNotes
ElevenLabsMeilleure qualité, clonage vocal, 4 modèles
OpenAI TTS6 voix intégrées, simple
Deepgram Aura 2Synthèse rapide

Annexe C — Préréglages de qualité

Préréglage STT LLM Modèle Correction Coût
Top PerformerScribe v2OpenAIGPT-5.4Forte$$$
StandardScribe v2OpenAIGPT-4.1 miniForte$$
BudgetWhisperGroqPar défautLégère$
FreeDeepgramGroqPar défautDésactivéeGratuit
CustomManuelManuelManuelManuelVariable

Annexe D — Raccourcis clavier Windows

RaccourciAction
Ctrl+WinDémarrer / Arrêter l'enregistrement
Ctrl+Win (pendant le traitement)Annuler le pipeline
Raccourci TTSLire le texte sélectionné à haute voix

Talk to me est un produit de mrocon GmbH. Tous droits réservés.

Pour obtenir de l'aide, contactez team@talktome.studio ou visitez talktome.studio.

↑ Retour en haut