Manuel d'utilisation

Talk to me — Manuel d'utilisation

Version : 0.5.149 (Windows Desktop) / 0.5.157 (Android Hands-Free) Dernière mise à jour : 2026-04-20

Ce manuel couvre les éditions Windows Desktop et Android Hands-Free de Talk to me. Les sections marquées Windows ou Android s'appliquent uniquement à cette plateforme. Toutes les autres sections s'appliquent aux deux.

1. Introduction

Talk to me est un studio professionnel de dictée, traduction et interaction vocale disponible pour Windows Desktop et Android. Il convertit votre parole en texte, le peaufine avec l'IA, le traduit dans plus de 20 langues et vous le lit — le tout en temps réel.

L'application suit une architecture stricte BYOK (Bring Your Own Key) et Zero-Knowledge / Zero-Trust : vos clés API et vos données ne quittent jamais votre appareil.

Fonctionnalités clés

Dictée en temps réel : Enregistrez votre voix et obtenez un texte peaufiné en quelques secondes.
Correction IA : Correction automatique de la grammaire et suppression des mots parasites par le fournisseur IA de votre choix.
Traduction en direct : Traduisez le texte dicté dans plus de 20 langues instantanément.
Traduction vocale (Speech-to-Speech) : Votre texte traduit est automatiquement lu à haute voix dans la langue cible.
Synthèse vocale : Convertissez n'importe quel texte en parole naturelle avec ElevenLabs, OpenAI TTS ou Deepgram.
Immersion linguistique en direct : Parlez dans votre langue maternelle, voyez et entendez instantanément le résultat dans la langue que vous souhaitez maîtriser.
Corrections de mots : Apprenez à l'application vos noms, marques et termes que la reconnaissance vocale ne transcrit pas correctement.
Sauvegarde chiffrée : Exportez tous les paramètres et clés API dans un fichier chiffré protégé par mot de passe.
Support multi-fournisseurs : Choisissez parmi OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram et plus encore.

Points forts par plateforme

Fonctionnalité	Windows Desktop	Android Hands-Free
Mini-Player (mode compact)	✓	—
Raccourcis globaux (Ctrl+Win)	✓	—
Lecture auto (extraction de texte Ctrl+C)	✓	—
Écouteur de notifications (Édition complète)	✓	—
Enregistrement & sauvegarde MP3	✓	—
Pastille flottante (analyseur de spectre)	✓	—
Bulle flottante (Overlay)	—	✓
Collage automatique (Accessibilité)	—	✓
Lecture automatique des messages (depuis les applis de chat)	—	✓
Accès aux notifications au niveau des applications	—	✓

Principes de sécurité

Zero-Knowledge : Talk to me ne stocke, ne transmet et n'a jamais accès à vos clés API sur aucun serveur. Toutes les clés sont stockées localement sur votre appareil.
Zero-Trust : L'application ne contacte jamais nos serveurs. Aucune analyse, aucun suivi, aucune télémétrie. Vos données de dictée vont directement de votre appareil vers le fournisseur IA de votre choix et nulle part ailleurs.
BYOK : Vous apportez vos propres clés API des fournisseurs en qui vous avez confiance. Talk to me ne revend pas l'accès aux API.

2. Premiers pas

Windows Installation — Windows Desktop

Talk to me pour Windows est disponible en tant qu'installateur signé EV depuis talktome.studio ou via le Microsoft Store.

Configuration requise :

Windows 10 ou ultérieur (64 bits)
Une connexion Internet active
Au moins une clé API d'un fournisseur pris en charge

L'installateur est signé numériquement avec un certificat Extended Validation (EV) de Certum (mrocon GmbH). Windows SmartScreen n'affichera aucun avertissement.

Android Installation — Android

Talk to me pour Android est disponible en tant qu'APK depuis talktome.studio ou via le Google Play Store.

Configuration requise :

Android 8.0 ou ultérieur
Une connexion Internet active
Au moins une clé API d'un fournisseur pris en charge

Premier lancement

Lorsque vous ouvrez Talk to me pour la première fois, vous verrez le portail de licence. Vous avez deux options :

Entrer une clé de licence pour débloquer immédiatement l'application complète.
Démarrer un essai gratuit de 7 jours pour explorer toutes les fonctionnalités sans clé de licence.

Après l'activation ou le début de l'essai, l'application se charge et vous pouvez commencer à l'utiliser immédiatement — à condition d'avoir au moins une clé API configurée (voir Key Pool).

Android Démarrage rapide — Vos 5 premières minutes

Après avoir activé votre licence (ou démarré l'essai gratuit), l'application s'ouvre et vous verrez l'écran principal — le Cockpit. Ne vous inquiétez pas si la plupart des boutons apparaissent en orange ou inactifs. C'est tout à fait normal ! Voici ce qu'il faut faire, étape par étape :

Étape 1 — Activer l'accès au microphone

Le grand bouton au centre de l'écran affiche « Activer l'accès au microphone ». C'est la première et la plus importante étape.

Appuyez sur le bouton Activer l'accès au microphone.
Une boîte de dialogue de Talk to me explique pourquoi le microphone est nécessaire. Appuyez sur OK.
Android demande ensuite : « Autoriser Talk to me à enregistrer de l'audio ? » — appuyez sur Pendant l'utilisation de l'appli (ou Autoriser).
Terminé ! Le bouton change en « Prêt — Démarrer la dictée » en vert. Vous pouvez maintenant enregistrer votre première dictée.

Étape 2 — Ajouter vos clés API

En bas de l'écran, vous verrez la barre Key Pool — affichant probablement des libellés rouges comme STT 0/5, LLM 0/5, TTS 0/5. Cela signifie qu'aucune clé API n'est encore configurée. Sans clés, l'application ne peut pas se connecter aux services d'IA.

Appuyez sur l'un des libellés Key Pool (par ex. STT) pour ouvrir la section Key Pool.
Appuyez sur Ajouter une clé et collez une clé API de votre fournisseur (par ex. OpenAI, Deepgram, ElevenLabs).
Appuyez sur Enregistrer. Le libellé devient vert lorsqu'une clé valide est enregistrée.
Répétez pour chaque catégorie que vous souhaitez utiliser. Au minimum, vous avez besoin d'une clé STT (pour la dictée). Pour la correction IA, ajoutez une clé LLM. Pour la synthèse vocale, ajoutez une clé TTS.

Voir §11 Key Pool pour un guide détaillé sur les fournisseurs pris en charge et comment obtenir des clés API.

Étape 3 — Fonctionnalités optionnelles (boutons du Cockpit)

Les boutons au centre du Cockpit contrôlent les fonctionnalités optionnelles. Chacun nécessite une permission système lors de la première activation. Vous verrez une courte boîte de dialogue d'explication de Talk to me, suivie de la boîte de dialogue système Android. Les deux sont normales et peuvent être confirmées en toute sécurité.

Bouton	Fonction	Détails
Auto-Paste	Colle automatiquement votre texte dicté dans l'application que vous utilisiez (par ex. WhatsApp, e-mail). Aucun copier-coller manuel nécessaire.	§19
Notif Access	Permet à l'application de lire les notifications entrantes pour vous les lire automatiquement.	§21
Auto-Read	Lit les messages entrants à haute voix par synthèse vocale — idéal pour une utilisation mains libres en conduisant ou en cuisinant.	§20
Overlay	Affiche une petite bulle flottante sur votre écran. Appuyez dessus pour démarrer/arrêter la dictée depuis n'importe quelle application — sans revenir à Talk to me.	§18

Vous n'avez pas besoin de tout cela immédiatement. Commencez avec la dictée (étapes 1 + 2), et activez les extras quand vous êtes prêt. Chaque fonctionnalité peut être activée ou désactivée à tout moment.

Free & Paid Tier Overview

Talk to me is a BYOK app (Bring Your Own Key). You use your own API keys from AI providers. Many providers offer generous free tiers — from $200 Deepgram credit to unlimited Gemini usage to free Grok and Groq keys. This means you can use Talk to me for months before any API costs arise.

Tier 1 — Completely Free (no money, no credit card)

What you need	What you get	How to get it
1× Deepgram account (free)	Speech-to-Text dictation (STT)	deepgram.com → Sign up → $200 starter credit
1× Gemini API key (free)	AI Voice Chat (Gemini Live)	aistudio.google.com → Create API Key

What you can do:

Dictate with Deepgram Nova-3 (preset “Free”) — no LLM polish, but solid transcription
AI Voice Chat via the Gemini Live tab — real-time voice conversation with sub-second latency, 30 voices, 24 languages

How long does it last?

Feature	Credit / Limit	Lasts for
Deepgram STT	$200 starter credit (never expires)	~43,000 min (~716 hours) transcription
Gemini Live Voice Chat	Free API key (no credit limit)	Unlimited (rate limit: ~10 sessions/min)
Gemini LLM (for Polish)	Free API key	250 requests/day (Flash model)

Reality: With these two free accounts you can use Talk to me productively for months. During intensive daily testing, only $19 of $200 Deepgram credit was used after weeks.

Tier 2 — Free with More Power (additional free keys)

What you need	What it adds	Cost
+ 1× xAI account	Grok-3-Mini as LLM for Polish + Translation	Free ($25 starter credit + up to $150/month with data sharing)
+ 1× Groq account	Ultra-fast LLM for Polish (Llama models)	Free (1,000 requests/day, no credit card)

Unlocked presets:

Preset	STT	LLM / Polish	All keys free?
Free	Deepgram Nova-3	—	Yes (1 key)
Free xAI	Deepgram Nova-3	xAI Grok	Yes (2 keys)
Free Gemini	Deepgram Nova-3	Google Gemini	Yes (2 keys)
Fast Free	OpenAI Whisper	Groq Llama	Yes (2 keys)
Economy	Deepgram Nova-3	Groq Llama	Yes (2 keys)
Economy Plus	Deepgram Nova-3	Groq Llama (Strong Polish)	Yes (2 keys)

Also unlocked:

Deepgram Voice Agent with 20+ managed presets (uses your $200 credit, $0.05–0.16/min)
Full BYO Voice Agent Presets (e.g. GPT-5.4 + ElevenLabs, if you have the keys)

Tier 3 — Premium Quality (paid keys)

For the absolute best quality, you need paid API keys:

Provider	Used for	Cost	What you get
OpenAI	GPT-5.4 (best LLM for Polish)	Pay-per-use (~$5–15/month)	Perfect grammar, style, translation
ElevenLabs	Scribe v2 (best STT) + TTS	From $5/month (Starter)	Best transcription, premium voices
Anthropic	Claude 4.6 Sonnet (top LLM)	Pay-per-use	Excellent text quality for longer texts

API Key Cost Overview

Provider	Sign up	Starter credit	Ongoing cost	Credit card?
Deepgram	Free	$200 (never expires!)	From $0.0043/min STT	No
Google Gemini	Free	Unlimited (rate-limited)	$0.005–0.018/min (Live Audio)	No
xAI (Grok)	Free	$25 + up to $150/month	From $0.10/1M tokens	No
Groq	Free	Unlimited (rate-limited)	1,000 requests/day free	No
OpenAI	Free	$5 (expires after 3 months)	From $0.15/1M tokens	Yes (for GPT-5+)
Anthropic	Free	$5 (expires after 30 days)	From $1.00/1M tokens	Yes
ElevenLabs	Free	10,000 chars/month	From $5/month (Starter)	Yes

Recommended Start (3 minutes, $0 cost)

Create Deepgram account → deepgram.com → Sign up → Copy API Key
Create Gemini API key → aistudio.google.com → “Create API Key” → Copy key
Enter keys in Talk to me → Settings → LLM Key Pool
Go: Dictation tab → preset “Free Gemini” → Dictate with STT + AI Polish. Gemini Live tab → “Start Conversation” → Real-time voice chat with AI.

Optional for even more:

xAI account → x.ai/api → Sign up → API Key → Enter in Key Pool → preset “Free xAI”
Groq account → console.groq.com → Sign up → API Key → presets “Economy” / “Economy Plus” / “Fast Free”

Feature Availability by Tier

Feature	Tier 1 (free)	Tier 2 (free+)	Tier 3 (premium)
Speech dictation (STT)	✓ Deepgram	✓ Deepgram + Whisper	✓ + ElevenLabs Scribe v2
AI Polish (grammar)	—	✓ Grok/Gemini/Groq	✓ + GPT-5.4 / Claude 4.6
Real-time translation	—	✓ (all LLM providers)	✓ (best quality)
Gemini Live Voice Chat	✓ (unlimited)	✓ (unlimited)	✓ (unlimited)
Deepgram Voice Agent	—	✓ (from $200 credit)	✓ (all presets)
BYO Voice Agent Presets	—	✓ (with xAI/Groq keys)	✓ (+ ElevenLabs/OpenAI TTS)
Available presets	2	6+ dictation + 20+ Voice Agent	All (30+)

All prices and free tier conditions are set by the respective providers and may change. Last updated: April 2026.

3. Activation de la licence

Le portail de licence

Au premier lancement (ou après l'expiration de l'essai), le portail de licence s'affiche. Il montre :

Le logo Talk to me
Un champ de texte pour votre clé de licence (format : TTM-XXXX-XXXX-XXXX-XXXX)
Votre Machine ID (un identifiant unique de l'appareil, nécessaire pour l'activation)
Un bouton Activer
Un bouton Démarrer l'essai gratuit de 7 jours (si aucun essai n'a été utilisé)
Des liens vers Acheter une licence et le Portail client

Activer une licence

Entrez votre clé de licence dans le champ de texte.
Appuyez/cliquez sur Activer.
L'application vérifie votre clé en ligne et l'active pour cet appareil.
Une fois activée, vous ne verrez plus le portail de licence sauf si vous désactivez ou si votre licence expire.

L'essai gratuit

Appuyez/cliquez sur Démarrer l'essai gratuit de 7 jours pour débloquer toutes les fonctionnalités pendant 7 jours.
Une bannière en haut de l'application indique combien de jours d'essai il reste.
Après 7 jours, l'essai expire et le portail de licence réapparaît.

Fenêtre de licence

Une fois dans l'application, vous pouvez consulter l'état de votre licence en cliquant sur le bouton Licence (icône bouclier). La fenêtre de licence affiche :

Statut : Active, Essai, Période de grâce ou Expirée
Produit : Le nom du produit de votre licence
Forfait : Annuel ou à vie
Expire : Date d'expiration (ou « À vie »)
Appareils : Nombre d'appareils actifs / maximum autorisé
Clé : Votre clé de licence (partiellement masquée)
Machine ID : L'identifiant unique de votre appareil

Depuis cette fenêtre, vous pouvez :

Désactiver l'appareil — libère la licence de cet appareil pour que vous puissiez l'utiliser sur un autre
Fermer — retourner à l'application

4. Aperçu de l'application

L'application est organisée en trois onglets principaux et plusieurs sections complémentaires :

Navigation

En haut de l'écran, trois onglets vous permettent de basculer entre les modes principaux de l'application :

Reconnaissance vocale — Enregistrez votre voix et obtenez un texte peaufiné et traduit
Synthèse vocale — Convertissez du texte écrit en audio parlé
Chat vocal IA — Ayez des conversations vocales en temps réel avec l'IA (voir §12)

Disposition de l'interface

Sous les onglets, l'interface principale est organisée verticalement :

Contrôles de remplacement rapide — Sélecteurs de langue pour l'entrée et la sortie
Boutons d'action — Accès rapide aux fonctionnalités de la plateforme
Indicateur d'état — Affiche l'état actuel (Prêt, Enregistrement, Transcription, etc.)
Affichage du Pipeline — Progression visuelle de votre dictée à travers les étapes de traitement
Zone de résultat — Votre texte transcrit/traduit
Panneau TTS (onglet Synthèse vocale uniquement) — Saisie de texte et contrôles de lecture
Panneau Chat vocal IA (onglet Chat vocal IA uniquement) — Sélection de voix/persona, contrôles de conversation, transcription en direct (voir §12)
Key Pool — Gérez vos clés API
Paramètres — Toutes les options de configuration

Boutons d'action

Windows Boutons d'action du bureau :

Traduction vocale — Activer/désactiver la traduction parole-à-parole
Écouteur de notifications — Activer/désactiver la lecture des notifications (Édition complète)
Lecture automatique — Activer/désactiver la synthèse vocale Ctrl+C
Enregistrer les lectures TTS — Activer/désactiver l'enregistrement MP3 de la sortie TTS
Sauvegarder les enregistrements — Ouvrir le dossier des enregistrements

Android Boutons d'action :

Licence — Ouvrir la fenêtre de licence
Traduction vocale — Activer/désactiver la traduction parole-à-parole
Overlay — Démarrer/arrêter la bulle flottante
Collage automatique — Ouvrir les paramètres d'accessibilité
Lecture automatique — Activer/désactiver la lecture automatique des messages
Accès aux notif. — Ouvrir les paramètres de l'écouteur de notifications

Le bouton Info

Dans l'en-tête, le bouton Info ouvre la fenêtre d'informations de l'application, qui affiche :

Un lien vers talktome.studio
L'adresse e-mail du support (appuyez/cliquez pour copier)
La version actuelle de l'application
Le nombre de microphones détectés

5. Reconnaissance vocale

L'onglet Reconnaissance vocale est le mode principal de Talk to me. Ici, vous enregistrez votre voix et recevez un texte peaufiné, éventuellement traduit.

Enregistrer une dictée

Assurez-vous que l'état affiche Prêt — Démarrer la dictée (vert).
Cliquez/appuyez sur le grand bouton Démarrer la dictée.
Le bouton devient rouge et affiche Arrêter l'enregistrement. Parlez clairement.
Pendant l'enregistrement, vous pouvez voir : la durée de l'enregistrement en secondes, le niveau audio affichant le volume d'entrée, le fournisseur STT actif et la langue.
Cliquez/appuyez à nouveau sur le bouton pour arrêter l'enregistrement.

Windows Vous pouvez également démarrer/arrêter l'enregistrement à l'aide du raccourci global Ctrl+Win (pas besoin de mettre la fenêtre de l'application au premier plan).

Que se passe-t-il après l'enregistrement

Après avoir arrêté l'enregistrement, l'application traite votre audio à travers le Pipeline (voir Le Pipeline) :

Capture — L'enregistrement audio est finalisé
STT — Votre audio est transcrit par le fournisseur sélectionné
Post-traitement — Le texte brut est nettoyé (corrections de mots appliquées)
Correction / Traduction — Si activée, l'IA corrige la grammaire ou traduit le texte
Injection — Le texte final est placé dans votre presse-papiers

Windows Le texte est automatiquement collé dans la fenêtre précédemment active via un Ctrl+V simulé (injection intelligente du presse-papiers).

Android Si le collage automatique est activé, le texte est automatiquement inséré dans le champ de texte actif via le service d'accessibilité.

La zone de résultat

Après le traitement, votre texte apparaît dans la zone de résultat. Un message confirme que le texte a été copié dans votre presse-papiers et est prêt à être collé.

Signaux d'enregistrement (Audio Cues)

Talk to me te signale de manière acoustique et visuelle quand le microphone enregistre réellement — pour qu'aucun mot ne soit perdu.

Signaux acoustiques

Bip de démarrage (court bip aigu) : « Le microphone est actif, tu peux parler. »
Bip d'arrêt (court bip grave) : « Enregistrement terminé. »

Les deux bips peuvent être activés/désactivés dans les paramètres et leur volume est réglable (par défaut : 100 %).

Signaux visuels

Veille : L'icône du microphone est orange — enregistrement inactif.
Enregistrement actif : L'icône du microphone est verte — chaque mot prononcé est capturé.

Remarque : bip de démarrage sur les haut-parleurs USB

Certains appareils audio suppriment le bip de démarrage. Ce n'est pas un bug mais une caractéristique matérielle :

Type d'appareil	Bip audible ?	Recommandation
Haut-parleurs + microphone séparé	✅ Oui	—
Casque avec micro + écouteur séparés	✅ Oui	—
Haut-parleur USB (Jabra Speak2, Logitech P710e etc.)	⚠️ Peut-être pas	Utiliser un casque ou des haut-parleurs externes
Casque Bluetooth en profil Hands-Free	⚠️ Peut-être pas	Casque filaire comme alternative

Important : Si tu changes le périphérique audio par défaut, redémarre Talk to me pour que le bip soit joué sur le nouveau périphérique.

6. Synthèse vocale

L'onglet Synthèse vocale vous permet de convertir n'importe quel texte écrit en parole naturelle.

Utilisation de base

Basculez sur l'onglet Synthèse vocale.
Tapez ou collez du texte dans la zone de texte.
Cliquez/appuyez sur Lire à haute voix pour démarrer la lecture.

Contrôles de lecture

Pause — Interrompt temporairement la lecture
Reprendre — Continue là où vous avez mis en pause
Arrêter — Arrête complètement la lecture
Rejouer — Rejoue le même audio sans re-synthèse

Sélection du fournisseur et de la voix

ElevenLabs : Choisissez parmi vos voix disponibles ou utilisez « Default (Brian v3) ». Voice-ID personnalisés pris en charge.
OpenAI TTS : Nova, Alloy, Echo, Fable, Onyx, Shimmer
Deepgram Aura 2 : Synthèse rapide

Sélection du modèle (ElevenLabs)

Modèle	Limite de caractères	Idéal pour
Eleven v3	5 000	Qualité maximale, contenu court
Multilingual v2	10 000	Support multilingue
Flash v2.5	40 000	Synthèse rapide, textes longs
Turbo v2.5	40 000	Équilibre vitesse et qualité

Qualité audio

Qualité	Description
MP3 192 kbps	Qualité créateur — fidélité maximale
MP3 128 kbps	Standard — bon équilibre
MP3 64 kbps	Compact — taille de fichier réduite
MP3 32 kbps	Minimal — qualité la plus basse

Normalisation du texte

Paramètre	Description
Auto	Le modèle décide comment traiter les nombres
Toujours activé	Les nombres sont convertis en mots (par ex. « 42 » → « quarante-deux »)
Désactivé	Aucune normalisation appliquée

Réglage fin de la voix (ElevenLabs)

Curseur	Plage	Description
Stability	Variable ↔ Stable	Plus bas = plus expressif ; Plus haut = plus cohérent
Similarity	Créatif ↔ Original	Degré de correspondance avec la voix originale
Style	Neutre ↔ Expressif	Niveau d'expression émotionnelle
Speed	Lent (0.7×) ↔ Rapide (1.2×)	Vitesse de lecture

Options supplémentaires

Code-Filter : Supprime les blocs de code et la syntaxe technique avant la synthèse.
Auto-Record : Sauvegarde automatiquement l'audio synthétisé. Appuyez sur l'icône de dossier pour choisir le répertoire.
Speaker Boost : Améliore la clarté de la voix (ElevenLabs uniquement).

7. Le Pipeline

Le Pipeline est le moteur de traitement central de Talk to me. Il visualise les étapes que votre audio traverse de l'enregistrement à la sortie finale.

Étapes du Pipeline

Étape	Libellé	Description
1	Capture	Enregistrement et finalisation audio
2	STT	Transcription de la parole en texte
3	Post	Post-traitement (nettoyage, corrections de mots)
4	Polish ou Trans	Correction IA ou traduction IA
5	Inject	Texte copié dans le presse-papiers / collé automatiquement

Indicateurs TDF (champ d'affichage du texte)

Chaque étape du pipeline affiche le fournisseur actif (par ex. « Scribe v2 », « GPT-5.4 ») et les informations de timing après l'achèvement.

Affichage du timing

Après le traitement, une ligne de timing affiche :

STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s

Si la traduction vocale est active, un timing supplémentaire S2S (Speech-to-Speech) est affiché.

8. Traduction vocale

La traduction vocale combine la traduction IA avec la synthèse vocale pour créer une expérience de traduction parole-à-parole en temps réel.

Nouveau depuis v0.5.150 : La traduction de texte est désormais automatiquement active dès que ta langue d'entrée (Speech Input) et ta langue de sortie (Text Output) diffèrent. Tu n'as plus besoin d'un bouton séparé pour la traduction. Le bouton Voice Translate ne contrôle plus que la lecture à voix haute du texte final (sortie Text-to-Speech).

Exemples

Entrée allemand, sortie anglais, Voice Translate désactivé → Le texte est automatiquement traduit, mais uniquement placé dans le presse-papiers.
Entrée allemand, sortie anglais, Voice Translate activé → Le texte est traduit et lu à voix haute en anglais.
Entrée allemand, sortie allemand, Voice Translate activé → Pas de traduction, mais le texte allemand est lu à voix haute (TTS classique).

Comment ça marche

Activez Traduction vocale (violet lorsqu'actif).
Enregistrez une dictée dans votre langue source.
L'application transcrit → traduit → lit la traduction à haute voix.

Configuration

Langue cible : Définie dans Paramètres → Traduction IA → Traduire vers
Voix TTS : Utilise le fournisseur et la voix TTS configurés

Cas d'utilisation

Voyage : Parlez dans votre langue, faites lire la traduction à haute voix.
Apprentissage des langues : Écoutez comment votre texte sonne dans une autre langue.
Immersion linguistique en direct : Transformez vos propres pensées en fluidité en direct — parlez dans votre langue maternelle et absorbez le résultat dans la langue que vous souhaitez maîtriser.

9. Correction IA & traduction

Correction IA

Lorsqu'elle est activée, la correction IA corrige la grammaire, la ponctuation et (avec le réglage « Fort ») supprime les mots parasites comme « euh », « ben », « en fait », « du coup ».

Intensité de la correction :

Légère — Correction de la grammaire et de la ponctuation uniquement
Forte — Supprime également les mots parasites

Indicateurs d'état :

POLISH (cyan) — Actif
OFF — Désactivé
KEY MISSING (jaune) — Aucune clé LLM configurée

Traduction IA

Lorsqu'elle est activée, votre texte dicté est traduit dans la langue cible.

Indicateurs d'état :

TRANSLATE (cyan) — Actif, affichant la langue cible
VOICE OUTPUT (violet) — Traduction vocale également active
TEXT ONLY — Traduction sans sortie vocale
OFF — Désactivé

Remarque : Depuis v0.5.150, Talk to me détecte automatiquement quand les langues d'entrée et de sortie diffèrent et active la traduction — sans bouton explicite. Le KI-Polish reste disponible indépendamment et n'est plus automatiquement désactivé.

10. Contrôles de remplacement rapide

Les contrôles de remplacement rapide vous permettent de changer temporairement la langue d'entrée ou de sortie pour une seule dictée sans modifier vos paramètres enregistrés.

Remplacement de l'entrée vocale

Sélectionnez une langue d'entrée différente pour le prochain enregistrement :

Détection automatique — Le fournisseur STT détecte la langue automatiquement
Langues individuelles (voir Annexe A)

Remplacement de la sortie texte

Sélectionnez une langue de sortie différente (équivalent à activer temporairement la traduction) :

Par défaut (identique à l'entrée) — Pas de traduction
Les 20 langues de traduction

Réinitialiser aux paramètres

Lorsqu'un remplacement est actif, un bouton Réinitialiser (icône ↩) apparaît. Appuyez/cliquez dessus pour revenir à vos paramètres enregistrés.

11. Key Pool

Le Key Pool est l'endroit où vous gérez vos clés API. Talk to me utilise une architecture basée sur un pool — vous pouvez ajouter plusieurs clés par catégorie, et l'application alterne automatiquement entre elles en fonction des scores de confiance.

Catégories

Catégorie	Fonction	Fournisseurs pris en charge
Speech-to-Text	Transcription	OpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper
AI-Polish / LLM	Grammaire, traduction	OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Text-to-Speech	Synthèse vocale	ElevenLabs, Deepgram, OpenAI TTS

Ajouter une clé

Développez la section Key Pool.
Cliquez/appuyez sur + Ajouter une clé dans la catégorie souhaitée.
Sélectionnez le Fournisseur.
Entrez un Libellé (par ex. « Ma clé OpenAI »).
Entrez votre clé API.
Cliquez/appuyez sur Enregistrer la clé.

Fonctionnalités de l'emplacement de clé

Chaque emplacement de clé affiche :

Libellé et Fournisseur
Clé masquée (4 derniers caractères visibles)
Score de confiance — Code couleur (vert/jaune/rouge)
Statistiques — Appels, succès, échecs, limites de débit

Actions par emplacement :

Tester — Vérifier que la clé fonctionne
Suspendre / Activer — Désactiver ou réactiver temporairement
Supprimer — Supprimer définitivement

Système de confiance

Niveau	Score	Couleur	Comportement
Excellent	≥80%	Vert	Préféré
Bon	≥60%	Vert	Normal
Correct	≥40%	Jaune	Secours
Faible	≥20%	Jaune	Rarement utilisé
Critique	<20%	Rouge	Dernier recours

Les clés qui atteignent les limites de débit sont placées en cooldown automatique pendant que les autres clés sont utilisées.

12. Chat vocal IA

Talk to me inclut deux moteurs de chat vocal IA indépendants, chacun avec ses propres points forts. Vous pouvez basculer entre eux à tout moment depuis l'onglet Chat IA.

Moteur	Technologie	Avantage clé
12a. Deepgram Voice Agent	Deepgram Agent API (WebSocket)	32+ préréglages, 6 fournisseurs LLM, 4 fournisseurs TTS, surveillance de la latence, modes géré & BYO
12b. Gemini 3.1 Flash Live	Google Gemini Live API (WebSocket)	30 voix expressives, préréglages de persona, contrôle de la profondeur de réflexion, IA multimodale Google native

Mode haut-parleur mains libres complet (Android)

Les deux moteurs de chat vocal fonctionnent entièrement en mains libres via le haut-parleur de votre téléphone. Talk to me utilise une annulation d’écho acoustique (AEC) propriétaire via un pont natif Android pour séparer votre voix de la sortie haut-parleur de l’IA. Interrompez à tout moment — l’IA s’arrête immédiatement et reprend là où vous le souhaitez. Aucun casque ni équipement supplémentaire requis. Les utilisateurs de bureau avec n’importe quelle configuration standard fonctionnent tout aussi bien.

12a. Deepgram Voice Agent

Le Deepgram Voice Agent fournit des conversations vocales IA en temps réel, en full-duplex, via une seule connexion WebSocket à l’API Deepgram Agent. Il orchestre la reconnaissance vocale (STT), les modèles de langage (LLM) et la synthèse vocale (TTS) dans un pipeline unifié — vous parlez, l’IA réfléchit et répond avec une voix naturelle, le tout en temps réel.

Démarrage

Passez à l’onglet AI Chat, puis sélectionnez le sous-onglet Deepgram.
Ajoutez une clé API Deepgram dans le Key Pool (faites défiler jusqu’à la section « Deepgram Voice Agent »).
Choisissez un préréglage de configuration ou configurez manuellement.
Appuyez sur le bouton vert Démarrer la conversation.

Préréglages de configuration (32+ options)

Talk to me est livré avec plus de 32 préréglages répartis en six catégories. Chaque préréglage préconfigure le modèle STT, le fournisseur/modèle LLM, le fournisseur/voix TTS et les paramètres de détection de tour de parole.

Top Tier — Meilleure qualité

Préréglage	LLM	TTS	STT
Gemini 3.0 Pro + Sonic-3	Google Gemini 3.0 Pro	Cartesia Sonic-3	Nova-3
Claude 4.5 + Sonic-3	Anthropic Claude Sonnet 4.5	Cartesia Sonic-3 (Tessa)	Nova-3
Claude 4.6 + Sonic-3	Anthropic Claude Sonnet 4.6	Cartesia Sonic-3 (Katie)	Nova-3
GPT-5.4 + Sonic-3	OpenAI GPT-5.4	Cartesia Sonic-3 (Katie)	Nova-3
GPT-5.4 + Kiefer	OpenAI GPT-5.4	Cartesia Sonic-3 (Kiefer, Male)	Nova-3

Ultra-Fast — Latence la plus basse (~1,1s)

Préréglage	LLM	TTS	STT
GPT-4o Mini + Sonic-3	OpenAI GPT-4o Mini	Cartesia Sonic-3	Nova-3
GPT-5.4 Nano + Sonic-3	OpenAI GPT-5.4 Nano	Cartesia Sonic-3	Nova-3
Haiku 4.5 + Sonic-3	Anthropic Claude Haiku 4.5	Cartesia Sonic-3	Nova-3
Gemini 2.5 Flash + Sonic-3	Google Gemini 2.5 Flash	Cartesia Sonic-3	Nova-3
Nemotron 49B + Sonic-3	NVIDIA Nemotron Super 49B	Cartesia Sonic-3	Nova-3

Flux — Anglais uniquement, latence ultra-basse

Flux utilise le modèle Flux STT de Deepgram avec une détection de fin de tour agressive pour les temps de réponse les plus rapides. Anglais uniquement.

Préréglage	LLM	TTS
Flux + GPT-4o Mini + Sonic-3	OpenAI GPT-4o Mini	Cartesia Sonic-3
Flux + GPT-5.4 Nano + Sonic-3	OpenAI GPT-5.4 Nano	Cartesia Sonic-3
Flux + GPT-5.4 + Sonic-3	OpenAI GPT-5.4	Cartesia Sonic-3
Flux + Claude 4.6 + Sonic-3	Anthropic Claude 4.6	Cartesia Sonic-3
Flux + Gemini Flash + Sonic-3	Google Gemini 2.5 Flash	Cartesia Sonic-3

Équilibré — Qualité + Rapidité

Préréglage	LLM	TTS
GPT-5 Mini + Sonic-3	OpenAI GPT-5 Mini	Cartesia Sonic-3
GPT-4.1 Mini + Sonic-3	OpenAI GPT-4.1 Mini	Cartesia Sonic-3
Haiku 4.5 + Tessa	Anthropic Haiku 4.5	Cartesia Sonic-3 (Tessa)
Gemini 3.0 Flash + Sonic-3	Google Gemini 3.0 Flash	Cartesia Sonic-3

Expérimental — Deepgram Aura-2 TTS (spécifique à la langue)

Préréglage	LLM	Voix TTS
GPT-5.4 + Julius (DE)	OpenAI GPT-5.4	Aura-2 Julius (allemand, homme)
GPT-5.4 + Zeus (EN)	OpenAI GPT-5.4	Aura-2 Zeus (anglais, homme)
Claude 4.6 + Thalia (EN)	Anthropic Claude 4.6	Aura-2 Thalia (anglais, femme)
GPT-5.4 + Agathe (FR)	OpenAI GPT-5.4	Aura-2 Agathe (français, femme)
GPT-5.4 + Celeste (ES)	OpenAI GPT-5.4	Aura-2 Celeste (espagnol, femme)

Full BYO — Apportez vos propres clés LLM & TTS

En mode Full BYO, Deepgram ne gère que le STT (Nova-3). Vos propres clés API pour les fournisseurs LLM et TTS sont utilisées directement.

Préréglage	LLM (clé BYO)	TTS (clé BYO)
GPT-5.4 + ElevenLabs	OpenAI GPT-5.4	ElevenLabs Turbo v2.5
GPT-5.4 + OpenAI TTS	OpenAI GPT-5.4	OpenAI TTS-1
GPT-5.4 Nano + ElevenLabs	OpenAI GPT-5.4 Nano	ElevenLabs Turbo v2.5
Gemini 3 Pro + ElevenLabs	Google Gemini 3 Pro	ElevenLabs Turbo v2.5
Gemini Flash + OpenAI TTS	Google Gemini 2.5 Flash	OpenAI TTS-1
Claude 4.6 + ElevenLabs	Anthropic Claude 4.6	ElevenLabs Turbo v2.5
Claude 4.6 + OpenAI TTS	Anthropic Claude 4.6	OpenAI TTS-1
Grok 3 Mini + ElevenLabs	xAI Grok 3 Mini	ElevenLabs Turbo v2.5

Verrouillage & Déverrouillage des préréglages

Lorsqu’un préréglage est actif, tous les champs de configuration sont verrouillés aux valeurs du préréglage (indiqué par une icône de cadenas). Cela empêche les modifications accidentelles. Pour remplacer des paramètres individuels, appuyez sur Déverrouiller pour édition manuelle. Modifier un paramètre manuellement bascule le préréglage en « Configuration manuelle ».

Configuration manuelle

Appuyez sur l’icône d’engrenage à côté du bouton Démarrer pour ouvrir le panneau de configuration. Tous les champs ci-dessous sont disponibles :

Fournisseur LLM

Fournisseur	Modèles clés
OpenAI	GPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (incl. Nano, Mini)
Anthropic	Claude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6
Google	Gemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite
NVIDIA	Llama Nemotron Super 49B, Nemotron 3 Nano 30B
xAI	Grok 3, Grok 3 Mini, Grok 3 Fast
Groq	GPT OSS 20B

Fournisseur TTS

Fournisseur	Voix	Langues	Clé requise
Cartesia Sonic-3	9 voix (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default)	42 langues (détection automatique multilingue)	Clé Deepgram uniquement (géré)
Deepgram Aura-2	35+ voix (EN, DE, FR, ES, IT, NL, JA)	Spécifique à la langue par voix	Clé Deepgram uniquement (géré)
ElevenLabs	Vos voix ElevenLabs (chargées automatiquement)	Multilingue	Clé API ElevenLabs (BYO)
OpenAI TTS	10 voix (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer)	Anglais	Clé API OpenAI (BYO)

Modèle STT

Modèle	Langues	Cas d’utilisation
Nova-3	Multilingue	Standard, meilleure précision globale
Nova-3 General	Multilingue	Variante polyvalente
Nova-3 Medical	Multilingue	Optimisé pour la terminologie médicale
Flux	Anglais uniquement	Détection de fin de tour ultra-rapide

Autres paramètres

Langue — Détection automatique (multilingue) ou une langue spécifique : anglais, allemand, français, espagnol, italien, néerlandais, japonais, portugais, hindi, russe
Message d’accueil — Texte que l’agent prononce au début de la conversation (optionnel)
Instruction système — Définissez la personnalité et le comportement de l’IA. Une instruction de base est toujours incluse pour empêcher le formatage markdown et les questions de suivi dans la sortie vocale.

Paramètres avancés

Développez la section Avancé pour un réglage fin :

Temperature (0,00 – 2,00) — Contrôle la créativité des réponses. Par défaut : 0,7. Plus bas = plus ciblé, plus haut = plus créatif.
Modèle STT — Basculez entre les variantes Nova-3 et Flux.

Lorsque le STT Flux est sélectionné, des contrôles supplémentaires apparaissent :

Seuil EOT agressif (0,0 – 1,0) — Agressivité de la détection de fin de tour. Plus élevé = réponse plus rapide mais risque de vous couper en milieu de phrase.
Délai EOT (0 – 5000ms) — Silence maximum avant que l’agent réponde.

Pour ElevenLabs BYO : un champ Voice ID personnalisé vous permet d’entrer directement n’importe quel identifiant de voix ElevenLabs.
Pour OpenAI TTS BYO : sélectionnez parmi 10 voix OpenAI (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).

Pendant une conversation

Indicateur de statut — Affiche Prêt, Connexion, En direct (avec le temps écoulé) ou Erreur
Vumètre — Affiche le niveau d’entrée du microphone avec l’état Écoute/Silence
Indicateur de réflexion — Un badge vert apparaît pendant que le LLM traite votre saisie
Transcription de la conversation — Affichage en temps réel de tous les dialogues. Vos messages apparaissent à droite (vert), ceux de l’agent à gauche (bleu).
Barge-in — Interrompez l’IA à tout moment en parlant. L’agent s’arrête immédiatement et vous écoute.
Poignée de redimensionnement — Faites glisser la poignée sous la transcription pour redimensionner la zone de chat (120px à 85% de l’écran)
Double bouton Démarrer/Arrêter — Un en haut, un fixe en bas pour un accès facile lors du défilement

Surveillance de la latence

Une barre de latence compacte apparaît après le premier tour, affichant trois métriques clés :

LLM — Temps entre votre parole et le premier token LLM
TTFB — Temps total jusqu’au premier octet (bout en bout)
TURN — Durée totale du tour incluant la lecture audio

Les valeurs sont colorées : vert (< 2s), jaune (2–5s), rouge (> 5s).

Appuyez sur la barre de latence pour développer un tableau détaillé par tour avec les colonnes : #, Durée de parole, Temps LLM, Temps TTS, TTFB, Durée audio, Total. Les moyennes LLM et TTFB sont affichées dans l’en-tête.

Annulation d’écho (AEC)

Talk to me inclut une annulation d’écho acoustique propriétaire via un pont natif Android Kotlin. La sortie haut-parleur de l’IA est capturée et soustraite de l’entrée de votre microphone en temps réel, empêchant les boucles de rétroaction auto-déclenchées. Cela permet un fonctionnement entièrement mains libres sur haut-parleur sans casque. Fonctionne avec tous les préréglages gérés et la plupart des configurations BYO.

Key Pool — Deepgram Voice Agent

Le Key Pool du Deepgram Voice Agent est une section dédiée et réductible sous la zone de chat. Il gère :

Clés API Deepgram (requises) — pour le STT et le routage LLM/TTS géré
Clés LLM (optionnelles, Full BYO uniquement) — OpenAI, Anthropic, Gemini, xAI
Clés TTS (optionnelles, Full BYO uniquement) — ElevenLabs, OpenAI TTS

Chaque carte de clé affiche une mise en page à 4 lignes : libellé, badge fournisseur + clé masquée, score de confiance avec statistiques, et boutons d’action Test/Pause. Vous pouvez tester des clés individuelles ou toutes les clés à la fois.

Limites de session

Les sessions sont limitées à 15 minutes maximum (contrainte de l’API). Le temps écoulé est affiché dans le bouton Arrêter. La session se termine automatiquement lorsque la limite est atteinte.

Conseils

Commencez avec un préréglage géré (Top Tier ou Ultra-Fast) — ils ne nécessitent qu’une clé Deepgram et offrent la meilleure expérience.
GPT-5.4 Nano + Cartesia Sonic-3 fournit des temps de réponse d’environ 1,1s — l’option la plus rapide.
Les préréglages Flux sont en anglais uniquement mais extrêmement rapides grâce à la détection de fin de tour agressive.
Les préréglages Full BYO utilisent vos propres clés LLM/TTS pour un contrôle maximal mais peuvent avoir des performances Barge-in réduites avec certains fournisseurs TTS.
Tous les paramètres prennent effet au prochain démarrage de session, pas pendant une session en cours.

12b. Gemini 3.1 Flash Live

Gemini 3.1 Flash Live fournit des conversations vocales en temps réel alimentées par le dernier modèle audio IA de Google. Il offre la vitesse et le rythme naturel nécessaires pour une interaction voix en premier, avec une latence inférieure à la seconde, 30 voix expressives et une compréhension multimodale native.

Prérequis

Vous avez besoin d’une clé API Google Gemini (niveau payant recommandé) ajoutée au Key Pool LLM dans les Paramètres. La clé est automatiquement disponible pour le Chat vocal IA.

Démarrer une conversation

Accédez à l’onglet Gemini Live. Appuyez sur Démarrer la conversation. L’application se connecte à Gemini via WebSocket, ouvre votre microphone et commence à écouter. Parlez naturellement — Gemini répond en audio en temps réel. Appuyez sur Fin pour arrêter.

Voix (30 options)

Choisissez parmi 30 voix IA naturelles, chacune avec une personnalité distincte :

Voix	Caractère	Idéal pour
Sulafat	Chaleureuse	Narration, histoires du soir, conversations calmes
Gacrux	Mature	Narration autoritaire, mentorat, discussions profondes
Algenib	Rauque	Narration cinématographique, lecture dramatique, voix de personnage
Kore	Ferme	Briefings professionnels, lecture d’actualités, Q&R factuelles
Puck	Dynamique	Conversations énergiques, motivation, brainstorming
Zephyr	Lumineuse	Conversations optimistes, assistance amicale, salutations
Charon	Informatif	Tutoriels, explications de type documentaire
Fenrir	Enthousiaste	Réactions enthousiastes, commentaires de jeux, engouement
Leda	Juvénile	Discussion décontractée, conversations Gen-Z, sujets tendance
Aoede	Détendue	Conversations relaxées, discussions de voyage, lifestyle
Achernar	Douce	Guidance de méditation, style ASMR, encouragement doux
Algieba	Fluide	Animation de podcast, livres audio, lecture longue
Despina	Fluide	Narration élégante, voix de marque de luxe
Achird	Amicale	Support client, assistance quotidienne, ton accueillant
Vindemiatrix	Bienveillante	Conversations de soutien, ton thérapeutique, empathie
Sadaltager	Savante	Explications techniques, Q&R expert, encyclopédique
Rasalgethi	Informatif	Documentaires scientifiques, contenu éducatif
Schedar	Posée	Discussions équilibrées, reportages neutres, débats
Alnilam	Ferme	Présence imposante, leadership, cadres formels
Pulcherrima	Directe	Communication assertive, pitchs, présentations
Zubenelgenubi	Décontractée	Discussion détendue, retrouvailles entre amis, humour
Sadachbia	Vive	Narration animée, contenu pour enfants, ludique
Laomedeia	Dynamique	Émissions matinales, mises à jour joyeuses, énergie positive
Callirrhoe	Détendue	Conseils décontractés, coaching lifestyle, accessible
Autonoe	Lumineuse	Sessions créatives, génération d’idées, discussions artistiques
Enceladus	Soufflée	Narration intime, lecture de poésie, atmosphérique
Iapetus	Claire	Instructions précises, guides pas à pas, clarté
Erinome	Claire	Communication nette, formation en entreprise, diction
Umbriel	Détendue	Q&R relaxées, ambiance weekend, conversations tranquilles

Astuce : Prévisualisez toutes les voix dans la bibliothèque de voix Google AI Studio.

Langue

Choisissez parmi 24 langues prises en charge ou laissez sur Détection automatique. Gemini répondra dans la langue que vous parlez — ou dans la langue que vous sélectionnez. Prises en charge : anglais, allemand, français, espagnol, italien, portugais, néerlandais, polonais, roumain, russe, ukrainien, turc, arabe, hindi, bengali, tamoul, télougou, marathi, japonais, coréen, thaï, vietnamien, indonésien.

Préréglages de persona

Les préréglages de persona définissent comment Gemini se comporte — sa personnalité, son ton et son style de communication. Choisissez parmi six préréglages ou créez le vôtre :

Préréglage	Comportement
Friendly Assistant	Chaleureux, conversationnel, accessible — idéal pour un usage quotidien
Professional	Clair, concis, autoritaire — pour le travail et les affaires
Enthusiastic	Énergique, positif, encourageant — pour le brainstorming et la motivation
Calm & Soothing	Lent, doux, patient — pour la détente et les séances guidées
Teacher	Patient, étape par étape, utilise des analogies — pour l’apprentissage et les explications
Creative	Imaginatif, expressif, langage vivant — pour la narration et l’art
Custom	Rédigez votre propre instruction système à partir de zéro

Instruction système

L’instruction système est un briefing textuel que vous donnez à Gemini avant le début de la conversation. Pensez-y comme la direction d’un acteur : dites à l’IA qui elle est, comment se comporter et sur quoi se concentrer.

Exemples :

« Tu es un tuteur de langue italienne patient. Parle lentement. Corrige ma grammaire gentiment. »
« Tu es un architecte logiciel senior. Réponds de manière concise et technique. »
« Tu es un conteur créatif. Parle avec panache. Utilise un langage vivant. »

Lorsque vous utilisez un préréglage de persona, votre texte personnalisé est ajouté à l’instruction du préréglage. En mode Custom, votre texte constitue l’instruction entière. Rédigez en anglais pour de meilleurs résultats. Les paramètres sont enregistrés automatiquement.

Profondeur de réflexion

Contrôlez la profondeur de raisonnement de Gemini avant de répondre :

Niveau	Comportement
Minimal	Réponses les plus rapides, raisonnement interne minimal (par défaut)
Low	Considération brève, bon équilibre
Medium	Réponses réfléchies, pause plus longue avant de répondre
High	Raisonnement profond, idéal pour les questions complexes

Temperature & Top-P

Temperature (0,0 – 2,0) contrôle le degré de créativité vs. de prévisibilité des réponses de l’IA :

Plage	Comportement	Idéal pour
0,0 – 0,5	Ciblé, déterministe	Faits, réponses techniques, instructions précises
0,7 – 1,0	Équilibré, naturel (par défaut : 1,0)	La plupart des conversations, usage quotidien
1,2 – 2,0	Créatif, surprenant	Brainstorming, narration, écriture créative

Top-P (0,0 – 1,0) limite le pool de mots que l’IA considère. À 0,95 (par défaut), le modèle choisit parmi les 95 % de mots les plus probables. Des valeurs plus basses rendent la sortie plus conservatrice.

Détection d’activité vocale (VAD)

Les paramètres VAD contrôlent comment Gemini détecte quand vous commencez et arrêtez de parler :

Sensibilité de début de parole — La facilité avec laquelle le système détecte le début de la parole.
Sensibilité de fin de parole — La rapidité avec laquelle le système décide que vous avez fini de parler.
Durée de silence — Combien de millisecondes de silence avant que votre tour soit considéré comme terminé (100–2000ms).

Annulation d’écho (AEC)

Identique au Deepgram Voice Agent, Gemini 3.1 Flash Live bénéficie de l’annulation d’écho acoustique propriétaire de Talk to me via le pont natif Android Kotlin. Le mode haut-parleur mains libres complet fonctionne sans casque.

Conseils pour de meilleurs résultats

Parlez naturellement — Gemini prend en charge le Barge-in naturel (interrompez à tout moment)
Sur Android, l’AEC intégré élimine l’écho — pas besoin de casque
La durée de session est limitée à 15 minutes par connexion (limite de l’API)
Tous les paramètres prennent effet au prochain démarrage de session (pas pendant une session en cours)
Le vumètre affiche un dégradé coloré (vert, jaune, orange, rouge) indiquant le niveau d’entrée de votre microphone
La transcription de votre parole et des réponses de Gemini peut être activée/désactivée indépendamment

13. Mini-Player Windows

Le Mini-Player est une fenêtre compacte toujours au premier plan qui offre les contrôles essentiels de dictée sans occuper votre écran entier.

Accéder au mode Mini-Player

Cliquez sur le bouton Réduire (icône ↗) dans l'en-tête. La fenêtre de l'application se réduit à un overlay compact positionné en bas au centre de votre écran.

Disposition du Mini-Player

Le Mini-Player affiche une grille 3×3 de contrôles essentiels :

Ligne 1 : Sélecteur d'entrée vocale, bouton Statut/Démarrer, sélecteur de sortie texte
Ligne 2 : Bascule Traduction vocale, Pastille en ligne (analyseur de spectre), Sauvegarder les enregistrements
Ligne 3 : TDFs de timing du pipeline, aperçu du résultat

Dimensionnement adapté au DPI

Le Mini-Player ajuste automatiquement sa taille en fonction de l'échelle DPI de votre écran, garantissant des dimensions visuelles cohérentes sur les moniteurs avec différentes résolutions (100 %, 125 %, 150 %).

Quitter le mode Mini-Player

Cliquez sur le bouton Agrandir pour revenir à la fenêtre pleine taille à sa position et taille précédentes.

14. Raccourcis globaux Windows

Talk to me enregistre des raccourcis clavier système pour que vous puissiez contrôler la dictée sans basculer vers la fenêtre de l'application.

Raccourcis principaux

Raccourci	Action
Ctrl+Win	Démarrer / Arrêter l'enregistrement (global, fonctionne depuis n'importe quelle application)
Ctrl+Win (pendant le traitement)	Annuler le pipeline en cours

Raccourci TTS

Lorsque du texte est sélectionné dans n'importe quelle application, le raccourci TTS le lit à haute voix en utilisant votre fournisseur TTS configuré.

Hook de bas niveau

Le raccourci global utilise un hook clavier de bas niveau Windows, ce qui signifie qu'il fonctionne même lorsque l'application est minimisée ou qu'une autre application a le focus. Le hook fonctionne en « mode zéro interception » — il intercepte la combinaison de touches sans bloquer les autres entrées clavier.

15. Lecture automatique Windows

La lecture automatique est une fonctionnalité exclusive à Windows qui extrait le texte de l'application active et le lit à haute voix via TTS.

Comment ça marche

Activez la lecture automatique en cliquant sur le bouton correspondant.
Sélectionnez du texte dans n'importe quelle application (ou utilisez Ctrl+C pour copier).
Talk to me détecte le contenu du presse-papiers et le lit automatiquement à haute voix en utilisant votre configuration TTS.

Cas d'utilisation

Lire des e-mails, articles ou documents sans regarder l'écran.
Relire votre propre écriture en l'entendant prononcée.
Support d'accessibilité pour les utilisateurs malvoyants.

16. Écouteur de notifications Windows

L'écouteur de notifications est une fonctionnalité exclusive à l'édition complète qui capture les notifications toast de Windows et les lit à haute voix via TTS.

Prérequis

Windows Desktop Édition complète (non disponible dans l'édition Microsoft Store)
Permission d'accès aux notifications accordée dans les paramètres Windows

Comment ça marche

Activez l'écouteur de notifications en cliquant sur le bouton bascule.
Accordez l'accès aux notifications lorsque Windows vous le demande.
Lorsqu'une notification toast Windows arrive (e-mail, message de chat, rappel de calendrier), Talk to me extrait le titre et le corps de la notification et les lit à haute voix en utilisant votre configuration TTS.

Configuration

Activer/désactiver dans Paramètres → Mains libres
La voix et le fournisseur TTS suivent vos paramètres TTS globaux

17. Enregistrement & sauvegarde MP3 Windows

Enregistrer les lectures TTS

Lorsque cette option est activée, chaque synthèse TTS est automatiquement sauvegardée en tant que fichier MP3 avec une numérotation séquentielle (par ex. recording_001.mp3, recording_002.mp3).

Sauvegarder les enregistrements

Cliquez sur Sauvegarder les enregistrements pour ouvrir le dossier contenant tous les fichiers MP3 enregistrés. Vous pouvez configurer le répertoire d'enregistrement dans les Paramètres.

Note sur les permissions Android Android

La version Android de Talk to me nécessite plusieurs permissions système (Microphone, Overlay, Service d'accessibilité, Écouteur de notifications) — chacune avec sa propre boîte de dialogue de confirmation. Nous comprenons que cela peut sembler fastidieux.

Nous aurions préféré une expérience de configuration plus simple. Cependant, les politiques du Google Play Store et les directives de sécurité Android exigent que chaque permission sensible soit demandée individuellement, avec une divulgation claire expliquant à quoi sert la permission et à quoi elle ne sert pas. Ces flux de confirmation en plusieurs étapes ne sont pas notre choix de conception — ils sont imposés par les exigences de conformité de la plateforme.

Chaque permission n'est demandée que lorsque vous avez réellement besoin de la fonctionnalité, pas toutes en même temps lors de l'installation. Vous pouvez révoquer n'importe quelle permission à tout moment via les paramètres Android. L'application continuera de fonctionner — la fonctionnalité correspondante sera simplement désactivée.

Voici un résumé de toutes les permissions Android et pourquoi elles sont nécessaires :

Permission	Fonctionnalité	Obligatoire ?
Microphone	Dictée de reconnaissance vocale, Chat vocal IA	Oui — fonctionnalité principale
Affichage par-dessus d'autres applis	Bulle flottante (overlay mains libres)	Uniquement si vous utilisez l'overlay
Service d'accessibilité	Collage automatique du texte dans les champs de saisie des applis de chat	Uniquement si vous utilisez le collage automatique
Écouteur de notifications	Lecture automatique des messages entrants	Uniquement si vous utilisez la lecture automatique
Internet	Communication avec les fournisseurs d'IA	Oui — requis pour toutes les fonctionnalités

Merci pour votre compréhension. Nous prenons votre vie privée au sérieux — aucune de ces permissions n'est utilisée pour collecter, stocker ou transmettre des données personnelles. Voir Confidentialité et sécurité pour les détails complets.

18. Bulle flottante (Overlay) Android

La bulle flottante est une petite icône circulaire qui flotte au-dessus de toutes les autres applications, offrant un accès mains libres à la dictée sans changer d'application.

Activer l'overlay

Appuyez sur le bouton Overlay dans l'application principale.
Si la permission Android « Affichage par-dessus d'autres applis » n'est pas encore accordée, vous serez dirigé pour l'activer.
Une petite bulle Talk to me apparaît à l'écran.

Utiliser la bulle

Simple appui : Démarrer ou arrêter l'enregistrement. Bordure pulsante rouge pendant l'enregistrement, bordure pulsante bleue pendant la lecture TTS.
Triple appui : Test de lecture — lit un texte prédéfini pour confirmer que le TTS fonctionne.
Appui long : Vide la file d'attente des messages non lus.
Glisser : Déplacez la bulle n'importe où sur l'écran.

Pendant l'enregistrement via la bulle

Appuyez sur la bulle pour démarrer l'enregistrement.
Après la transcription, un toast « ✓ Inséré ! » confirme que le texte a été collé ou placé dans le presse-papiers.

Traduction et insertion automatique via la Bubble

La Bubble utilise la même logique de traduction que la fenêtre principale : si tes langues d'entrée et de sortie diffèrent, ta dictée est automatiquement traduite avant l'insertion. Voice Translate (lecture à voix haute) fonctionne aussi dans la Bubble.

Grâce au Service d'accessibilité Android, la Bubble insère le texte (éventuellement traduit) directement dans le champ de saisie actif. Dans toutes les apps grand public testées — WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest et Skool — l'insertion automatique fonctionne de manière fiable.

Si tu utilises une app très exotique où l'insertion automatique échoue, le texte déjà traduit se trouve dans le presse-papiers — un appui long sur le champ de saisie et « Coller » rend le texte visible.

Arrêter l'overlay

Appuyez à nouveau sur le bouton Overlay ou appuyez sur Arrêter dans la notification.

19. Collage automatique Android

Le collage automatique utilise le service d'accessibilité Android pour insérer automatiquement le texte dicté dans le champ de texte actuellement actif.

Activer le collage automatique

Appuyez sur le bouton Auto-Paste.
Une boîte de dialogue de divulgation explique ce que le service d'accessibilité fait et ne fait pas. Appuyez sur Activer le collage automatique.
Vous êtes dirigé vers les paramètres d'accessibilité Android. Trouvez Talk to me et activez-le.
Le bouton affiche maintenant ✓ avec une bordure cyan.

Bouton de raccourci d'accessibilité

Lors de l'activation du service d'accessibilité, Android vous demandera de choisir un raccourci d'activation. Cela détermine comment vous pouvez rapidement activer/désactiver le service :

Bouton d'accessibilité (recommandé) : Un petit bouton apparaît dans la barre de navigation. Appuyez dessus pour basculer le service.
Volume haut + Volume bas (maintenir 3 secondes) : Appuyez et maintenez les deux boutons de volume simultanément pendant 3 secondes pour basculer.

Nous recommandons l'option Bouton d'accessibilité pour la meilleure expérience. C'est une fonctionnalité standard du système Android — le choix n'affecte pas le fonctionnement du collage automatique.

Notes importantes

Nécessite la permission d'accessibilité Android (une permission sensible).
Peut nécessiter d'être réaccordée après les mises à jour de l'application.
Utilisée exclusivement pour l'insertion de texte — aucune autre donnée d'accessibilité n'est consultée.

Compatibilité des apps

Auto-Paste fonctionne de manière fiable dans la plupart des apps Android. Les apps suivantes ont été testées avec v0.5.159 :

App	Auto-Paste	Traduction
WhatsApp	✅	✅
Gmail (destinataire + corps)	✅	✅
Discord	✅	✅
Microsoft Teams	✅	✅
Viber	✅	✅
Chrome	✅	✅
ChatGPT	✅	✅
Facebook	✅	✅
Instagram	✅	✅
Pinterest	✅	✅
Skool (WebView dans Chrome)	✅	✅
Viber	✅	✅

« Accès à l'appli refusé » — Paramètres restreints (Android 13+)

Sur certains appareils, lors de l'activation du collage automatique ou de l'accès aux notifications, vous pouvez voir « Accès à l'appli refusé » ou « Pour votre sécurité, ce paramètre est actuellement indisponible. » Ce n'est pas un bug — c'est une fonctionnalité de sécurité d'Android 13+ appelée Paramètres restreints.

Fabricants concernés : Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.

Comment résoudre :

Ouvrez Android Paramètres → Applications → Voir toutes les applis → trouvez Talk to me.
Appuyez sur Talk to me pour ouvrir la page Infos sur l'appli (pas la sous-page Notifications).
Appuyez sur le menu à trois points (⋮) dans le coin supérieur droit.
Sélectionnez Autoriser les paramètres restreints.
Confirmez avec votre code PIN/empreinte digitale.
Retournez dans Paramètres → Accessibilité et activez Talk to me.

Astuce : Si le menu à trois points n'est pas visible, essayez d'abord d'activer la permission (déclenchant l'erreur), puis allez sur la page Infos sur l'appli — le menu devrait maintenant apparaître.

Xiaomi/MIUI/HyperOS : Allez dans Paramètres → Applications → Gérer les applis → Talk to me et faites défiler vers le bas.

Lenovo (ZUI) : Lorsque vous appuyez sur Applications dans les Paramètres, vous pouvez arriver sur la sous-page Notifications au lieu de Infos sur l'appli. Revenez en arrière et cherchez la page complète Infos sur l'appli avec les sections stockage, permissions et batterie.

20. Lecture automatique des messages Android

La lecture automatique lit les messages de chat entrants à haute voix via TTS — idéal pour conduire, cuisiner ou faire du sport.

Comment ça marche

Activez Auto-Read (icône casque).
Assurez-vous que l'accès aux notifications est accordé.
L'overlay doit être actif.
Lorsqu'un message arrive d'une application autorisée, Talk to me annonce l'expéditeur et lit le message à haute voix.

Applications de chat pré-sélectionnées

WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.

Vous pouvez ajouter ou supprimer des applications dans la configuration de lecture automatique des applications.

21. Accès aux notifications Android

L'accès aux notifications permet à Talk to me de lire les notifications entrantes, requis pour la lecture automatique des messages.

Accorder l'accès

Appuyez sur le bouton Notif Access.
Allez dans les paramètres d'écouteur de notifications Android.
Trouvez Talk to me et activez-le.
Le bouton affiche ✓ avec une bordure cyan.

Notes importantes

Permission au niveau système — ne traite que les notifications des applications explicitement autorisées.
Aucune donnée de notification n'est stockée, transmise ou enregistrée.

22. Configuration de la lecture automatique des applications Android

Contrôlez quelles applications sont autorisées à avoir leurs notifications lues à haute voix.

Applications de chat connues

Applications de messagerie pré-sélectionnées avec des bascules individuelles (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).

Rechercher et ajouter des applications personnalisées

Appuyez sur le champ de recherche et tapez un nom d'application.
Les applications installées correspondantes apparaissent, triées par pertinence.
Cochez la case pour ajouter une application.

Comment fonctionne le filtrage

Seules les notifications des applications autorisées sont lues à haute voix.
Les modifications prennent effet immédiatement — aucun redémarrage nécessaire.

23. Paramètres

Langue de l'interface

English, Deutsch, Français, Español — indépendante de la langue de votre système.

Préréglage de qualité

Préréglage	Fournisseur STT	Fournisseur LLM	Modèle	Correction
Top Performer	Scribe v2	OpenAI	GPT-5.4	Forte
Standard	Scribe v2	OpenAI	GPT-4.1 mini	Forte
Budget	Whisper	Groq	Par défaut	Légère
Free	Deepgram	Groq	Par défaut	Désactivée
Custom	Manuel	Manuel	Manuel	Manuel

Reconnaissance vocale

Fournisseur : OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
Custom Keyterms (Scribe uniquement) : Noms propres, marques, termes techniques
Langue : Détection automatique ou spécifique

Synthèse vocale

Fournisseur : ElevenLabs, OpenAI TTS, Deepgram Aura 2
Modèle (ElevenLabs) : Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5

Fournisseur LLM (Correction)

Fournisseur : OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Modèle : Par défaut du fournisseur ou spécifique
Intensité de la correction : Légère ou Forte

Fournisseur de traduction

Fournisseur séparé pour la traduction IA (peut différer du fournisseur de correction).

Correction IA / Traduction IA

Activez chacune indépendamment. Lorsque la traduction IA est activée :

Traduire vers : 20 langues cibles
Traduction vocale : Lecture automatique des traductions via TTS

Android Mains libres

Bascules rapides pour Overlay, Lecture automatique des messages, Collage automatique, Accès aux notifications.

Enregistrer et tester

Enregistrer tous les paramètres actuels — Persiste les modifications dans le stockage de l'appareil
Tester la configuration actuelle — Teste tous les fournisseurs configurés avec les temps de réponse

24. Corrections de mots

Les corrections de mots apprennent à Talk to me l'orthographe correcte des noms, marques et termes que la reconnaissance vocale ne transcrit pas correctement.

Ajouter des corrections

Ajout individuel

Entrez l'orthographe incorrecte et l'orthographe correcte, puis appuyez/cliquez sur Ajouter.

Import en masse

Entrez l'orthographe correcte, puis listez les variantes incorrectes (une par ligne). Utilisez Générer avec l'IA pour créer automatiquement les fautes d'orthographe probables.

Import multiple

Entrez les paires sous la forme incorrect;correct (une par ligne). Prend en charge les séparateurs ;, ->, virgule ou tabulation.

Comment fonctionnent les corrections

Pendant le post-traitement (étape 3 du Pipeline), les orthographes incorrectes sont automatiquement remplacées avant l'exécution de la correction IA.

25. Sauvegarde et restauration

Exporter les paramètres

Ouvrez Sauvegarde & restauration dans les Paramètres.
Appuyez/cliquez sur Exporter les paramètres.
Entrez et confirmez un mot de passe de chiffrement (min. 6 caractères).
Windows : La boîte de dialogue de sauvegarde suggère talktome-settings.ttm — vous choisissez le dossier.
Android : La sauvegarde est écrite dans votre zone de Téléchargements sous le nom TalkToMe-backup.ttm. Si ce nom existe déjà, le système peut ajouter (1), (2), etc. — tous sont des sauvegardes chiffrées valides.

Importer les paramètres

Appuyez/cliquez sur Importer les paramètres.
Automatique (Android) : L'application recherche le fichier correspondant le plus récent nommé TalkToMe-backup avec une extension .ttm (y compris TalkToMe-backup (1).ttm, etc.) dans le stockage de l'application et dans les Téléchargements.
Si le sélecteur de fichiers système s'ouvre : Sur de nombreux téléphones (par ex. Samsung), le premier écran est Utilisés récemment et peut afficher par défaut les Images — vos fichiers .ttm sont masqués jusqu'à ce que vous changiez le filtre supérieur sur Documents ou Cette semaine, ou que vous ouvriez directement le dossier Téléchargement.
Nouvel appareil : Copiez le .ttm depuis votre ancien appareil (USB, cloud, e-mail), puis utilisez Importer et sélectionnez ce fichier.
Entrez le mot de passe de chiffrement.
Tous les paramètres sont restaurés et l'application redémarre.

Détails techniques

Chiffrement : AES-256-GCM avec PBKDF2-HMAC-SHA256 (100 000 itérations)
Inclus : Tous les paramètres, clés API, corrections de mots, applications de lecture automatique, préréglage de qualité, langue de l'interface
NON inclus : Activation de la licence (liée au Machine ID)

26. Tableau de bord d'utilisation

Métrique	Description
STT Calls	Transcriptions de parole en texte effectuées
LLM Polish	Opérations de correction IA ou de traduction IA
TTS Synth	Opérations de synthèse vocale

Les compteurs sont cumulatifs depuis la dernière réinitialisation des paramètres.

27. Dépannage

Général

Problème	Solution
« Aucune clé API configurée »	Ajoutez une clé dans le Key Pool pour la fonctionnalité dont vous avez besoin
L'enregistrement ne démarre pas	Vérifiez la permission du microphone dans les paramètres système
La traduction vocale ne produit pas d'audio	Assurez-vous qu'une clé API TTS est configurée et fonctionnelle
L'export échoue	Vérifiez l'accès en écriture au dossier Téléchargements
Impossible de voir la sauvegarde dans le sélecteur de fichiers d'import	Passez de Images à Documents / Cette semaine, ou ouvrez le dossier Téléchargement — voir §25 Import

Windows Spécifique à Windows

Problème	Solution
Le raccourci Ctrl+Win ne fonctionne pas	Assurez-vous que l'application est en cours d'exécution (vérifiez la zone de notification)
Le texte n'est pas collé après la dictée	Assurez-vous que la fenêtre cible prend en charge Ctrl+V
L'écouteur de notifications est indisponible	Disponible uniquement dans l'édition complète (pas l'édition Store)
Le Mini-Player semble trop grand/petit	Le dimensionnement adapté au DPI s'ajuste automatiquement ; redémarrez l'application si les paramètres d'affichage ont changé

Android Spécifique à Android

Problème	Solution
La lecture automatique ne fonctionne pas	Assurez-vous que l'overlay est actif, la lecture automatique activée et l'accès aux notifications accordé
Le collage automatique ne fonctionne pas	Réactivez le service d'accessibilité dans les paramètres Android
La bulle n'apparaît pas	Accordez la permission « Affichage par-dessus d'autres applis »
« Accès à l'appli refusé » lors de l'octroi des permissions	Paramètres restreints (Android 13+) — voir §19 « Paramètres restreints » pour la solution étape par étape
L'écran ne pivote pas (Tablette)	Vérifiez si le mode PC est actif (déroulez les Paramètres rapides). La rotation automatique est ignorée en mode PC — repassez en mode Android. Affecte principalement les tablettes Lenovo (ZUI).

28. Confidentialité et sécurité

Traitement des données

Aucune collecte de données : Talk to me ne collecte, ne stocke et ne transmet aucune donnée utilisateur vers les serveurs de mrocon GmbH.
Communication API directe : L'audio et le texte vont directement de votre appareil vers le fournisseur IA de votre choix.
Stockage local uniquement : Tous les paramètres et clés API sont stockés exclusivement sur votre appareil.
Aucune analyse : Aucun suivi, analyse ou télémétrie d'aucune sorte.

Permissions

Windows

Permission	Fonction
Microphone	Enregistrer l'audio pour la dictée
Accès aux notifications	Lire les notifications (Édition complète)
Internet	Communiquer avec les fournisseurs d'IA

Android

Permission	Fonction
Microphone	Enregistrer l'audio pour la dictée
Overlay (Affichage par-dessus d'autres applis)	Afficher la bulle flottante
Écouteur de notifications	Lire les notifications pour la lecture automatique
Service d'accessibilité	Coller automatiquement le texte dans les champs
Internet	Communiquer avec les fournisseurs d'IA
Interroger les paquets installés	Afficher les noms d'applications dans les paramètres de lecture automatique

Chiffrement

Windows : Clés API chiffrées avec DPAPI (Windows Data Protection API)
Android : Clés API dans le stockage interne privé de l'application
Fichiers de sauvegarde : Chiffrement AES-256-GCM

Annexe A — Langues prises en charge

Langues d'entrée vocale

Détection automatique, allemand, anglais, français, espagnol, italien, portugais, néerlandais, japonais, coréen, chinois, russe, arabe, hindi, polonais, turc, suédois, ukrainien

Langues cibles de traduction

Allemand, anglais, français, espagnol, italien, portugais, néerlandais, japonais, chinois, coréen, russe, arabe, hindi, polonais, turc, suédois, ukrainien, danois, finnois, norvégien

Langues TTS

Auto, allemand, anglais, français, italien, espagnol, portugais, néerlandais, polonais, suédois, danois, finnois, norvégien, turc, japonais, coréen, chinois

Langues de l'interface

English, Deutsch, Français, Español

Annexe B — Fournisseurs pris en charge

Reconnaissance vocale

Fournisseur	Notes
OpenAI Whisper	Le plus utilisé, fiable
Deepgram Nova-2 / Nova-3	Rapide, bonne précision
ElevenLabs Scribe v2	Prend en charge les mots-clés personnalisés
Groq Whisper	Niveau gratuit disponible, rapide

LLM (Correction / Traduction)

Fournisseur	Notes
OpenAI	GPT-4o-mini, GPT-5.4, etc.
Groq	Niveau gratuit, modèles Llama
Anthropic	Modèles Claude
Google Gemini	Modèles Gemini
xAI Grok	Niveau gratuit disponible

Synthèse vocale

Fournisseur	Notes
ElevenLabs	Meilleure qualité, clonage vocal, 4 modèles
OpenAI TTS	6 voix intégrées, simple
Deepgram Aura 2	Synthèse rapide

Annexe C — Préréglages de qualité

Préréglage	STT	LLM	Modèle	Correction	Coût
Top Performer	Scribe v2	OpenAI	GPT-5.4	Forte	$$$
Standard	Scribe v2	OpenAI	GPT-4.1 mini	Forte	$$
Budget	Whisper	Groq	Par défaut	Légère	$
Free	Deepgram	Groq	Par défaut	Désactivée	Gratuit
Custom	Manuel	Manuel	Manuel	Manuel	Variable

Annexe D — Raccourcis clavier Windows

Raccourci	Action
Ctrl+Win	Démarrer / Arrêter l'enregistrement
Ctrl+Win (pendant le traitement)	Annuler le pipeline
Raccourci TTS	Lire le texte sélectionné à haute voix

Pour obtenir de l'aide, contactez team@talktome.studio ou visitez talktome.studio.

↑ Retour en haut