Talk to me — Manuel d'utilisation
Ce manuel couvre les éditions Windows Desktop et Android Hands-Free de Talk to me. Les sections marquées Windows ou Android s'appliquent uniquement à cette plateforme. Toutes les autres sections s'appliquent aux deux.
1. Introduction
Talk to me est un studio professionnel de dictée, traduction et interaction vocale disponible pour Windows Desktop et Android. Il convertit votre parole en texte, le peaufine avec l'IA, le traduit dans plus de 20 langues et vous le lit — le tout en temps réel.
L'application suit une architecture stricte BYOK (Bring Your Own Key) et Zero-Knowledge / Zero-Trust : vos clés API et vos données ne quittent jamais votre appareil.
Fonctionnalités clés
- Dictée en temps réel : Enregistrez votre voix et obtenez un texte peaufiné en quelques secondes.
- Correction IA : Correction automatique de la grammaire et suppression des mots parasites par le fournisseur IA de votre choix.
- Traduction en direct : Traduisez le texte dicté dans plus de 20 langues instantanément.
- Traduction vocale (Speech-to-Speech) : Votre texte traduit est automatiquement lu à haute voix dans la langue cible.
- Synthèse vocale : Convertissez n'importe quel texte en parole naturelle avec ElevenLabs, OpenAI TTS ou Deepgram.
- Immersion linguistique en direct : Parlez dans votre langue maternelle, voyez et entendez instantanément le résultat dans la langue que vous souhaitez maîtriser.
- Corrections de mots : Apprenez à l'application vos noms, marques et termes que la reconnaissance vocale ne transcrit pas correctement.
- Sauvegarde chiffrée : Exportez tous les paramètres et clés API dans un fichier chiffré protégé par mot de passe.
- Support multi-fournisseurs : Choisissez parmi OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram et plus encore.
Points forts par plateforme
| Fonctionnalité | Windows Desktop | Android Hands-Free |
|---|---|---|
| Mini-Player (mode compact) | ✓ | — |
| Raccourcis globaux (Ctrl+Win) | ✓ | — |
| Lecture auto (extraction de texte Ctrl+C) | ✓ | — |
| Écouteur de notifications (Édition complète) | ✓ | — |
| Enregistrement & sauvegarde MP3 | ✓ | — |
| Pastille flottante (analyseur de spectre) | ✓ | — |
| Bulle flottante (Overlay) | — | ✓ |
| Collage automatique (Accessibilité) | — | ✓ |
| Lecture automatique des messages (depuis les applis de chat) | — | ✓ |
| Accès aux notifications au niveau des applications | — | ✓ |
Principes de sécurité
- Zero-Knowledge : Talk to me ne stocke, ne transmet et n'a jamais accès à vos clés API sur aucun serveur. Toutes les clés sont stockées localement sur votre appareil.
- Zero-Trust : L'application ne contacte jamais nos serveurs. Aucune analyse, aucun suivi, aucune télémétrie. Vos données de dictée vont directement de votre appareil vers le fournisseur IA de votre choix et nulle part ailleurs.
- BYOK : Vous apportez vos propres clés API des fournisseurs en qui vous avez confiance. Talk to me ne revend pas l'accès aux API.
2. Premiers pas
Windows Installation — Windows Desktop
Talk to me pour Windows est disponible en tant qu'installateur signé EV depuis talktome.studio ou via le Microsoft Store.
Configuration requise :
- Windows 10 ou ultérieur (64 bits)
- Une connexion Internet active
- Au moins une clé API d'un fournisseur pris en charge
L'installateur est signé numériquement avec un certificat Extended Validation (EV) de Certum (mrocon GmbH). Windows SmartScreen n'affichera aucun avertissement.
Android Installation — Android
Talk to me pour Android est disponible en tant qu'APK depuis talktome.studio ou via le Google Play Store.
Configuration requise :
- Android 8.0 ou ultérieur
- Une connexion Internet active
- Au moins une clé API d'un fournisseur pris en charge
Premier lancement
Lorsque vous ouvrez Talk to me pour la première fois, vous verrez le portail de licence. Vous avez deux options :
- Entrer une clé de licence pour débloquer immédiatement l'application complète.
- Démarrer un essai gratuit de 7 jours pour explorer toutes les fonctionnalités sans clé de licence.
Après l'activation ou le début de l'essai, l'application se charge et vous pouvez commencer à l'utiliser immédiatement — à condition d'avoir au moins une clé API configurée (voir Key Pool).
Android Démarrage rapide — Vos 5 premières minutes
Après avoir activé votre licence (ou démarré l'essai gratuit), l'application s'ouvre et vous verrez l'écran principal — le Cockpit. Ne vous inquiétez pas si la plupart des boutons apparaissent en orange ou inactifs. C'est tout à fait normal ! Voici ce qu'il faut faire, étape par étape :
Étape 1 — Activer l'accès au microphone
Le grand bouton au centre de l'écran affiche « Activer l'accès au microphone ». C'est la première et la plus importante étape.
- Appuyez sur le bouton Activer l'accès au microphone.
- Une boîte de dialogue de Talk to me explique pourquoi le microphone est nécessaire. Appuyez sur OK.
- Android demande ensuite : « Autoriser Talk to me à enregistrer de l'audio ? » — appuyez sur Pendant l'utilisation de l'appli (ou Autoriser).
- Terminé ! Le bouton change en « Prêt — Démarrer la dictée » en vert. Vous pouvez maintenant enregistrer votre première dictée.
Étape 2 — Ajouter vos clés API
En bas de l'écran, vous verrez la barre Key Pool — affichant probablement des libellés rouges comme STT 0/5, LLM 0/5, TTS 0/5. Cela signifie qu'aucune clé API n'est encore configurée. Sans clés, l'application ne peut pas se connecter aux services d'IA.
- Appuyez sur l'un des libellés Key Pool (par ex. STT) pour ouvrir la section Key Pool.
- Appuyez sur Ajouter une clé et collez une clé API de votre fournisseur (par ex. OpenAI, Deepgram, ElevenLabs).
- Appuyez sur Enregistrer. Le libellé devient vert lorsqu'une clé valide est enregistrée.
- Répétez pour chaque catégorie que vous souhaitez utiliser. Au minimum, vous avez besoin d'une clé STT (pour la dictée). Pour la correction IA, ajoutez une clé LLM. Pour la synthèse vocale, ajoutez une clé TTS.
Voir §11 Key Pool pour un guide détaillé sur les fournisseurs pris en charge et comment obtenir des clés API.
Étape 3 — Fonctionnalités optionnelles (boutons du Cockpit)
Les boutons au centre du Cockpit contrôlent les fonctionnalités optionnelles. Chacun nécessite une permission système lors de la première activation. Vous verrez une courte boîte de dialogue d'explication de Talk to me, suivie de la boîte de dialogue système Android. Les deux sont normales et peuvent être confirmées en toute sécurité.
| Bouton | Fonction | Détails |
|---|---|---|
| Auto-Paste | Colle automatiquement votre texte dicté dans l'application que vous utilisiez (par ex. WhatsApp, e-mail). Aucun copier-coller manuel nécessaire. | §19 |
| Notif Access | Permet à l'application de lire les notifications entrantes pour vous les lire automatiquement. | §21 |
| Auto-Read | Lit les messages entrants à haute voix par synthèse vocale — idéal pour une utilisation mains libres en conduisant ou en cuisinant. | §20 |
| Overlay | Affiche une petite bulle flottante sur votre écran. Appuyez dessus pour démarrer/arrêter la dictée depuis n'importe quelle application — sans revenir à Talk to me. | §18 |
Vous n'avez pas besoin de tout cela immédiatement. Commencez avec la dictée (étapes 1 + 2), et activez les extras quand vous êtes prêt. Chaque fonctionnalité peut être activée ou désactivée à tout moment.
Free & Paid Tier Overview
Talk to me is a BYOK app (Bring Your Own Key). You use your own API keys from AI providers. Many providers offer generous free tiers — from $200 Deepgram credit to unlimited Gemini usage to free Grok and Groq keys. This means you can use Talk to me for months before any API costs arise.
Tier 1 — Completely Free (no money, no credit card)
| What you need | What you get | How to get it |
|---|---|---|
| 1× Deepgram account (free) | Speech-to-Text dictation (STT) | deepgram.com → Sign up → $200 starter credit |
| 1× Gemini API key (free) | AI Voice Chat (Gemini Live) | aistudio.google.com → Create API Key |
What you can do:
- Dictate with Deepgram Nova-3 (preset “Free”) — no LLM polish, but solid transcription
- AI Voice Chat via the Gemini Live tab — real-time voice conversation with sub-second latency, 30 voices, 24 languages
How long does it last?
| Feature | Credit / Limit | Lasts for |
|---|---|---|
| Deepgram STT | $200 starter credit (never expires) | ~43,000 min (~716 hours) transcription |
| Gemini Live Voice Chat | Free API key (no credit limit) | Unlimited (rate limit: ~10 sessions/min) |
| Gemini LLM (for Polish) | Free API key | 250 requests/day (Flash model) |
Reality: With these two free accounts you can use Talk to me productively for months. During intensive daily testing, only $19 of $200 Deepgram credit was used after weeks.
Tier 2 — Free with More Power (additional free keys)
| What you need | What it adds | Cost |
|---|---|---|
| + 1× xAI account | Grok-3-Mini as LLM for Polish + Translation | Free ($25 starter credit + up to $150/month with data sharing) |
| + 1× Groq account | Ultra-fast LLM for Polish (Llama models) | Free (1,000 requests/day, no credit card) |
Unlocked presets:
| Preset | STT | LLM / Polish | All keys free? |
|---|---|---|---|
| Free | Deepgram Nova-3 | — | Yes (1 key) |
| Free xAI | Deepgram Nova-3 | xAI Grok | Yes (2 keys) |
| Free Gemini | Deepgram Nova-3 | Google Gemini | Yes (2 keys) |
| Fast Free | OpenAI Whisper | Groq Llama | Yes (2 keys) |
| Economy | Deepgram Nova-3 | Groq Llama | Yes (2 keys) |
| Economy Plus | Deepgram Nova-3 | Groq Llama (Strong Polish) | Yes (2 keys) |
Also unlocked:
- Deepgram Voice Agent with 20+ managed presets (uses your $200 credit, $0.05–0.16/min)
- Full BYO Voice Agent Presets (e.g. GPT-5.4 + ElevenLabs, if you have the keys)
Tier 3 — Premium Quality (paid keys)
For the absolute best quality, you need paid API keys:
| Provider | Used for | Cost | What you get |
|---|---|---|---|
| OpenAI | GPT-5.4 (best LLM for Polish) | Pay-per-use (~$5–15/month) | Perfect grammar, style, translation |
| ElevenLabs | Scribe v2 (best STT) + TTS | From $5/month (Starter) | Best transcription, premium voices |
| Anthropic | Claude 4.6 Sonnet (top LLM) | Pay-per-use | Excellent text quality for longer texts |
API Key Cost Overview
| Provider | Sign up | Starter credit | Ongoing cost | Credit card? |
|---|---|---|---|---|
| Deepgram | Free | $200 (never expires!) | From $0.0043/min STT | No |
| Google Gemini | Free | Unlimited (rate-limited) | $0.005–0.018/min (Live Audio) | No |
| xAI (Grok) | Free | $25 + up to $150/month | From $0.10/1M tokens | No |
| Groq | Free | Unlimited (rate-limited) | 1,000 requests/day free | No |
| OpenAI | Free | $5 (expires after 3 months) | From $0.15/1M tokens | Yes (for GPT-5+) |
| Anthropic | Free | $5 (expires after 30 days) | From $1.00/1M tokens | Yes |
| ElevenLabs | Free | 10,000 chars/month | From $5/month (Starter) | Yes |
Recommended Start (3 minutes, $0 cost)
- Create Deepgram account → deepgram.com → Sign up → Copy API Key
- Create Gemini API key → aistudio.google.com → “Create API Key” → Copy key
- Enter keys in Talk to me → Settings → LLM Key Pool
- Go: Dictation tab → preset “Free Gemini” → Dictate with STT + AI Polish. Gemini Live tab → “Start Conversation” → Real-time voice chat with AI.
Optional for even more:
- xAI account → x.ai/api → Sign up → API Key → Enter in Key Pool → preset “Free xAI”
- Groq account → console.groq.com → Sign up → API Key → presets “Economy” / “Economy Plus” / “Fast Free”
Feature Availability by Tier
| Feature | Tier 1 (free) | Tier 2 (free+) | Tier 3 (premium) |
|---|---|---|---|
| Speech dictation (STT) | ✓ Deepgram | ✓ Deepgram + Whisper | ✓ + ElevenLabs Scribe v2 |
| AI Polish (grammar) | — | ✓ Grok/Gemini/Groq | ✓ + GPT-5.4 / Claude 4.6 |
| Real-time translation | — | ✓ (all LLM providers) | ✓ (best quality) |
| Gemini Live Voice Chat | ✓ (unlimited) | ✓ (unlimited) | ✓ (unlimited) |
| Deepgram Voice Agent | — | ✓ (from $200 credit) | ✓ (all presets) |
| BYO Voice Agent Presets | — | ✓ (with xAI/Groq keys) | ✓ (+ ElevenLabs/OpenAI TTS) |
| Available presets | 2 | 6+ dictation + 20+ Voice Agent | All (30+) |
All prices and free tier conditions are set by the respective providers and may change. Last updated: April 2026.
3. Activation de la licence
Le portail de licence
Au premier lancement (ou après l'expiration de l'essai), le portail de licence s'affiche. Il montre :
- Le logo Talk to me
- Un champ de texte pour votre clé de licence (format :
TTM-XXXX-XXXX-XXXX-XXXX) - Votre Machine ID (un identifiant unique de l'appareil, nécessaire pour l'activation)
- Un bouton Activer
- Un bouton Démarrer l'essai gratuit de 7 jours (si aucun essai n'a été utilisé)
- Des liens vers Acheter une licence et le Portail client
Activer une licence
- Entrez votre clé de licence dans le champ de texte.
- Appuyez/cliquez sur Activer.
- L'application vérifie votre clé en ligne et l'active pour cet appareil.
- Une fois activée, vous ne verrez plus le portail de licence sauf si vous désactivez ou si votre licence expire.
L'essai gratuit
- Appuyez/cliquez sur Démarrer l'essai gratuit de 7 jours pour débloquer toutes les fonctionnalités pendant 7 jours.
- Une bannière en haut de l'application indique combien de jours d'essai il reste.
- Après 7 jours, l'essai expire et le portail de licence réapparaît.
Fenêtre de licence
Une fois dans l'application, vous pouvez consulter l'état de votre licence en cliquant sur le bouton Licence (icône bouclier). La fenêtre de licence affiche :
- Statut : Active, Essai, Période de grâce ou Expirée
- Produit : Le nom du produit de votre licence
- Forfait : Annuel ou à vie
- Expire : Date d'expiration (ou « À vie »)
- Appareils : Nombre d'appareils actifs / maximum autorisé
- Clé : Votre clé de licence (partiellement masquée)
- Machine ID : L'identifiant unique de votre appareil
Depuis cette fenêtre, vous pouvez :
- Désactiver l'appareil — libère la licence de cet appareil pour que vous puissiez l'utiliser sur un autre
- Fermer — retourner à l'application
4. Aperçu de l'application
L'application est organisée en trois onglets principaux et plusieurs sections complémentaires :
Navigation
En haut de l'écran, trois onglets vous permettent de basculer entre les modes principaux de l'application :
- Reconnaissance vocale — Enregistrez votre voix et obtenez un texte peaufiné et traduit
- Synthèse vocale — Convertissez du texte écrit en audio parlé
- Chat vocal IA — Ayez des conversations vocales en temps réel avec l'IA (voir §12)
Disposition de l'interface
Sous les onglets, l'interface principale est organisée verticalement :
- Contrôles de remplacement rapide — Sélecteurs de langue pour l'entrée et la sortie
- Boutons d'action — Accès rapide aux fonctionnalités de la plateforme
- Indicateur d'état — Affiche l'état actuel (Prêt, Enregistrement, Transcription, etc.)
- Affichage du Pipeline — Progression visuelle de votre dictée à travers les étapes de traitement
- Zone de résultat — Votre texte transcrit/traduit
- Panneau TTS (onglet Synthèse vocale uniquement) — Saisie de texte et contrôles de lecture
- Panneau Chat vocal IA (onglet Chat vocal IA uniquement) — Sélection de voix/persona, contrôles de conversation, transcription en direct (voir §12)
- Key Pool — Gérez vos clés API
- Paramètres — Toutes les options de configuration
Boutons d'action
Windows Boutons d'action du bureau :
- Traduction vocale — Activer/désactiver la traduction parole-à-parole
- Écouteur de notifications — Activer/désactiver la lecture des notifications (Édition complète)
- Lecture automatique — Activer/désactiver la synthèse vocale Ctrl+C
- Enregistrer les lectures TTS — Activer/désactiver l'enregistrement MP3 de la sortie TTS
- Sauvegarder les enregistrements — Ouvrir le dossier des enregistrements
Android Boutons d'action :
- Licence — Ouvrir la fenêtre de licence
- Traduction vocale — Activer/désactiver la traduction parole-à-parole
- Overlay — Démarrer/arrêter la bulle flottante
- Collage automatique — Ouvrir les paramètres d'accessibilité
- Lecture automatique — Activer/désactiver la lecture automatique des messages
- Accès aux notif. — Ouvrir les paramètres de l'écouteur de notifications
Le bouton Info
Dans l'en-tête, le bouton Info ouvre la fenêtre d'informations de l'application, qui affiche :
- Un lien vers talktome.studio
- L'adresse e-mail du support (appuyez/cliquez pour copier)
- La version actuelle de l'application
- Le nombre de microphones détectés
5. Reconnaissance vocale
L'onglet Reconnaissance vocale est le mode principal de Talk to me. Ici, vous enregistrez votre voix et recevez un texte peaufiné, éventuellement traduit.
Enregistrer une dictée
- Assurez-vous que l'état affiche Prêt — Démarrer la dictée (vert).
- Cliquez/appuyez sur le grand bouton Démarrer la dictée.
- Le bouton devient rouge et affiche Arrêter l'enregistrement. Parlez clairement.
- Pendant l'enregistrement, vous pouvez voir : la durée de l'enregistrement en secondes, le niveau audio affichant le volume d'entrée, le fournisseur STT actif et la langue.
- Cliquez/appuyez à nouveau sur le bouton pour arrêter l'enregistrement.
Windows Vous pouvez également démarrer/arrêter l'enregistrement à l'aide du raccourci global Ctrl+Win (pas besoin de mettre la fenêtre de l'application au premier plan).
Que se passe-t-il après l'enregistrement
Après avoir arrêté l'enregistrement, l'application traite votre audio à travers le Pipeline (voir Le Pipeline) :
- Capture — L'enregistrement audio est finalisé
- STT — Votre audio est transcrit par le fournisseur sélectionné
- Post-traitement — Le texte brut est nettoyé (corrections de mots appliquées)
- Correction / Traduction — Si activée, l'IA corrige la grammaire ou traduit le texte
- Injection — Le texte final est placé dans votre presse-papiers
Windows Le texte est automatiquement collé dans la fenêtre précédemment active via un Ctrl+V simulé (injection intelligente du presse-papiers).
Android Si le collage automatique est activé, le texte est automatiquement inséré dans le champ de texte actif via le service d'accessibilité.
La zone de résultat
Après le traitement, votre texte apparaît dans la zone de résultat. Un message confirme que le texte a été copié dans votre presse-papiers et est prêt à être collé.
Signaux d'enregistrement (Audio Cues)
Talk to me te signale de manière acoustique et visuelle quand le microphone enregistre réellement — pour qu'aucun mot ne soit perdu.
Signaux acoustiques
- Bip de démarrage (court bip aigu) : « Le microphone est actif, tu peux parler. »
- Bip d'arrêt (court bip grave) : « Enregistrement terminé. »
Les deux bips peuvent être activés/désactivés dans les paramètres et leur volume est réglable (par défaut : 100 %).
Signaux visuels
- Veille : L'icône du microphone est orange — enregistrement inactif.
- Enregistrement actif : L'icône du microphone est verte — chaque mot prononcé est capturé.
Remarque : bip de démarrage sur les haut-parleurs USB
Certains appareils audio suppriment le bip de démarrage. Ce n'est pas un bug mais une caractéristique matérielle :
| Type d'appareil | Bip audible ? | Recommandation |
|---|---|---|
| Haut-parleurs + microphone séparé | ✅ Oui | — |
| Casque avec micro + écouteur séparés | ✅ Oui | — |
| Haut-parleur USB (Jabra Speak2, Logitech P710e etc.) | ⚠️ Peut-être pas | Utiliser un casque ou des haut-parleurs externes |
| Casque Bluetooth en profil Hands-Free | ⚠️ Peut-être pas | Casque filaire comme alternative |
Important : Si tu changes le périphérique audio par défaut, redémarre Talk to me pour que le bip soit joué sur le nouveau périphérique.
6. Synthèse vocale
L'onglet Synthèse vocale vous permet de convertir n'importe quel texte écrit en parole naturelle.
Utilisation de base
- Basculez sur l'onglet Synthèse vocale.
- Tapez ou collez du texte dans la zone de texte.
- Cliquez/appuyez sur Lire à haute voix pour démarrer la lecture.
Contrôles de lecture
- Pause — Interrompt temporairement la lecture
- Reprendre — Continue là où vous avez mis en pause
- Arrêter — Arrête complètement la lecture
- Rejouer — Rejoue le même audio sans re-synthèse
Sélection du fournisseur et de la voix
- ElevenLabs : Choisissez parmi vos voix disponibles ou utilisez « Default (Brian v3) ». Voice-ID personnalisés pris en charge.
- OpenAI TTS : Nova, Alloy, Echo, Fable, Onyx, Shimmer
- Deepgram Aura 2 : Synthèse rapide
Sélection du modèle (ElevenLabs)
| Modèle | Limite de caractères | Idéal pour |
|---|---|---|
| Eleven v3 | 5 000 | Qualité maximale, contenu court |
| Multilingual v2 | 10 000 | Support multilingue |
| Flash v2.5 | 40 000 | Synthèse rapide, textes longs |
| Turbo v2.5 | 40 000 | Équilibre vitesse et qualité |
Qualité audio
| Qualité | Description |
|---|---|
| MP3 192 kbps | Qualité créateur — fidélité maximale |
| MP3 128 kbps | Standard — bon équilibre |
| MP3 64 kbps | Compact — taille de fichier réduite |
| MP3 32 kbps | Minimal — qualité la plus basse |
Normalisation du texte
| Paramètre | Description |
|---|---|
| Auto | Le modèle décide comment traiter les nombres |
| Toujours activé | Les nombres sont convertis en mots (par ex. « 42 » → « quarante-deux ») |
| Désactivé | Aucune normalisation appliquée |
Réglage fin de la voix (ElevenLabs)
| Curseur | Plage | Description |
|---|---|---|
| Stability | Variable ↔ Stable | Plus bas = plus expressif ; Plus haut = plus cohérent |
| Similarity | Créatif ↔ Original | Degré de correspondance avec la voix originale |
| Style | Neutre ↔ Expressif | Niveau d'expression émotionnelle |
| Speed | Lent (0.7×) ↔ Rapide (1.2×) | Vitesse de lecture |
Options supplémentaires
- Code-Filter : Supprime les blocs de code et la syntaxe technique avant la synthèse.
- Auto-Record : Sauvegarde automatiquement l'audio synthétisé. Appuyez sur l'icône de dossier pour choisir le répertoire.
- Speaker Boost : Améliore la clarté de la voix (ElevenLabs uniquement).
7. Le Pipeline
Le Pipeline est le moteur de traitement central de Talk to me. Il visualise les étapes que votre audio traverse de l'enregistrement à la sortie finale.
Étapes du Pipeline
| Étape | Libellé | Description |
|---|---|---|
| 1 | Capture | Enregistrement et finalisation audio |
| 2 | STT | Transcription de la parole en texte |
| 3 | Post | Post-traitement (nettoyage, corrections de mots) |
| 4 | Polish ou Trans | Correction IA ou traduction IA |
| 5 | Inject | Texte copié dans le presse-papiers / collé automatiquement |
Indicateurs TDF (champ d'affichage du texte)
Chaque étape du pipeline affiche le fournisseur actif (par ex. « Scribe v2 », « GPT-5.4 ») et les informations de timing après l'achèvement.
Affichage du timing
Après le traitement, une ligne de timing affiche :
STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s
Si la traduction vocale est active, un timing supplémentaire S2S (Speech-to-Speech) est affiché.
8. Traduction vocale
La traduction vocale combine la traduction IA avec la synthèse vocale pour créer une expérience de traduction parole-à-parole en temps réel.
Nouveau depuis v0.5.150 : La traduction de texte est désormais automatiquement active dès que ta langue d'entrée (Speech Input) et ta langue de sortie (Text Output) diffèrent. Tu n'as plus besoin d'un bouton séparé pour la traduction. Le bouton Voice Translate ne contrôle plus que la lecture à voix haute du texte final (sortie Text-to-Speech).
Exemples
- Entrée allemand, sortie anglais, Voice Translate désactivé → Le texte est automatiquement traduit, mais uniquement placé dans le presse-papiers.
- Entrée allemand, sortie anglais, Voice Translate activé → Le texte est traduit et lu à voix haute en anglais.
- Entrée allemand, sortie allemand, Voice Translate activé → Pas de traduction, mais le texte allemand est lu à voix haute (TTS classique).
Comment ça marche
- Activez Traduction vocale (violet lorsqu'actif).
- Enregistrez une dictée dans votre langue source.
- L'application transcrit → traduit → lit la traduction à haute voix.
Configuration
- Langue cible : Définie dans Paramètres → Traduction IA → Traduire vers
- Voix TTS : Utilise le fournisseur et la voix TTS configurés
Cas d'utilisation
- Voyage : Parlez dans votre langue, faites lire la traduction à haute voix.
- Apprentissage des langues : Écoutez comment votre texte sonne dans une autre langue.
- Immersion linguistique en direct : Transformez vos propres pensées en fluidité en direct — parlez dans votre langue maternelle et absorbez le résultat dans la langue que vous souhaitez maîtriser.
9. Correction IA & traduction
Correction IA
Lorsqu'elle est activée, la correction IA corrige la grammaire, la ponctuation et (avec le réglage « Fort ») supprime les mots parasites comme « euh », « ben », « en fait », « du coup ».
Intensité de la correction :
- Légère — Correction de la grammaire et de la ponctuation uniquement
- Forte — Supprime également les mots parasites
Indicateurs d'état :
- POLISH (cyan) — Actif
- OFF — Désactivé
- KEY MISSING (jaune) — Aucune clé LLM configurée
Traduction IA
Lorsqu'elle est activée, votre texte dicté est traduit dans la langue cible.
Indicateurs d'état :
- TRANSLATE (cyan) — Actif, affichant la langue cible
- VOICE OUTPUT (violet) — Traduction vocale également active
- TEXT ONLY — Traduction sans sortie vocale
- OFF — Désactivé
Remarque : Depuis v0.5.150, Talk to me détecte automatiquement quand les langues d'entrée et de sortie diffèrent et active la traduction — sans bouton explicite. Le KI-Polish reste disponible indépendamment et n'est plus automatiquement désactivé.
10. Contrôles de remplacement rapide
Les contrôles de remplacement rapide vous permettent de changer temporairement la langue d'entrée ou de sortie pour une seule dictée sans modifier vos paramètres enregistrés.
Remplacement de l'entrée vocale
Sélectionnez une langue d'entrée différente pour le prochain enregistrement :
- Détection automatique — Le fournisseur STT détecte la langue automatiquement
- Langues individuelles (voir Annexe A)
Remplacement de la sortie texte
Sélectionnez une langue de sortie différente (équivalent à activer temporairement la traduction) :
- Par défaut (identique à l'entrée) — Pas de traduction
- Les 20 langues de traduction
Réinitialiser aux paramètres
Lorsqu'un remplacement est actif, un bouton Réinitialiser (icône ↩) apparaît. Appuyez/cliquez dessus pour revenir à vos paramètres enregistrés.
11. Key Pool
Le Key Pool est l'endroit où vous gérez vos clés API. Talk to me utilise une architecture basée sur un pool — vous pouvez ajouter plusieurs clés par catégorie, et l'application alterne automatiquement entre elles en fonction des scores de confiance.
Catégories
| Catégorie | Fonction | Fournisseurs pris en charge |
|---|---|---|
| Speech-to-Text | Transcription | OpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper |
| AI-Polish / LLM | Grammaire, traduction | OpenAI, Groq, Anthropic, Google Gemini, xAI Grok |
| Text-to-Speech | Synthèse vocale | ElevenLabs, Deepgram, OpenAI TTS |
Ajouter une clé
- Développez la section Key Pool.
- Cliquez/appuyez sur + Ajouter une clé dans la catégorie souhaitée.
- Sélectionnez le Fournisseur.
- Entrez un Libellé (par ex. « Ma clé OpenAI »).
- Entrez votre clé API.
- Cliquez/appuyez sur Enregistrer la clé.
Fonctionnalités de l'emplacement de clé
Chaque emplacement de clé affiche :
- Libellé et Fournisseur
- Clé masquée (4 derniers caractères visibles)
- Score de confiance — Code couleur (vert/jaune/rouge)
- Statistiques — Appels, succès, échecs, limites de débit
Actions par emplacement :
- Tester — Vérifier que la clé fonctionne
- Suspendre / Activer — Désactiver ou réactiver temporairement
- Supprimer — Supprimer définitivement
Système de confiance
| Niveau | Score | Couleur | Comportement |
|---|---|---|---|
| Excellent | ≥80% | Vert | Préféré |
| Bon | ≥60% | Vert | Normal |
| Correct | ≥40% | Jaune | Secours |
| Faible | ≥20% | Jaune | Rarement utilisé |
| Critique | <20% | Rouge | Dernier recours |
Les clés qui atteignent les limites de débit sont placées en cooldown automatique pendant que les autres clés sont utilisées.
12. Chat vocal IA
Talk to me inclut deux moteurs de chat vocal IA indépendants, chacun avec ses propres points forts. Vous pouvez basculer entre eux à tout moment depuis l'onglet Chat IA.
| Moteur | Technologie | Avantage clé |
|---|---|---|
| 12a. Deepgram Voice Agent | Deepgram Agent API (WebSocket) | 32+ préréglages, 6 fournisseurs LLM, 4 fournisseurs TTS, surveillance de la latence, modes géré & BYO |
| 12b. Gemini 3.1 Flash Live | Google Gemini Live API (WebSocket) | 30 voix expressives, préréglages de persona, contrôle de la profondeur de réflexion, IA multimodale Google native |
Mode haut-parleur mains libres complet (Android)
Les deux moteurs de chat vocal fonctionnent entièrement en mains libres via le haut-parleur de votre téléphone. Talk to me utilise une annulation d’écho acoustique (AEC) propriétaire via un pont natif Android pour séparer votre voix de la sortie haut-parleur de l’IA. Interrompez à tout moment — l’IA s’arrête immédiatement et reprend là où vous le souhaitez. Aucun casque ni équipement supplémentaire requis. Les utilisateurs de bureau avec n’importe quelle configuration standard fonctionnent tout aussi bien.
12a. Deepgram Voice Agent
Le Deepgram Voice Agent fournit des conversations vocales IA en temps réel, en full-duplex, via une seule connexion WebSocket à l’API Deepgram Agent. Il orchestre la reconnaissance vocale (STT), les modèles de langage (LLM) et la synthèse vocale (TTS) dans un pipeline unifié — vous parlez, l’IA réfléchit et répond avec une voix naturelle, le tout en temps réel.
Démarrage
- Passez à l’onglet AI Chat, puis sélectionnez le sous-onglet Deepgram.
- Ajoutez une clé API Deepgram dans le Key Pool (faites défiler jusqu’à la section « Deepgram Voice Agent »).
- Choisissez un préréglage de configuration ou configurez manuellement.
- Appuyez sur le bouton vert Démarrer la conversation.
Préréglages de configuration (32+ options)
Talk to me est livré avec plus de 32 préréglages répartis en six catégories. Chaque préréglage préconfigure le modèle STT, le fournisseur/modèle LLM, le fournisseur/voix TTS et les paramètres de détection de tour de parole.
Top Tier — Meilleure qualité
| Préréglage | LLM | TTS | STT |
|---|---|---|---|
| Gemini 3.0 Pro + Sonic-3 | Google Gemini 3.0 Pro | Cartesia Sonic-3 | Nova-3 |
| Claude 4.5 + Sonic-3 | Anthropic Claude Sonnet 4.5 | Cartesia Sonic-3 (Tessa) | Nova-3 |
| Claude 4.6 + Sonic-3 | Anthropic Claude Sonnet 4.6 | Cartesia Sonic-3 (Katie) | Nova-3 |
| GPT-5.4 + Sonic-3 | OpenAI GPT-5.4 | Cartesia Sonic-3 (Katie) | Nova-3 |
| GPT-5.4 + Kiefer | OpenAI GPT-5.4 | Cartesia Sonic-3 (Kiefer, Male) | Nova-3 |
Ultra-Fast — Latence la plus basse (~1,1s)
| Préréglage | LLM | TTS | STT |
|---|---|---|---|
| GPT-4o Mini + Sonic-3 | OpenAI GPT-4o Mini | Cartesia Sonic-3 | Nova-3 |
| GPT-5.4 Nano + Sonic-3 | OpenAI GPT-5.4 Nano | Cartesia Sonic-3 | Nova-3 |
| Haiku 4.5 + Sonic-3 | Anthropic Claude Haiku 4.5 | Cartesia Sonic-3 | Nova-3 |
| Gemini 2.5 Flash + Sonic-3 | Google Gemini 2.5 Flash | Cartesia Sonic-3 | Nova-3 |
| Nemotron 49B + Sonic-3 | NVIDIA Nemotron Super 49B | Cartesia Sonic-3 | Nova-3 |
Flux — Anglais uniquement, latence ultra-basse
Flux utilise le modèle Flux STT de Deepgram avec une détection de fin de tour agressive pour les temps de réponse les plus rapides. Anglais uniquement.
| Préréglage | LLM | TTS |
|---|---|---|
| Flux + GPT-4o Mini + Sonic-3 | OpenAI GPT-4o Mini | Cartesia Sonic-3 |
| Flux + GPT-5.4 Nano + Sonic-3 | OpenAI GPT-5.4 Nano | Cartesia Sonic-3 |
| Flux + GPT-5.4 + Sonic-3 | OpenAI GPT-5.4 | Cartesia Sonic-3 |
| Flux + Claude 4.6 + Sonic-3 | Anthropic Claude 4.6 | Cartesia Sonic-3 |
| Flux + Gemini Flash + Sonic-3 | Google Gemini 2.5 Flash | Cartesia Sonic-3 |
Équilibré — Qualité + Rapidité
| Préréglage | LLM | TTS |
|---|---|---|
| GPT-5 Mini + Sonic-3 | OpenAI GPT-5 Mini | Cartesia Sonic-3 |
| GPT-4.1 Mini + Sonic-3 | OpenAI GPT-4.1 Mini | Cartesia Sonic-3 |
| Haiku 4.5 + Tessa | Anthropic Haiku 4.5 | Cartesia Sonic-3 (Tessa) |
| Gemini 3.0 Flash + Sonic-3 | Google Gemini 3.0 Flash | Cartesia Sonic-3 |
Expérimental — Deepgram Aura-2 TTS (spécifique à la langue)
| Préréglage | LLM | Voix TTS |
|---|---|---|
| GPT-5.4 + Julius (DE) | OpenAI GPT-5.4 | Aura-2 Julius (allemand, homme) |
| GPT-5.4 + Zeus (EN) | OpenAI GPT-5.4 | Aura-2 Zeus (anglais, homme) |
| Claude 4.6 + Thalia (EN) | Anthropic Claude 4.6 | Aura-2 Thalia (anglais, femme) |
| GPT-5.4 + Agathe (FR) | OpenAI GPT-5.4 | Aura-2 Agathe (français, femme) |
| GPT-5.4 + Celeste (ES) | OpenAI GPT-5.4 | Aura-2 Celeste (espagnol, femme) |
Full BYO — Apportez vos propres clés LLM & TTS
En mode Full BYO, Deepgram ne gère que le STT (Nova-3). Vos propres clés API pour les fournisseurs LLM et TTS sont utilisées directement.
| Préréglage | LLM (clé BYO) | TTS (clé BYO) |
|---|---|---|
| GPT-5.4 + ElevenLabs | OpenAI GPT-5.4 | ElevenLabs Turbo v2.5 |
| GPT-5.4 + OpenAI TTS | OpenAI GPT-5.4 | OpenAI TTS-1 |
| GPT-5.4 Nano + ElevenLabs | OpenAI GPT-5.4 Nano | ElevenLabs Turbo v2.5 |
| Gemini 3 Pro + ElevenLabs | Google Gemini 3 Pro | ElevenLabs Turbo v2.5 |
| Gemini Flash + OpenAI TTS | Google Gemini 2.5 Flash | OpenAI TTS-1 |
| Claude 4.6 + ElevenLabs | Anthropic Claude 4.6 | ElevenLabs Turbo v2.5 |
| Claude 4.6 + OpenAI TTS | Anthropic Claude 4.6 | OpenAI TTS-1 |
| Grok 3 Mini + ElevenLabs | xAI Grok 3 Mini | ElevenLabs Turbo v2.5 |
Verrouillage & Déverrouillage des préréglages
Lorsqu’un préréglage est actif, tous les champs de configuration sont verrouillés aux valeurs du préréglage (indiqué par une icône de cadenas). Cela empêche les modifications accidentelles. Pour remplacer des paramètres individuels, appuyez sur Déverrouiller pour édition manuelle. Modifier un paramètre manuellement bascule le préréglage en « Configuration manuelle ».
Configuration manuelle
Appuyez sur l’icône d’engrenage à côté du bouton Démarrer pour ouvrir le panneau de configuration. Tous les champs ci-dessous sont disponibles :
Fournisseur LLM
| Fournisseur | Modèles clés |
|---|---|
| OpenAI | GPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (incl. Nano, Mini) |
| Anthropic | Claude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6 |
| Gemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite | |
| NVIDIA | Llama Nemotron Super 49B, Nemotron 3 Nano 30B |
| xAI | Grok 3, Grok 3 Mini, Grok 3 Fast |
| Groq | GPT OSS 20B |
Fournisseur TTS
| Fournisseur | Voix | Langues | Clé requise |
|---|---|---|---|
| Cartesia Sonic-3 | 9 voix (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default) | 42 langues (détection automatique multilingue) | Clé Deepgram uniquement (géré) |
| Deepgram Aura-2 | 35+ voix (EN, DE, FR, ES, IT, NL, JA) | Spécifique à la langue par voix | Clé Deepgram uniquement (géré) |
| ElevenLabs | Vos voix ElevenLabs (chargées automatiquement) | Multilingue | Clé API ElevenLabs (BYO) |
| OpenAI TTS | 10 voix (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer) | Anglais | Clé API OpenAI (BYO) |
Modèle STT
| Modèle | Langues | Cas d’utilisation |
|---|---|---|
| Nova-3 | Multilingue | Standard, meilleure précision globale |
| Nova-3 General | Multilingue | Variante polyvalente |
| Nova-3 Medical | Multilingue | Optimisé pour la terminologie médicale |
| Flux | Anglais uniquement | Détection de fin de tour ultra-rapide |
Autres paramètres
- Langue — Détection automatique (multilingue) ou une langue spécifique : anglais, allemand, français, espagnol, italien, néerlandais, japonais, portugais, hindi, russe
- Message d’accueil — Texte que l’agent prononce au début de la conversation (optionnel)
- Instruction système — Définissez la personnalité et le comportement de l’IA. Une instruction de base est toujours incluse pour empêcher le formatage markdown et les questions de suivi dans la sortie vocale.
Paramètres avancés
Développez la section Avancé pour un réglage fin :
- Temperature (0,00 – 2,00) — Contrôle la créativité des réponses. Par défaut : 0,7. Plus bas = plus ciblé, plus haut = plus créatif.
- Modèle STT — Basculez entre les variantes Nova-3 et Flux.
Lorsque le STT Flux est sélectionné, des contrôles supplémentaires apparaissent :
- Seuil EOT agressif (0,0 – 1,0) — Agressivité de la détection de fin de tour. Plus élevé = réponse plus rapide mais risque de vous couper en milieu de phrase.
- Délai EOT (0 – 5000ms) — Silence maximum avant que l’agent réponde.
Pour ElevenLabs BYO : un champ Voice ID personnalisé vous permet d’entrer directement n’importe quel identifiant de voix ElevenLabs.
Pour OpenAI TTS BYO : sélectionnez parmi 10 voix OpenAI (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).
Pendant une conversation
- Indicateur de statut — Affiche Prêt, Connexion, En direct (avec le temps écoulé) ou Erreur
- Vumètre — Affiche le niveau d’entrée du microphone avec l’état Écoute/Silence
- Indicateur de réflexion — Un badge vert apparaît pendant que le LLM traite votre saisie
- Transcription de la conversation — Affichage en temps réel de tous les dialogues. Vos messages apparaissent à droite (vert), ceux de l’agent à gauche (bleu).
- Barge-in — Interrompez l’IA à tout moment en parlant. L’agent s’arrête immédiatement et vous écoute.
- Poignée de redimensionnement — Faites glisser la poignée sous la transcription pour redimensionner la zone de chat (120px à 85% de l’écran)
- Double bouton Démarrer/Arrêter — Un en haut, un fixe en bas pour un accès facile lors du défilement
Surveillance de la latence
Une barre de latence compacte apparaît après le premier tour, affichant trois métriques clés :
- LLM — Temps entre votre parole et le premier token LLM
- TTFB — Temps total jusqu’au premier octet (bout en bout)
- TURN — Durée totale du tour incluant la lecture audio
Les valeurs sont colorées : vert (< 2s), jaune (2–5s), rouge (> 5s).
Appuyez sur la barre de latence pour développer un tableau détaillé par tour avec les colonnes : #, Durée de parole, Temps LLM, Temps TTS, TTFB, Durée audio, Total. Les moyennes LLM et TTFB sont affichées dans l’en-tête.
Annulation d’écho (AEC)
Talk to me inclut une annulation d’écho acoustique propriétaire via un pont natif Android Kotlin. La sortie haut-parleur de l’IA est capturée et soustraite de l’entrée de votre microphone en temps réel, empêchant les boucles de rétroaction auto-déclenchées. Cela permet un fonctionnement entièrement mains libres sur haut-parleur sans casque. Fonctionne avec tous les préréglages gérés et la plupart des configurations BYO.
Key Pool — Deepgram Voice Agent
Le Key Pool du Deepgram Voice Agent est une section dédiée et réductible sous la zone de chat. Il gère :
- Clés API Deepgram (requises) — pour le STT et le routage LLM/TTS géré
- Clés LLM (optionnelles, Full BYO uniquement) — OpenAI, Anthropic, Gemini, xAI
- Clés TTS (optionnelles, Full BYO uniquement) — ElevenLabs, OpenAI TTS
Chaque carte de clé affiche une mise en page à 4 lignes : libellé, badge fournisseur + clé masquée, score de confiance avec statistiques, et boutons d’action Test/Pause. Vous pouvez tester des clés individuelles ou toutes les clés à la fois.
Limites de session
Les sessions sont limitées à 15 minutes maximum (contrainte de l’API). Le temps écoulé est affiché dans le bouton Arrêter. La session se termine automatiquement lorsque la limite est atteinte.
Conseils
- Commencez avec un préréglage géré (Top Tier ou Ultra-Fast) — ils ne nécessitent qu’une clé Deepgram et offrent la meilleure expérience.
- GPT-5.4 Nano + Cartesia Sonic-3 fournit des temps de réponse d’environ 1,1s — l’option la plus rapide.
- Les préréglages Flux sont en anglais uniquement mais extrêmement rapides grâce à la détection de fin de tour agressive.
- Les préréglages Full BYO utilisent vos propres clés LLM/TTS pour un contrôle maximal mais peuvent avoir des performances Barge-in réduites avec certains fournisseurs TTS.
- Tous les paramètres prennent effet au prochain démarrage de session, pas pendant une session en cours.
12b. Gemini 3.1 Flash Live
Gemini 3.1 Flash Live fournit des conversations vocales en temps réel alimentées par le dernier modèle audio IA de Google. Il offre la vitesse et le rythme naturel nécessaires pour une interaction voix en premier, avec une latence inférieure à la seconde, 30 voix expressives et une compréhension multimodale native.
Prérequis
Vous avez besoin d’une clé API Google Gemini (niveau payant recommandé) ajoutée au Key Pool LLM dans les Paramètres. La clé est automatiquement disponible pour le Chat vocal IA.
Démarrer une conversation
Accédez à l’onglet Gemini Live. Appuyez sur Démarrer la conversation. L’application se connecte à Gemini via WebSocket, ouvre votre microphone et commence à écouter. Parlez naturellement — Gemini répond en audio en temps réel. Appuyez sur Fin pour arrêter.
Voix (30 options)
Choisissez parmi 30 voix IA naturelles, chacune avec une personnalité distincte :
| Voix | Caractère | Idéal pour |
|---|---|---|
| Sulafat | Chaleureuse | Narration, histoires du soir, conversations calmes |
| Gacrux | Mature | Narration autoritaire, mentorat, discussions profondes |
| Algenib | Rauque | Narration cinématographique, lecture dramatique, voix de personnage |
| Kore | Ferme | Briefings professionnels, lecture d’actualités, Q&R factuelles |
| Puck | Dynamique | Conversations énergiques, motivation, brainstorming |
| Zephyr | Lumineuse | Conversations optimistes, assistance amicale, salutations |
| Charon | Informatif | Tutoriels, explications de type documentaire |
| Fenrir | Enthousiaste | Réactions enthousiastes, commentaires de jeux, engouement |
| Leda | Juvénile | Discussion décontractée, conversations Gen-Z, sujets tendance |
| Aoede | Détendue | Conversations relaxées, discussions de voyage, lifestyle |
| Achernar | Douce | Guidance de méditation, style ASMR, encouragement doux |
| Algieba | Fluide | Animation de podcast, livres audio, lecture longue |
| Despina | Fluide | Narration élégante, voix de marque de luxe |
| Achird | Amicale | Support client, assistance quotidienne, ton accueillant |
| Vindemiatrix | Bienveillante | Conversations de soutien, ton thérapeutique, empathie |
| Sadaltager | Savante | Explications techniques, Q&R expert, encyclopédique |
| Rasalgethi | Informatif | Documentaires scientifiques, contenu éducatif |
| Schedar | Posée | Discussions équilibrées, reportages neutres, débats |
| Alnilam | Ferme | Présence imposante, leadership, cadres formels |
| Pulcherrima | Directe | Communication assertive, pitchs, présentations |
| Zubenelgenubi | Décontractée | Discussion détendue, retrouvailles entre amis, humour |
| Sadachbia | Vive | Narration animée, contenu pour enfants, ludique |
| Laomedeia | Dynamique | Émissions matinales, mises à jour joyeuses, énergie positive |
| Callirrhoe | Détendue | Conseils décontractés, coaching lifestyle, accessible |
| Autonoe | Lumineuse | Sessions créatives, génération d’idées, discussions artistiques |
| Enceladus | Soufflée | Narration intime, lecture de poésie, atmosphérique |
| Iapetus | Claire | Instructions précises, guides pas à pas, clarté |
| Erinome | Claire | Communication nette, formation en entreprise, diction |
| Umbriel | Détendue | Q&R relaxées, ambiance weekend, conversations tranquilles |
Astuce : Prévisualisez toutes les voix dans la bibliothèque de voix Google AI Studio.
Langue
Choisissez parmi 24 langues prises en charge ou laissez sur Détection automatique. Gemini répondra dans la langue que vous parlez — ou dans la langue que vous sélectionnez. Prises en charge : anglais, allemand, français, espagnol, italien, portugais, néerlandais, polonais, roumain, russe, ukrainien, turc, arabe, hindi, bengali, tamoul, télougou, marathi, japonais, coréen, thaï, vietnamien, indonésien.
Préréglages de persona
Les préréglages de persona définissent comment Gemini se comporte — sa personnalité, son ton et son style de communication. Choisissez parmi six préréglages ou créez le vôtre :
| Préréglage | Comportement |
|---|---|
| Friendly Assistant | Chaleureux, conversationnel, accessible — idéal pour un usage quotidien |
| Professional | Clair, concis, autoritaire — pour le travail et les affaires |
| Enthusiastic | Énergique, positif, encourageant — pour le brainstorming et la motivation |
| Calm & Soothing | Lent, doux, patient — pour la détente et les séances guidées |
| Teacher | Patient, étape par étape, utilise des analogies — pour l’apprentissage et les explications |
| Creative | Imaginatif, expressif, langage vivant — pour la narration et l’art |
| Custom | Rédigez votre propre instruction système à partir de zéro |
Instruction système
L’instruction système est un briefing textuel que vous donnez à Gemini avant le début de la conversation. Pensez-y comme la direction d’un acteur : dites à l’IA qui elle est, comment se comporter et sur quoi se concentrer.
Exemples :
- « Tu es un tuteur de langue italienne patient. Parle lentement. Corrige ma grammaire gentiment. »
- « Tu es un architecte logiciel senior. Réponds de manière concise et technique. »
- « Tu es un conteur créatif. Parle avec panache. Utilise un langage vivant. »
Lorsque vous utilisez un préréglage de persona, votre texte personnalisé est ajouté à l’instruction du préréglage. En mode Custom, votre texte constitue l’instruction entière. Rédigez en anglais pour de meilleurs résultats. Les paramètres sont enregistrés automatiquement.
Profondeur de réflexion
Contrôlez la profondeur de raisonnement de Gemini avant de répondre :
| Niveau | Comportement |
|---|---|
| Minimal | Réponses les plus rapides, raisonnement interne minimal (par défaut) |
| Low | Considération brève, bon équilibre |
| Medium | Réponses réfléchies, pause plus longue avant de répondre |
| High | Raisonnement profond, idéal pour les questions complexes |
Temperature & Top-P
Temperature (0,0 – 2,0) contrôle le degré de créativité vs. de prévisibilité des réponses de l’IA :
| Plage | Comportement | Idéal pour |
|---|---|---|
| 0,0 – 0,5 | Ciblé, déterministe | Faits, réponses techniques, instructions précises |
| 0,7 – 1,0 | Équilibré, naturel (par défaut : 1,0) | La plupart des conversations, usage quotidien |
| 1,2 – 2,0 | Créatif, surprenant | Brainstorming, narration, écriture créative |
Top-P (0,0 – 1,0) limite le pool de mots que l’IA considère. À 0,95 (par défaut), le modèle choisit parmi les 95 % de mots les plus probables. Des valeurs plus basses rendent la sortie plus conservatrice.
Détection d’activité vocale (VAD)
Les paramètres VAD contrôlent comment Gemini détecte quand vous commencez et arrêtez de parler :
- Sensibilité de début de parole — La facilité avec laquelle le système détecte le début de la parole.
- Sensibilité de fin de parole — La rapidité avec laquelle le système décide que vous avez fini de parler.
- Durée de silence — Combien de millisecondes de silence avant que votre tour soit considéré comme terminé (100–2000ms).
Annulation d’écho (AEC)
Identique au Deepgram Voice Agent, Gemini 3.1 Flash Live bénéficie de l’annulation d’écho acoustique propriétaire de Talk to me via le pont natif Android Kotlin. Le mode haut-parleur mains libres complet fonctionne sans casque.
Conseils pour de meilleurs résultats
- Parlez naturellement — Gemini prend en charge le Barge-in naturel (interrompez à tout moment)
- Sur Android, l’AEC intégré élimine l’écho — pas besoin de casque
- La durée de session est limitée à 15 minutes par connexion (limite de l’API)
- Tous les paramètres prennent effet au prochain démarrage de session (pas pendant une session en cours)
- Le vumètre affiche un dégradé coloré (vert, jaune, orange, rouge) indiquant le niveau d’entrée de votre microphone
- La transcription de votre parole et des réponses de Gemini peut être activée/désactivée indépendamment
13. Mini-Player Windows
Le Mini-Player est une fenêtre compacte toujours au premier plan qui offre les contrôles essentiels de dictée sans occuper votre écran entier.
Accéder au mode Mini-Player
Cliquez sur le bouton Réduire (icône ↗) dans l'en-tête. La fenêtre de l'application se réduit à un overlay compact positionné en bas au centre de votre écran.
Disposition du Mini-Player
Le Mini-Player affiche une grille 3×3 de contrôles essentiels :
- Ligne 1 : Sélecteur d'entrée vocale, bouton Statut/Démarrer, sélecteur de sortie texte
- Ligne 2 : Bascule Traduction vocale, Pastille en ligne (analyseur de spectre), Sauvegarder les enregistrements
- Ligne 3 : TDFs de timing du pipeline, aperçu du résultat
Dimensionnement adapté au DPI
Le Mini-Player ajuste automatiquement sa taille en fonction de l'échelle DPI de votre écran, garantissant des dimensions visuelles cohérentes sur les moniteurs avec différentes résolutions (100 %, 125 %, 150 %).
Quitter le mode Mini-Player
Cliquez sur le bouton Agrandir pour revenir à la fenêtre pleine taille à sa position et taille précédentes.
14. Raccourcis globaux Windows
Talk to me enregistre des raccourcis clavier système pour que vous puissiez contrôler la dictée sans basculer vers la fenêtre de l'application.
Raccourcis principaux
| Raccourci | Action |
|---|---|
| Ctrl+Win | Démarrer / Arrêter l'enregistrement (global, fonctionne depuis n'importe quelle application) |
| Ctrl+Win (pendant le traitement) | Annuler le pipeline en cours |
Raccourci TTS
Lorsque du texte est sélectionné dans n'importe quelle application, le raccourci TTS le lit à haute voix en utilisant votre fournisseur TTS configuré.
Hook de bas niveau
Le raccourci global utilise un hook clavier de bas niveau Windows, ce qui signifie qu'il fonctionne même lorsque l'application est minimisée ou qu'une autre application a le focus. Le hook fonctionne en « mode zéro interception » — il intercepte la combinaison de touches sans bloquer les autres entrées clavier.
15. Lecture automatique Windows
La lecture automatique est une fonctionnalité exclusive à Windows qui extrait le texte de l'application active et le lit à haute voix via TTS.
Comment ça marche
- Activez la lecture automatique en cliquant sur le bouton correspondant.
- Sélectionnez du texte dans n'importe quelle application (ou utilisez Ctrl+C pour copier).
- Talk to me détecte le contenu du presse-papiers et le lit automatiquement à haute voix en utilisant votre configuration TTS.
Cas d'utilisation
- Lire des e-mails, articles ou documents sans regarder l'écran.
- Relire votre propre écriture en l'entendant prononcée.
- Support d'accessibilité pour les utilisateurs malvoyants.
16. Écouteur de notifications Windows
L'écouteur de notifications est une fonctionnalité exclusive à l'édition complète qui capture les notifications toast de Windows et les lit à haute voix via TTS.
Prérequis
- Windows Desktop Édition complète (non disponible dans l'édition Microsoft Store)
- Permission d'accès aux notifications accordée dans les paramètres Windows
Comment ça marche
- Activez l'écouteur de notifications en cliquant sur le bouton bascule.
- Accordez l'accès aux notifications lorsque Windows vous le demande.
- Lorsqu'une notification toast Windows arrive (e-mail, message de chat, rappel de calendrier), Talk to me extrait le titre et le corps de la notification et les lit à haute voix en utilisant votre configuration TTS.
Configuration
- Activer/désactiver dans Paramètres → Mains libres
- La voix et le fournisseur TTS suivent vos paramètres TTS globaux
17. Enregistrement & sauvegarde MP3 Windows
Enregistrer les lectures TTS
Lorsque cette option est activée, chaque synthèse TTS est automatiquement sauvegardée en tant que fichier MP3 avec une numérotation séquentielle (par ex. recording_001.mp3, recording_002.mp3).
Sauvegarder les enregistrements
Cliquez sur Sauvegarder les enregistrements pour ouvrir le dossier contenant tous les fichiers MP3 enregistrés. Vous pouvez configurer le répertoire d'enregistrement dans les Paramètres.
Note sur les permissions Android Android
La version Android de Talk to me nécessite plusieurs permissions système (Microphone, Overlay, Service d'accessibilité, Écouteur de notifications) — chacune avec sa propre boîte de dialogue de confirmation. Nous comprenons que cela peut sembler fastidieux.
Nous aurions préféré une expérience de configuration plus simple. Cependant, les politiques du Google Play Store et les directives de sécurité Android exigent que chaque permission sensible soit demandée individuellement, avec une divulgation claire expliquant à quoi sert la permission et à quoi elle ne sert pas. Ces flux de confirmation en plusieurs étapes ne sont pas notre choix de conception — ils sont imposés par les exigences de conformité de la plateforme.
Chaque permission n'est demandée que lorsque vous avez réellement besoin de la fonctionnalité, pas toutes en même temps lors de l'installation. Vous pouvez révoquer n'importe quelle permission à tout moment via les paramètres Android. L'application continuera de fonctionner — la fonctionnalité correspondante sera simplement désactivée.
Voici un résumé de toutes les permissions Android et pourquoi elles sont nécessaires :
| Permission | Fonctionnalité | Obligatoire ? |
|---|---|---|
| Microphone | Dictée de reconnaissance vocale, Chat vocal IA | Oui — fonctionnalité principale |
| Affichage par-dessus d'autres applis | Bulle flottante (overlay mains libres) | Uniquement si vous utilisez l'overlay |
| Service d'accessibilité | Collage automatique du texte dans les champs de saisie des applis de chat | Uniquement si vous utilisez le collage automatique |
| Écouteur de notifications | Lecture automatique des messages entrants | Uniquement si vous utilisez la lecture automatique |
| Internet | Communication avec les fournisseurs d'IA | Oui — requis pour toutes les fonctionnalités |
Merci pour votre compréhension. Nous prenons votre vie privée au sérieux — aucune de ces permissions n'est utilisée pour collecter, stocker ou transmettre des données personnelles. Voir Confidentialité et sécurité pour les détails complets.
18. Bulle flottante (Overlay) Android
La bulle flottante est une petite icône circulaire qui flotte au-dessus de toutes les autres applications, offrant un accès mains libres à la dictée sans changer d'application.
Activer l'overlay
- Appuyez sur le bouton Overlay dans l'application principale.
- Si la permission Android « Affichage par-dessus d'autres applis » n'est pas encore accordée, vous serez dirigé pour l'activer.
- Une petite bulle Talk to me apparaît à l'écran.
Utiliser la bulle
- Simple appui : Démarrer ou arrêter l'enregistrement. Bordure pulsante rouge pendant l'enregistrement, bordure pulsante bleue pendant la lecture TTS.
- Triple appui : Test de lecture — lit un texte prédéfini pour confirmer que le TTS fonctionne.
- Appui long : Vide la file d'attente des messages non lus.
- Glisser : Déplacez la bulle n'importe où sur l'écran.
Pendant l'enregistrement via la bulle
- Appuyez sur la bulle pour démarrer l'enregistrement.
- Après la transcription, un toast « ✓ Inséré ! » confirme que le texte a été collé ou placé dans le presse-papiers.
Traduction et insertion automatique via la Bubble
La Bubble utilise la même logique de traduction que la fenêtre principale : si tes langues d'entrée et de sortie diffèrent, ta dictée est automatiquement traduite avant l'insertion. Voice Translate (lecture à voix haute) fonctionne aussi dans la Bubble.
Grâce au Service d'accessibilité Android, la Bubble insère le texte (éventuellement traduit) directement dans le champ de saisie actif. Dans toutes les apps grand public testées — WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest et Skool — l'insertion automatique fonctionne de manière fiable.
Si tu utilises une app très exotique où l'insertion automatique échoue, le texte déjà traduit se trouve dans le presse-papiers — un appui long sur le champ de saisie et « Coller » rend le texte visible.
Arrêter l'overlay
Appuyez à nouveau sur le bouton Overlay ou appuyez sur Arrêter dans la notification.
19. Collage automatique Android
Le collage automatique utilise le service d'accessibilité Android pour insérer automatiquement le texte dicté dans le champ de texte actuellement actif.
Activer le collage automatique
- Appuyez sur le bouton Auto-Paste.
- Une boîte de dialogue de divulgation explique ce que le service d'accessibilité fait et ne fait pas. Appuyez sur Activer le collage automatique.
- Vous êtes dirigé vers les paramètres d'accessibilité Android. Trouvez Talk to me et activez-le.
- Le bouton affiche maintenant ✓ avec une bordure cyan.
Bouton de raccourci d'accessibilité
Lors de l'activation du service d'accessibilité, Android vous demandera de choisir un raccourci d'activation. Cela détermine comment vous pouvez rapidement activer/désactiver le service :
- Bouton d'accessibilité (recommandé) : Un petit bouton apparaît dans la barre de navigation. Appuyez dessus pour basculer le service.
- Volume haut + Volume bas (maintenir 3 secondes) : Appuyez et maintenez les deux boutons de volume simultanément pendant 3 secondes pour basculer.
Nous recommandons l'option Bouton d'accessibilité pour la meilleure expérience. C'est une fonctionnalité standard du système Android — le choix n'affecte pas le fonctionnement du collage automatique.
Notes importantes
- Nécessite la permission d'accessibilité Android (une permission sensible).
- Peut nécessiter d'être réaccordée après les mises à jour de l'application.
- Utilisée exclusivement pour l'insertion de texte — aucune autre donnée d'accessibilité n'est consultée.
Compatibilité des apps
Auto-Paste fonctionne de manière fiable dans la plupart des apps Android. Les apps suivantes ont été testées avec v0.5.159 :
| App | Auto-Paste | Traduction |
|---|---|---|
| ✅ | ✅ | |
| Gmail (destinataire + corps) | ✅ | ✅ |
| Discord | ✅ | ✅ |
| Microsoft Teams | ✅ | ✅ |
| Viber | ✅ | ✅ |
| Chrome | ✅ | ✅ |
| ChatGPT | ✅ | ✅ |
| ✅ | ✅ | |
| ✅ | ✅ | |
| ✅ | ✅ | |
| Skool (WebView dans Chrome) | ✅ | ✅ |
| Viber | ✅ | ✅ |
« Accès à l'appli refusé » — Paramètres restreints (Android 13+)
Sur certains appareils, lors de l'activation du collage automatique ou de l'accès aux notifications, vous pouvez voir « Accès à l'appli refusé » ou « Pour votre sécurité, ce paramètre est actuellement indisponible. » Ce n'est pas un bug — c'est une fonctionnalité de sécurité d'Android 13+ appelée Paramètres restreints.
Fabricants concernés : Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.
Comment résoudre :
- Ouvrez Android Paramètres → Applications → Voir toutes les applis → trouvez Talk to me.
- Appuyez sur Talk to me pour ouvrir la page Infos sur l'appli (pas la sous-page Notifications).
- Appuyez sur le menu à trois points (⋮) dans le coin supérieur droit.
- Sélectionnez Autoriser les paramètres restreints.
- Confirmez avec votre code PIN/empreinte digitale.
- Retournez dans Paramètres → Accessibilité et activez Talk to me.
Astuce : Si le menu à trois points n'est pas visible, essayez d'abord d'activer la permission (déclenchant l'erreur), puis allez sur la page Infos sur l'appli — le menu devrait maintenant apparaître.
Xiaomi/MIUI/HyperOS : Allez dans Paramètres → Applications → Gérer les applis → Talk to me et faites défiler vers le bas.
Lenovo (ZUI) : Lorsque vous appuyez sur Applications dans les Paramètres, vous pouvez arriver sur la sous-page Notifications au lieu de Infos sur l'appli. Revenez en arrière et cherchez la page complète Infos sur l'appli avec les sections stockage, permissions et batterie.
20. Lecture automatique des messages Android
La lecture automatique lit les messages de chat entrants à haute voix via TTS — idéal pour conduire, cuisiner ou faire du sport.
Comment ça marche
- Activez Auto-Read (icône casque).
- Assurez-vous que l'accès aux notifications est accordé.
- L'overlay doit être actif.
- Lorsqu'un message arrive d'une application autorisée, Talk to me annonce l'expéditeur et lit le message à haute voix.
Applications de chat pré-sélectionnées
WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.
Vous pouvez ajouter ou supprimer des applications dans la configuration de lecture automatique des applications.
21. Accès aux notifications Android
L'accès aux notifications permet à Talk to me de lire les notifications entrantes, requis pour la lecture automatique des messages.
Accorder l'accès
- Appuyez sur le bouton Notif Access.
- Allez dans les paramètres d'écouteur de notifications Android.
- Trouvez Talk to me et activez-le.
- Le bouton affiche ✓ avec une bordure cyan.
Notes importantes
- Permission au niveau système — ne traite que les notifications des applications explicitement autorisées.
- Aucune donnée de notification n'est stockée, transmise ou enregistrée.
22. Configuration de la lecture automatique des applications Android
Contrôlez quelles applications sont autorisées à avoir leurs notifications lues à haute voix.
Applications de chat connues
Applications de messagerie pré-sélectionnées avec des bascules individuelles (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).
Rechercher et ajouter des applications personnalisées
- Appuyez sur le champ de recherche et tapez un nom d'application.
- Les applications installées correspondantes apparaissent, triées par pertinence.
- Cochez la case pour ajouter une application.
Comment fonctionne le filtrage
- Seules les notifications des applications autorisées sont lues à haute voix.
- Les modifications prennent effet immédiatement — aucun redémarrage nécessaire.
23. Paramètres
Langue de l'interface
English, Deutsch, Français, Español — indépendante de la langue de votre système.
Préréglage de qualité
| Préréglage | Fournisseur STT | Fournisseur LLM | Modèle | Correction |
|---|---|---|---|---|
| Top Performer | Scribe v2 | OpenAI | GPT-5.4 | Forte |
| Standard | Scribe v2 | OpenAI | GPT-4.1 mini | Forte |
| Budget | Whisper | Groq | Par défaut | Légère |
| Free | Deepgram | Groq | Par défaut | Désactivée |
| Custom | Manuel | Manuel | Manuel | Manuel |
Reconnaissance vocale
- Fournisseur : OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
- Custom Keyterms (Scribe uniquement) : Noms propres, marques, termes techniques
- Langue : Détection automatique ou spécifique
Synthèse vocale
- Fournisseur : ElevenLabs, OpenAI TTS, Deepgram Aura 2
- Modèle (ElevenLabs) : Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5
Fournisseur LLM (Correction)
- Fournisseur : OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
- Modèle : Par défaut du fournisseur ou spécifique
- Intensité de la correction : Légère ou Forte
Fournisseur de traduction
Fournisseur séparé pour la traduction IA (peut différer du fournisseur de correction).
Correction IA / Traduction IA
Activez chacune indépendamment. Lorsque la traduction IA est activée :
- Traduire vers : 20 langues cibles
- Traduction vocale : Lecture automatique des traductions via TTS
Android Mains libres
Bascules rapides pour Overlay, Lecture automatique des messages, Collage automatique, Accès aux notifications.
Enregistrer et tester
- Enregistrer tous les paramètres actuels — Persiste les modifications dans le stockage de l'appareil
- Tester la configuration actuelle — Teste tous les fournisseurs configurés avec les temps de réponse
24. Corrections de mots
Les corrections de mots apprennent à Talk to me l'orthographe correcte des noms, marques et termes que la reconnaissance vocale ne transcrit pas correctement.
Ajouter des corrections
Ajout individuel
Entrez l'orthographe incorrecte et l'orthographe correcte, puis appuyez/cliquez sur Ajouter.
Import en masse
Entrez l'orthographe correcte, puis listez les variantes incorrectes (une par ligne). Utilisez Générer avec l'IA pour créer automatiquement les fautes d'orthographe probables.
Import multiple
Entrez les paires sous la forme incorrect;correct (une par ligne). Prend en charge les séparateurs ;, ->, virgule ou tabulation.
Comment fonctionnent les corrections
Pendant le post-traitement (étape 3 du Pipeline), les orthographes incorrectes sont automatiquement remplacées avant l'exécution de la correction IA.
25. Sauvegarde et restauration
Exporter les paramètres
- Ouvrez Sauvegarde & restauration dans les Paramètres.
- Appuyez/cliquez sur Exporter les paramètres.
- Entrez et confirmez un mot de passe de chiffrement (min. 6 caractères).
- Windows : La boîte de dialogue de sauvegarde suggère
talktome-settings.ttm— vous choisissez le dossier. - Android : La sauvegarde est écrite dans votre zone de Téléchargements sous le nom
TalkToMe-backup.ttm. Si ce nom existe déjà, le système peut ajouter(1),(2), etc. — tous sont des sauvegardes chiffrées valides.
Importer les paramètres
- Appuyez/cliquez sur Importer les paramètres.
- Automatique (Android) : L'application recherche le fichier correspondant le plus récent nommé
TalkToMe-backupavec une extension.ttm(y comprisTalkToMe-backup (1).ttm, etc.) dans le stockage de l'application et dans les Téléchargements. - Si le sélecteur de fichiers système s'ouvre : Sur de nombreux téléphones (par ex. Samsung), le premier écran est Utilisés récemment et peut afficher par défaut les Images — vos fichiers
.ttmsont masqués jusqu'à ce que vous changiez le filtre supérieur sur Documents ou Cette semaine, ou que vous ouvriez directement le dossier Téléchargement. - Nouvel appareil : Copiez le
.ttmdepuis votre ancien appareil (USB, cloud, e-mail), puis utilisez Importer et sélectionnez ce fichier. - Entrez le mot de passe de chiffrement.
- Tous les paramètres sont restaurés et l'application redémarre.
Détails techniques
- Chiffrement : AES-256-GCM avec PBKDF2-HMAC-SHA256 (100 000 itérations)
- Inclus : Tous les paramètres, clés API, corrections de mots, applications de lecture automatique, préréglage de qualité, langue de l'interface
- NON inclus : Activation de la licence (liée au Machine ID)
26. Tableau de bord d'utilisation
| Métrique | Description |
|---|---|
| STT Calls | Transcriptions de parole en texte effectuées |
| LLM Polish | Opérations de correction IA ou de traduction IA |
| TTS Synth | Opérations de synthèse vocale |
Les compteurs sont cumulatifs depuis la dernière réinitialisation des paramètres.
27. Dépannage
Général
| Problème | Solution |
|---|---|
| « Aucune clé API configurée » | Ajoutez une clé dans le Key Pool pour la fonctionnalité dont vous avez besoin |
| L'enregistrement ne démarre pas | Vérifiez la permission du microphone dans les paramètres système |
| La traduction vocale ne produit pas d'audio | Assurez-vous qu'une clé API TTS est configurée et fonctionnelle |
| L'export échoue | Vérifiez l'accès en écriture au dossier Téléchargements |
| Impossible de voir la sauvegarde dans le sélecteur de fichiers d'import | Passez de Images à Documents / Cette semaine, ou ouvrez le dossier Téléchargement — voir §25 Import |
Windows Spécifique à Windows
| Problème | Solution |
|---|---|
| Le raccourci Ctrl+Win ne fonctionne pas | Assurez-vous que l'application est en cours d'exécution (vérifiez la zone de notification) |
| Le texte n'est pas collé après la dictée | Assurez-vous que la fenêtre cible prend en charge Ctrl+V |
| L'écouteur de notifications est indisponible | Disponible uniquement dans l'édition complète (pas l'édition Store) |
| Le Mini-Player semble trop grand/petit | Le dimensionnement adapté au DPI s'ajuste automatiquement ; redémarrez l'application si les paramètres d'affichage ont changé |
Android Spécifique à Android
| Problème | Solution |
|---|---|
| La lecture automatique ne fonctionne pas | Assurez-vous que l'overlay est actif, la lecture automatique activée et l'accès aux notifications accordé |
| Le collage automatique ne fonctionne pas | Réactivez le service d'accessibilité dans les paramètres Android |
| La bulle n'apparaît pas | Accordez la permission « Affichage par-dessus d'autres applis » |
| « Accès à l'appli refusé » lors de l'octroi des permissions | Paramètres restreints (Android 13+) — voir §19 « Paramètres restreints » pour la solution étape par étape |
| L'écran ne pivote pas (Tablette) | Vérifiez si le mode PC est actif (déroulez les Paramètres rapides). La rotation automatique est ignorée en mode PC — repassez en mode Android. Affecte principalement les tablettes Lenovo (ZUI). |
28. Confidentialité et sécurité
Traitement des données
- Aucune collecte de données : Talk to me ne collecte, ne stocke et ne transmet aucune donnée utilisateur vers les serveurs de mrocon GmbH.
- Communication API directe : L'audio et le texte vont directement de votre appareil vers le fournisseur IA de votre choix.
- Stockage local uniquement : Tous les paramètres et clés API sont stockés exclusivement sur votre appareil.
- Aucune analyse : Aucun suivi, analyse ou télémétrie d'aucune sorte.
Permissions
Windows
| Permission | Fonction |
|---|---|
| Microphone | Enregistrer l'audio pour la dictée |
| Accès aux notifications | Lire les notifications (Édition complète) |
| Internet | Communiquer avec les fournisseurs d'IA |
Android
| Permission | Fonction |
|---|---|
| Microphone | Enregistrer l'audio pour la dictée |
| Overlay (Affichage par-dessus d'autres applis) | Afficher la bulle flottante |
| Écouteur de notifications | Lire les notifications pour la lecture automatique |
| Service d'accessibilité | Coller automatiquement le texte dans les champs |
| Internet | Communiquer avec les fournisseurs d'IA |
| Interroger les paquets installés | Afficher les noms d'applications dans les paramètres de lecture automatique |
Chiffrement
- Windows : Clés API chiffrées avec DPAPI (Windows Data Protection API)
- Android : Clés API dans le stockage interne privé de l'application
- Fichiers de sauvegarde : Chiffrement AES-256-GCM
Annexe A — Langues prises en charge
Langues d'entrée vocale
Détection automatique, allemand, anglais, français, espagnol, italien, portugais, néerlandais, japonais, coréen, chinois, russe, arabe, hindi, polonais, turc, suédois, ukrainien
Langues cibles de traduction
Allemand, anglais, français, espagnol, italien, portugais, néerlandais, japonais, chinois, coréen, russe, arabe, hindi, polonais, turc, suédois, ukrainien, danois, finnois, norvégien
Langues TTS
Auto, allemand, anglais, français, italien, espagnol, portugais, néerlandais, polonais, suédois, danois, finnois, norvégien, turc, japonais, coréen, chinois
Langues de l'interface
English, Deutsch, Français, Español
Annexe B — Fournisseurs pris en charge
Reconnaissance vocale
| Fournisseur | Notes |
|---|---|
| OpenAI Whisper | Le plus utilisé, fiable |
| Deepgram Nova-2 / Nova-3 | Rapide, bonne précision |
| ElevenLabs Scribe v2 | Prend en charge les mots-clés personnalisés |
| Groq Whisper | Niveau gratuit disponible, rapide |
LLM (Correction / Traduction)
| Fournisseur | Notes |
|---|---|
| OpenAI | GPT-4o-mini, GPT-5.4, etc. |
| Groq | Niveau gratuit, modèles Llama |
| Anthropic | Modèles Claude |
| Google Gemini | Modèles Gemini |
| xAI Grok | Niveau gratuit disponible |
Synthèse vocale
| Fournisseur | Notes |
|---|---|
| ElevenLabs | Meilleure qualité, clonage vocal, 4 modèles |
| OpenAI TTS | 6 voix intégrées, simple |
| Deepgram Aura 2 | Synthèse rapide |
Annexe C — Préréglages de qualité
| Préréglage | STT | LLM | Modèle | Correction | Coût |
|---|---|---|---|---|---|
| Top Performer | Scribe v2 | OpenAI | GPT-5.4 | Forte | $$$ |
| Standard | Scribe v2 | OpenAI | GPT-4.1 mini | Forte | $$ |
| Budget | Whisper | Groq | Par défaut | Légère | $ |
| Free | Deepgram | Groq | Par défaut | Désactivée | Gratuit |
| Custom | Manuel | Manuel | Manuel | Manuel | Variable |
Annexe D — Raccourcis clavier Windows
| Raccourci | Action |
|---|---|
| Ctrl+Win | Démarrer / Arrêter l'enregistrement |
| Ctrl+Win (pendant le traitement) | Annuler le pipeline |
| Raccourci TTS | Lire le texte sélectionné à haute voix |
Talk to me est un produit de mrocon GmbH. Tous droits réservés.
Pour obtenir de l'aide, contactez team@talktome.studio ou visitez talktome.studio.
↑ Retour en haut