Manual de usuario — Talk to me

Talk to me — Manual de usuario

Versión: 0.5.149 (Windows Desktop) / 0.5.157 (Android Hands-Free) Última actualización: 2026-04-20

Este manual cubre tanto la edición de Windows Desktop como la de Android Hands-Free de Talk to me. Las secciones marcadas con Windows o Android aplican solo a esa plataforma. Todas las demás secciones aplican a ambas.

1. Introducción

Talk to me es un estudio profesional de dictado, traducción e interacción por voz disponible para Windows Desktop y Android. Convierte tu voz en texto, lo pule con IA, lo traduce a más de 20 idiomas y te lo lee en voz alta — todo en tiempo real.

La app sigue una arquitectura estricta de BYOK (Bring Your Own Key) y Zero-Knowledge / Zero-Trust: tus claves API y datos nunca salen de tu dispositivo.

Características principales

Dictado en tiempo real: Graba tu voz y obtén texto pulido en segundos.
AI-Polish: Corrección automática de gramática y eliminación de muletillas impulsada por el proveedor de IA que elijas.
Traducción en vivo: Traduce el texto dictado a más de 20 idiomas instantáneamente.
Voice Translate (Voz a voz): Tu texto traducido se lee automáticamente en voz alta en el idioma de destino.
Texto a voz: Convierte cualquier texto en voz natural con ElevenLabs, OpenAI TTS o Deepgram.
Inmersión lingüística en vivo: Habla en tu idioma nativo, ve y escucha instantáneamente en el idioma que quieres dominar.
Correcciones de palabras: Enseña a la app tus nombres, marcas y términos que el reconocimiento de voz confunde.
Copia de seguridad cifrada: Exporta todos los ajustes y claves API como un archivo cifrado protegido por contraseña.
Soporte multi-proveedor: Elige entre OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram y más.

Aspectos destacados por plataforma

Función	Windows Desktop	Android Hands-Free
Mini-Player (modo compacto)	✓	—
Atajos globales (Ctrl+Win)	✓	—
Auto-Read (extracción de texto Ctrl+C)	✓	—
Notification Listener (Edición completa)	✓	—
Grabación y guardado MP3	✓	—
Floating Pill (analizador de espectro)	✓	—
Burbuja flotante (Overlay)	—	✓
Auto-Paste (Accesibilidad)	—	✓
Lectura automática de mensajes (de apps de chat)	—	✓
Acceso a notificaciones a nivel de app	—	✓

Principios de seguridad

Zero-Knowledge: Talk to me nunca almacena, transmite ni tiene acceso a tus claves API en ningún servidor. Todas las claves se almacenan localmente en tu dispositivo.
Zero-Trust: La app nunca contacta con un servidor propio. Sin analíticas, sin seguimiento, sin telemetría. Tus datos de dictado fluyen directamente desde tu dispositivo al proveedor de IA elegido y a ningún otro lugar.
BYOK: Tú aportas tus propias claves API de los proveedores en los que confías. Talk to me no revende acceso a API.

2. Primeros pasos

Windows Instalación — Windows Desktop

Talk to me para Windows está disponible como instalador con firma EV desde talktome.studio o a través de la Microsoft Store.

Requisitos del sistema:

Windows 10 o posterior (64-bit)
Una conexión a Internet activa
Al menos una clave API de un proveedor compatible

El instalador está firmado digitalmente con un certificado de Validación Extendida (EV) de Certum (mrocon GmbH). Windows SmartScreen no mostrará ninguna advertencia.

Android Instalación — Android

Talk to me para Android está disponible como APK desde talktome.studio o a través de Google Play Store.

Requisitos del sistema:

Android 8.0 o posterior
Una conexión a Internet activa
Al menos una clave API de un proveedor compatible

Primer inicio

Cuando abras Talk to me por primera vez, verás la Puerta de licencia. Tienes dos opciones:

Introducir una clave de licencia para desbloquear la app completa inmediatamente.
Iniciar una prueba gratuita de 7 días para explorar todas las funciones sin clave de licencia.

Después de la activación o el inicio de la prueba, la app se carga y puedes comenzar a usarla de inmediato — siempre que tengas al menos una clave API configurada (ver Key Pool).

Android Inicio rápido — Tus primeros 5 minutos

Después de activar tu licencia (o iniciar la prueba gratuita), la app se abre y verás la pantalla principal — el Cockpit. No te preocupes si la mayoría de los botones aparecen en naranja o inactivos. ¡Es completamente normal! Esto es lo que debes hacer, paso a paso:

Paso 1 — Habilitar acceso al micrófono

El botón grande en el centro de la pantalla dice "Habilitar acceso al micrófono". Este es el primer y más importante paso.

Toca el botón Habilitar acceso al micrófono.
Un diálogo de Talk to me explica por qué se necesita el micrófono. Toca OK.
Android luego pregunta: "¿Permitir que Talk to me grabe audio?" — toca Mientras se usa la app (o Permitir).
¡Listo! El botón cambia a "Listo — Iniciar dictado" en verde. Ahora puedes grabar tu primer dictado.

Paso 2 — Añadir tus claves API

En la parte inferior de la pantalla verás la barra Key Pool — probablemente mostrando etiquetas rojas como STT 0/5, LLM 0/5, TTS 0/5. Esto significa que aún no hay claves API configuradas. Sin claves, la app no puede conectarse a los servicios de IA.

Toca cualquiera de las etiquetas del Key Pool (p. ej. STT) para abrir la sección Key Pool.
Toca Añadir clave y pega una clave API de tu proveedor (p. ej. OpenAI, Deepgram, ElevenLabs).
Toca Guardar. La etiqueta se vuelve verde cuando hay una clave válida almacenada.
Repite para cada categoría que quieras usar. Como mínimo, necesitas una clave STT (para dictado). Para pulido con IA, añade una clave LLM. Para texto a voz, añade una clave TTS.

Consulta §11 Key Pool para una guía detallada sobre proveedores compatibles y cómo obtener claves API.

Paso 3 — Funciones opcionales (botones del Cockpit)

Los botones en el centro del Cockpit controlan funciones opcionales. Cada uno requiere un permiso del sistema la primera vez que lo activas. Verás un breve diálogo explicativo de Talk to me, seguido del diálogo del sistema Android. Ambos son normales y seguros de confirmar.

Botón	Qué hace	Detalles
Auto-Paste	Pega automáticamente tu texto dictado en la app que estabas usando (p. ej. WhatsApp, correo). Sin copiar-pegar manual.	§19
Notif Access	Permite que la app lea las notificaciones entrantes para poder leerte los mensajes automáticamente.	§21
Auto-Read	Lee los mensajes entrantes en voz alta usando texto a voz — ideal para uso manos libres mientras conduces o cocinas.	§20
Overlay	Muestra una pequeña burbuja flotante en tu pantalla. Tócala para iniciar/detener el dictado desde cualquier app — sin volver a Talk to me.	§18

No necesitas todo esto de inmediato. Comienza con el dictado (Paso 1 + 2) y activa las funciones extra cuando estés listo. Cada función se puede activar o desactivar en cualquier momento.

Free & Paid Tier Overview

Talk to me is a BYOK app (Bring Your Own Key). You use your own API keys from AI providers. Many providers offer generous free tiers — from $200 Deepgram credit to unlimited Gemini usage to free Grok and Groq keys. This means you can use Talk to me for months before any API costs arise.

Tier 1 — Completely Free (no money, no credit card)

What you need	What you get	How to get it
1× Deepgram account (free)	Speech-to-Text dictation (STT)	deepgram.com → Sign up → $200 starter credit
1× Gemini API key (free)	AI Voice Chat (Gemini Live)	aistudio.google.com → Create API Key

What you can do:

Dictate with Deepgram Nova-3 (preset “Free”) — no LLM polish, but solid transcription
AI Voice Chat via the Gemini Live tab — real-time voice conversation with sub-second latency, 30 voices, 24 languages

How long does it last?

Feature	Credit / Limit	Lasts for
Deepgram STT	$200 starter credit (never expires)	~43,000 min (~716 hours) transcription
Gemini Live Voice Chat	Free API key (no credit limit)	Unlimited (rate limit: ~10 sessions/min)
Gemini LLM (for Polish)	Free API key	250 requests/day (Flash model)

Reality: With these two free accounts you can use Talk to me productively for months. During intensive daily testing, only $19 of $200 Deepgram credit was used after weeks.

Tier 2 — Free with More Power (additional free keys)

What you need	What it adds	Cost
+ 1× xAI account	Grok-3-Mini as LLM for Polish + Translation	Free ($25 starter credit + up to $150/month with data sharing)
+ 1× Groq account	Ultra-fast LLM for Polish (Llama models)	Free (1,000 requests/day, no credit card)

Unlocked presets:

Preset	STT	LLM / Polish	All keys free?
Free	Deepgram Nova-3	—	Yes (1 key)
Free xAI	Deepgram Nova-3	xAI Grok	Yes (2 keys)
Free Gemini	Deepgram Nova-3	Google Gemini	Yes (2 keys)
Fast Free	OpenAI Whisper	Groq Llama	Yes (2 keys)
Economy	Deepgram Nova-3	Groq Llama	Yes (2 keys)
Economy Plus	Deepgram Nova-3	Groq Llama (Strong Polish)	Yes (2 keys)

Also unlocked:

Deepgram Voice Agent with 20+ managed presets (uses your $200 credit, $0.05–0.16/min)
Full BYO Voice Agent Presets (e.g. GPT-5.4 + ElevenLabs, if you have the keys)

Tier 3 — Premium Quality (paid keys)

For the absolute best quality, you need paid API keys:

Provider	Used for	Cost	What you get
OpenAI	GPT-5.4 (best LLM for Polish)	Pay-per-use (~$5–15/month)	Perfect grammar, style, translation
ElevenLabs	Scribe v2 (best STT) + TTS	From $5/month (Starter)	Best transcription, premium voices
Anthropic	Claude 4.6 Sonnet (top LLM)	Pay-per-use	Excellent text quality for longer texts

API Key Cost Overview

Provider	Sign up	Starter credit	Ongoing cost	Credit card?
Deepgram	Free	$200 (never expires!)	From $0.0043/min STT	No
Google Gemini	Free	Unlimited (rate-limited)	$0.005–0.018/min (Live Audio)	No
xAI (Grok)	Free	$25 + up to $150/month	From $0.10/1M tokens	No
Groq	Free	Unlimited (rate-limited)	1,000 requests/day free	No
OpenAI	Free	$5 (expires after 3 months)	From $0.15/1M tokens	Yes (for GPT-5+)
Anthropic	Free	$5 (expires after 30 days)	From $1.00/1M tokens	Yes
ElevenLabs	Free	10,000 chars/month	From $5/month (Starter)	Yes

Recommended Start (3 minutes, $0 cost)

Create Deepgram account → deepgram.com → Sign up → Copy API Key
Create Gemini API key → aistudio.google.com → “Create API Key” → Copy key
Enter keys in Talk to me → Settings → LLM Key Pool
Go: Dictation tab → preset “Free Gemini” → Dictate with STT + AI Polish. Gemini Live tab → “Start Conversation” → Real-time voice chat with AI.

Optional for even more:

xAI account → x.ai/api → Sign up → API Key → Enter in Key Pool → preset “Free xAI”
Groq account → console.groq.com → Sign up → API Key → presets “Economy” / “Economy Plus” / “Fast Free”

Feature Availability by Tier

Feature	Tier 1 (free)	Tier 2 (free+)	Tier 3 (premium)
Speech dictation (STT)	✓ Deepgram	✓ Deepgram + Whisper	✓ + ElevenLabs Scribe v2
AI Polish (grammar)	—	✓ Grok/Gemini/Groq	✓ + GPT-5.4 / Claude 4.6
Real-time translation	—	✓ (all LLM providers)	✓ (best quality)
Gemini Live Voice Chat	✓ (unlimited)	✓ (unlimited)	✓ (unlimited)
Deepgram Voice Agent	—	✓ (from $200 credit)	✓ (all presets)
BYO Voice Agent Presets	—	✓ (with xAI/Groq keys)	✓ (+ ElevenLabs/OpenAI TTS)
Available presets	2	6+ dictation + 20+ Voice Agent	All (30+)

All prices and free tier conditions are set by the respective providers and may change. Last updated: April 2026.

3. Activación de licencia

La puerta de licencia

En el primer inicio (o después de la expiración de la prueba), se muestra la Puerta de licencia. Muestra:

El logotipo de Talk to me
Un campo de texto para tu clave de licencia (formato: TTM-XXXX-XXXX-XXXX-XXXX)
Tu Machine ID (un identificador único del dispositivo, necesario para la activación)
Un botón Activar
Un botón Iniciar prueba gratuita de 7 días (si no se ha usado ninguna prueba)
Enlaces a Comprar licencia y al Portal del cliente

Activar una licencia

Introduce tu clave de licencia en el campo de texto.
Toca/haz clic en Activar.
La app verifica tu clave en línea y la activa para este dispositivo.
Una vez activada, no volverás a ver la Puerta de licencia a menos que desactives o expire tu licencia.

La prueba gratuita

Toca/haz clic en Iniciar prueba gratuita de 7 días para desbloquear todas las funciones durante 7 días.
Un banner en la parte superior de la app muestra cuántos días de prueba quedan.
Después de 7 días, la prueba expira y la Puerta de licencia reaparece.

Ventana de licencia

Una vez dentro de la app, puedes ver el estado de tu licencia haciendo clic en el botón Licencia (icono de escudo). La ventana de licencia muestra:

Estado: Activa, Prueba, Período de gracia o Expirada
Producto: El nombre del producto de tu licencia
Plan: Anual o De por vida
Expira: Fecha de expiración (o "De por vida")
Dispositivos: Número de dispositivos activos / máximo permitido
Clave: Tu clave de licencia (parcialmente oculta)
Machine ID: El identificador único de tu dispositivo

Desde esta ventana puedes:

Desactivar dispositivo — libera la licencia de este dispositivo para poder usarla en otro
Cerrar — volver a la app

4. Descripción general de la app

La app está organizada en tres pestañas principales y varias secciones de apoyo:

Navegación

En la parte superior de la pantalla, tres pestañas te permiten cambiar entre los modos principales de la app:

Voz a texto — Graba tu voz y obtén texto pulido y traducido
Texto a voz — Convierte texto escrito en audio hablado
AI Voice Chat — Mantén conversaciones por voz en tiempo real con IA (ver §12)

Disposición de la interfaz

Debajo de las pestañas, la interfaz principal está dispuesta verticalmente:

Controles de anulación rápida — Selectores de idioma para entrada y salida
Botones de acción — Acceso rápido a funciones de la plataforma
Indicador de estado — Muestra el estado actual (Listo, Grabando, Transcribiendo, etc.)
Visualización del pipeline — Progreso visual de tu dictado a través de las etapas de procesamiento
Área de resultado — Tu texto transcrito/traducido
Panel TTS (solo pestaña Texto a voz) — Entrada de texto y controles de reproducción
Panel AI Voice Chat (solo pestaña AI Voice Chat) — Selección de voz/persona, controles de conversación, transcripción en vivo (ver §12)
Key Pool — Administra tus claves API
Ajustes — Todas las opciones de configuración

Botones de acción

Windows Botones de acción del escritorio:

Voice Translate — Alternar traducción voz a voz
Notification Listener — Alternar lectura de notificaciones (Edición completa)
Auto-Read — Alternar texto a voz con Ctrl+C
Grabar lecturas TTS — Alternar grabación MP3 de la salida TTS
Guardar grabaciones — Abrir carpeta de grabaciones

Android Botones de acción:

Licencia — Abrir ventana de licencia
Voice Translate — Alternar traducción voz a voz
Overlay — Iniciar/detener la burbuja flotante
Auto-Paste — Abrir ajustes de accesibilidad
Auto-Read — Alternar lectura automática de mensajes
Notif Access — Abrir ajustes del listener de notificaciones

El botón de información

En la cabecera, el botón Info abre la ventana de información de la app, que muestra:

Un enlace a talktome.studio
El correo de soporte (toca/haz clic para copiar)
La versión actual de la app
Número de micrófonos detectados

5. Voz a texto

La pestaña Voz a texto es el modo principal de Talk to me. Aquí grabas tu voz y recibes texto pulido, opcionalmente traducido.

Grabar un dictado

Asegúrate de que el estado muestra Listo — Iniciar dictado (verde).
Haz clic/toca el botón grande Iniciar dictado.
El botón se vuelve rojo y muestra Detener grabación. Habla con claridad.
Durante la grabación puedes ver: Duración de la grabación en segundos, Medidor de nivel de audio mostrando el volumen de entrada, el proveedor STT e idioma activos actualmente.
Haz clic/toca el botón de nuevo para Detener grabación.

Windows También puedes iniciar/detener la grabación usando el atajo global Ctrl+Win (sin necesidad de enfocar la ventana de la app).

Qué ocurre después de grabar

Después de detener la grabación, la app procesa tu audio a través del Pipeline (ver El Pipeline):

Capture — La grabación de audio se finaliza
STT — Tu audio es transcrito por el proveedor seleccionado
Post-procesamiento — El texto sin procesar se limpia (se aplican correcciones de palabras)
Pulido / Traducción — Si está habilitado, la IA corrige la gramática o traduce el texto
Inject — El texto final se coloca en tu portapapeles

Windows El texto se pega automáticamente en la ventana previamente enfocada mediante Ctrl+V simulado (Inyección inteligente de portapapeles).

Android Si Auto-Paste está habilitado, el texto se inserta automáticamente en el campo de texto activo a través del Servicio de accesibilidad.

El área de resultado

Después del procesamiento, tu texto aparece en el área de resultado. Un aviso confirma que el texto ha sido copiado a tu portapapeles y está listo para pegar.

Señales de grabación (Audio Cues)

Talk to me te indica de forma acústica y visual cuándo el micrófono está realmente grabando — para que no se pierda ninguna palabra.

Señales acústicas

Bip de inicio (bip corto y agudo): «El micrófono está activo, puedes hablar.»
Bip de parada (bip corto y grave): «Grabación finalizada.»

Ambos bips se pueden activar/desactivar en los ajustes y su volumen es regulable (por defecto: 100 %).

Señales visuales

Reposo: El icono del micrófono es naranja — grabación inactiva.
Grabación activa: El icono del micrófono es verde — cada palabra se está capturando.

Nota: bip de inicio en altavoces USB

Algunos dispositivos de audio suprimen el bip de inicio. Esto no es un error sino una característica del hardware:

Tipo de dispositivo	¿Bip audible?	Recomendación
Altavoces + micrófono separado	✅ Sí	—
Auriculares con mic + altavoz separados	✅ Sí	—
Altavoz USB (Jabra Speak2, Logitech P710e etc.)	⚠️ Posiblemente no	Usar auriculares o altavoces externos
Auricular Bluetooth en perfil Hands-Free	⚠️ Posiblemente no	Auricular con cable como alternativa

Importante: Si cambias el dispositivo de audio predeterminado, reinicia Talk to me para que el bip se reproduzca en el nuevo dispositivo.

6. Texto a voz

La pestaña Texto a voz te permite convertir cualquier texto escrito en voz con sonido natural.

Uso básico

Cambia a la pestaña Texto a voz.
Escribe o pega texto en el área de texto.
Haz clic/toca Leer en voz alta para iniciar la reproducción.

Controles de reproducción

Pausa — Detiene temporalmente la reproducción
Reanudar — Continúa desde donde pausaste
Detener — Finaliza la reproducción por completo
Reproducir de nuevo — Reproduce el mismo audio sin re-sintetizar

Selección de proveedor y voz

ElevenLabs: Elige entre tus voces disponibles o usa "Default (Brian v3)". Se admiten Voice-IDs personalizados.
OpenAI TTS: Nova, Alloy, Echo, Fable, Onyx, Shimmer
Deepgram Aura 2: Síntesis rápida

Selección de modelo (ElevenLabs)

Modelo	Límite de caracteres	Ideal para
Eleven v3	5.000	Máxima calidad, contenido corto
Multilingual v2	10.000	Soporte multi-idioma
Flash v2.5	40.000	Síntesis rápida, textos largos
Turbo v2.5	40.000	Equilibrio entre velocidad y calidad

Calidad de audio

Calidad	Descripción
MP3 192 kbps	Calidad de creador — máxima fidelidad
MP3 128 kbps	Estándar — buen equilibrio
MP3 64 kbps	Compacto — tamaño de archivo menor
MP3 32 kbps	Mínimo — calidad más baja

Normalización de texto

Ajuste	Descripción
Auto	El modelo decide cómo manejar los números
Siempre activado	Los números se convierten en palabras (p. ej., "42" → "cuarenta y dos")
Desactivado	Sin normalización aplicada

Ajuste fino de voz (ElevenLabs)

Control deslizante	Rango	Descripción
Stability	Variable ↔ Estable	Menor = más expresivo; Mayor = más consistente
Similarity	Creativo ↔ Original	Qué tan cerca está la salida de la voz original
Style	Neutral ↔ Expresivo	Cantidad de expresión emocional
Speed	Lento (0.7×) ↔ Rápido (1.2×)	Velocidad de reproducción

Opciones adicionales

Code-Filter: Elimina bloques de código y sintaxis técnica antes de la síntesis.
Auto-Record: Guarda automáticamente el audio sintetizado. Toca el icono de carpeta para elegir el directorio.
Speaker Boost: Mejora la claridad de la voz (solo ElevenLabs).

7. El Pipeline

El Pipeline es el motor de procesamiento central de Talk to me. Visualiza las etapas por las que pasa tu audio desde la grabación hasta la salida final.

Etapas del Pipeline

Etapa	Etiqueta	Descripción
1	Capture	Grabación y finalización del audio
2	STT	Transcripción de voz a texto
3	Post	Post-procesamiento (limpieza, correcciones de palabras)
4	Polish o Trans	Pulido con IA o traducción con IA
5	Inject	Texto copiado al portapapeles / pegado automáticamente

Indicadores TDF (Campo de visualización de texto)

Cada etapa del pipeline muestra el proveedor activo (p. ej., "Scribe v2", "GPT-5.4") e información de tiempo después de completarse.

Visualización de tiempos

Después del procesamiento, una línea de tiempos muestra:

STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s

Si Voice Translate está activo, se muestra un tiempo adicional de S2S (Speech-to-Speech).

8. Voice Translate

Voice Translate combina la traducción con IA y el texto a voz para crear una experiencia de traducción voz a voz en tiempo real.

Nuevo desde v0.5.150: La traducción de texto ahora se activa automáticamente cuando tu idioma de entrada (Speech Input) y tu idioma de salida (Text Output) son diferentes. Ya no necesitas un interruptor separado para la traducción. El botón Voice Translate ahora solo controla si el texto final se lee en voz alta (salida Text-to-Speech).

Ejemplos

Entrada alemán, salida inglés, Voice Translate desactivado → El texto se traduce automáticamente, pero solo se coloca en el portapapeles.
Entrada alemán, salida inglés, Voice Translate activado → El texto se traduce y se lee en voz alta en inglés.
Entrada alemán, salida alemán, Voice Translate activado → Sin traducción, pero el texto en alemán se lee en voz alta (TTS clásico).

Cómo funciona

Activa Voice Translate (púrpura cuando está activo).
Graba un dictado en tu idioma de origen.
La app transcribe → traduce → lee la traducción en voz alta.

Configuración

Idioma de destino: Configurar en Ajustes → AI-Translate → Traducir a
Voz TTS: Usa tu proveedor y voz TTS configurados

Casos de uso

Viajes: Habla en tu idioma, escucha la traducción en voz alta.
Aprendizaje de idiomas: Escucha cómo suena tu texto en otro idioma.
Inmersión lingüística en vivo: Convierte tus propios pensamientos en fluidez en vivo — habla en tu idioma nativo y absorbe la salida en el idioma que quieres dominar.

9. AI Polish y traducción

AI-Polish

Cuando está habilitado, AI-Polish corrige la gramática, la puntuación y (con el ajuste "Fuerte") elimina muletillas como "eh", "o sea", "bueno", "básicamente".

Intensidad del pulido:

Light — Solo corrección de gramática y puntuación
Strong — También elimina muletillas

Indicadores de estado:

POLISH (cian) — Activo
OFF — Desactivado
KEY MISSING (amarillo) — No hay clave LLM configurada

AI-Translate

Cuando está habilitado, tu texto dictado se traduce al idioma de destino.

Indicadores de estado:

TRANSLATE (cian) — Activo, mostrando idioma de destino
VOICE OUTPUT (púrpura) — Voice Translate también activo
TEXT ONLY — Traducción sin salida de voz
OFF — Desactivado

Nota: Desde v0.5.150, Talk to me detecta automáticamente cuando los idiomas de entrada y salida son diferentes y activa la traducción — sin un interruptor explícito. El KI-Polish permanece disponible de forma independiente y ya no se desactiva automáticamente.

10. Controles de anulación rápida

Los controles de anulación rápida te permiten cambiar temporalmente el idioma de entrada o salida para un solo dictado sin modificar tus ajustes guardados.

Anulación de entrada de voz

Selecciona un idioma de entrada diferente para la próxima grabación:

Detección automática — El proveedor STT detecta el idioma automáticamente
Idiomas individuales (ver Apéndice A)

Anulación de salida de texto

Selecciona un idioma de salida diferente (equivalente a habilitar temporalmente la traducción):

Predeterminado (igual que la entrada) — Sin traducción
Los 20 idiomas de traducción

Restablecer a ajustes

Cuando una anulación está activa, aparece un botón Restablecer (icono ↩). Toca/haz clic para volver a tus ajustes guardados.

11. Key Pool

El Key Pool es donde administras tus claves API. Talk to me usa una arquitectura basada en pool — puedes añadir múltiples claves por categoría, y la app rota automáticamente entre ellas basándose en puntuaciones de confianza.

Categorías

Categoría	Propósito	Proveedores compatibles
Speech-to-Text	Transcripción	OpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper
AI-Polish / LLM	Gramática, traducción	OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Text-to-Speech	Síntesis de voz	ElevenLabs, Deepgram, OpenAI TTS

Añadir una clave

Expande la sección Key Pool.
Haz clic/toca + Añadir clave en la categoría deseada.
Selecciona el Proveedor.
Introduce una Etiqueta (p. ej., "Mi clave OpenAI").
Introduce tu Clave API.
Haz clic/toca Guardar clave.

Funciones del slot de clave

Cada slot de clave muestra:

Etiqueta y Proveedor
Clave enmascarada (últimos 4 caracteres visibles)
Puntuación de confianza — Con código de color (verde/amarillo/rojo)
Estadísticas — Llamadas, éxitos, fallos, límites de tasa

Acciones por slot:

Probar — Verificar que la clave funciona
Pausar / Activar — Deshabilitar o rehabilitar temporalmente
Eliminar — Borrar permanentemente

Sistema de confianza

Nivel	Puntuación	Color	Comportamiento
Excelente	≥80%	Verde	Preferido
Bueno	≥60%	Verde	Normal
Aceptable	≥40%	Amarillo	Respaldo
Débil	≥20%	Amarillo	Raramente usado
Crítico	<20%	Rojo	Último recurso

Las claves que alcanzan límites de tasa se colocan en enfriamiento automático mientras se usan otras claves.

12. AI Voice Chat

Talk to me incluye dos motores independientes de AI Voice Chat, cada uno con sus propias fortalezas. Puedes cambiar entre ellos en cualquier momento desde la pestaña AI Chat.

Motor	Tecnología	Ventaja principal
12a. Deepgram Voice Agent	Deepgram Agent API (WebSocket)	32+ presets, 6 proveedores LLM, 4 proveedores TTS, monitoreo de latencia, modos gestionado y BYO
12b. Gemini 3.1 Flash Live	Google Gemini Live API (WebSocket)	30 voces expresivas, presets de persona, control de profundidad de pensamiento, IA multimodal nativa de Google

Modo altavoz manos libres completo (Android)

Ambos motores de chat de voz funcionan completamente manos libres a través del altavoz de tu teléfono. Talk to me usa cancelación de eco acústico (AEC) propietaria mediante un puente nativo de Android para separar tu voz de la salida del altavoz de la IA. Interrumpe en cualquier momento — la IA se detiene inmediatamente y continúa desde donde quieras. No se requieren auriculares ni equipo adicional. Los usuarios de escritorio con cualquier configuración estándar funcionan igual de bien.

12a. Deepgram Voice Agent

El Deepgram Voice Agent proporciona conversaciones de voz con IA en tiempo real y full-duplex a través de una única conexión WebSocket a la API de Deepgram Agent. Orquesta Speech-to-Text (STT), Large Language Models (LLMs) y Text-to-Speech (TTS) en un pipeline unificado — tú hablas, la IA piensa y responde con voz natural, todo en tiempo real.

Primeros pasos

Cambia a la pestaña AI Chat, luego selecciona la sub-pestaña Deepgram.
Añade una clave API de Deepgram en el Key Pool (desplázate hasta la sección «Deepgram Voice Agent»).
Elige un Preset de configuración o configura manualmente.
Toca el botón verde Iniciar conversación.

Presets de configuración (32+ opciones)

Talk to me incluye más de 32 presets en seis categorías. Cada preset preconfigura el modelo STT, proveedor/modelo LLM, proveedor/voz TTS y parámetros de detección de turno.

Top Tier — Mejor calidad

Preset	LLM	TTS	STT
Gemini 3.0 Pro + Sonic-3	Google Gemini 3.0 Pro	Cartesia Sonic-3	Nova-3
Claude 4.5 + Sonic-3	Anthropic Claude Sonnet 4.5	Cartesia Sonic-3 (Tessa)	Nova-3
Claude 4.6 + Sonic-3	Anthropic Claude Sonnet 4.6	Cartesia Sonic-3 (Katie)	Nova-3
GPT-5.4 + Sonic-3	OpenAI GPT-5.4	Cartesia Sonic-3 (Katie)	Nova-3
GPT-5.4 + Kiefer	OpenAI GPT-5.4	Cartesia Sonic-3 (Kiefer, Male)	Nova-3

Ultra-Fast — Latencia mínima (~1.1s)

Preset	LLM	TTS	STT
GPT-4o Mini + Sonic-3	OpenAI GPT-4o Mini	Cartesia Sonic-3	Nova-3
GPT-5.4 Nano + Sonic-3	OpenAI GPT-5.4 Nano	Cartesia Sonic-3	Nova-3
Haiku 4.5 + Sonic-3	Anthropic Claude Haiku 4.5	Cartesia Sonic-3	Nova-3
Gemini 2.5 Flash + Sonic-3	Google Gemini 2.5 Flash	Cartesia Sonic-3	Nova-3
Nemotron 49B + Sonic-3	NVIDIA Nemotron Super 49B	Cartesia Sonic-3	Nova-3

Flux — Solo inglés, latencia ultra-baja

Flux usa el modelo STT Flux de Deepgram con detección de fin de turno anticipada para los tiempos de respuesta más rápidos. Solo inglés.

Preset	LLM	TTS
Flux + GPT-4o Mini + Sonic-3	OpenAI GPT-4o Mini	Cartesia Sonic-3
Flux + GPT-5.4 Nano + Sonic-3	OpenAI GPT-5.4 Nano	Cartesia Sonic-3
Flux + GPT-5.4 + Sonic-3	OpenAI GPT-5.4	Cartesia Sonic-3
Flux + Claude 4.6 + Sonic-3	Anthropic Claude 4.6	Cartesia Sonic-3
Flux + Gemini Flash + Sonic-3	Google Gemini 2.5 Flash	Cartesia Sonic-3

Balanced — Calidad + Velocidad

Preset	LLM	TTS
GPT-5 Mini + Sonic-3	OpenAI GPT-5 Mini	Cartesia Sonic-3
GPT-4.1 Mini + Sonic-3	OpenAI GPT-4.1 Mini	Cartesia Sonic-3
Haiku 4.5 + Tessa	Anthropic Haiku 4.5	Cartesia Sonic-3 (Tessa)
Gemini 3.0 Flash + Sonic-3	Google Gemini 3.0 Flash	Cartesia Sonic-3

Experimental — Deepgram Aura-2 TTS (específico por idioma)

Preset	LLM	Voz TTS
GPT-5.4 + Julius (DE)	OpenAI GPT-5.4	Aura-2 Julius (alemán, masculina)
GPT-5.4 + Zeus (EN)	OpenAI GPT-5.4	Aura-2 Zeus (inglés, masculina)
Claude 4.6 + Thalia (EN)	Anthropic Claude 4.6	Aura-2 Thalia (inglés, femenina)
GPT-5.4 + Agathe (FR)	OpenAI GPT-5.4	Aura-2 Agathe (francés, femenina)
GPT-5.4 + Celeste (ES)	OpenAI GPT-5.4	Aura-2 Celeste (español, femenina)

Full BYO — Trae tus propias claves de LLM y TTS

En el modo Full BYO, Deepgram solo se encarga del STT (Nova-3). Tus propias claves API para proveedores de LLM y TTS se utilizan directamente.

Preset	LLM (clave BYO)	TTS (clave BYO)
GPT-5.4 + ElevenLabs	OpenAI GPT-5.4	ElevenLabs Turbo v2.5
GPT-5.4 + OpenAI TTS	OpenAI GPT-5.4	OpenAI TTS-1
GPT-5.4 Nano + ElevenLabs	OpenAI GPT-5.4 Nano	ElevenLabs Turbo v2.5
Gemini 3 Pro + ElevenLabs	Google Gemini 3 Pro	ElevenLabs Turbo v2.5
Gemini Flash + OpenAI TTS	Google Gemini 2.5 Flash	OpenAI TTS-1
Claude 4.6 + ElevenLabs	Anthropic Claude 4.6	ElevenLabs Turbo v2.5
Claude 4.6 + OpenAI TTS	Anthropic Claude 4.6	OpenAI TTS-1
Grok 3 Mini + ElevenLabs	xAI Grok 3 Mini	ElevenLabs Turbo v2.5

Bloqueo y desbloqueo de presets

Cuando un preset está activo, todos los campos de configuración están bloqueados con los valores del preset (indicado por un icono de candado). Esto evita cambios accidentales. Para modificar ajustes individuales, toca Desbloquear para edición manual. Cambiar cualquier ajuste manualmente cambia el preset a «Configuración manual».

Configuración manual

Toca el icono de engranaje junto al botón Iniciar para abrir el panel de configuración. Todos los campos siguientes están disponibles:

Proveedor LLM

Proveedor	Modelos principales
OpenAI	GPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (incl. Nano, Mini)
Anthropic	Claude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6
Google	Gemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite
NVIDIA	Llama Nemotron Super 49B, Nemotron 3 Nano 30B
xAI	Grok 3, Grok 3 Mini, Grok 3 Fast
Groq	GPT OSS 20B

Proveedor TTS

Proveedor	Voces	Idiomas	Clave requerida
Cartesia Sonic-3	9 voces (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default)	42 idiomas (detección automática multilingüe)	Solo clave Deepgram (gestionado)
Deepgram Aura-2	35+ voces (EN, DE, FR, ES, IT, NL, JA)	Específico por idioma según la voz	Solo clave Deepgram (gestionado)
ElevenLabs	Tus voces de ElevenLabs (carga automática)	Multilingüe	Clave API de ElevenLabs (BYO)
OpenAI TTS	10 voces (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer)	Inglés	Clave API de OpenAI (BYO)

Modelo STT

Modelo	Idiomas	Caso de uso
Nova-3	Multilingüe	Estándar, mejor precisión general
Nova-3 General	Multilingüe	Variante de propósito general
Nova-3 Medical	Multilingüe	Optimizado para terminología médica
Flux	Solo inglés	Detección de turno con ultra-baja latencia

Otros ajustes

Idioma — Detección automática (multilingüe) o un idioma específico: inglés, alemán, francés, español, italiano, neerlandés, japonés, portugués, hindi, ruso
Mensaje de bienvenida — Texto que el agente habla al iniciar la conversación (opcional)
Instrucción del sistema — Define la personalidad y comportamiento de la IA. Siempre se incluye una instrucción base que evita el formato markdown y las preguntas de seguimiento en la salida de voz.

Ajustes avanzados

Expande la sección Avanzado para ajuste fino:

Temperature (0.00 – 2.00) — Controla la creatividad de las respuestas. Predeterminado: 0.7. Menor = más enfocado, mayor = más creativo.
Modelo STT — Cambia entre variantes de Nova-3 y Flux.

Cuando se selecciona Flux STT, aparecen controles adicionales:

Umbral de EOT anticipado (0.0 – 1.0) — Qué tan agresivamente el sistema detecta el fin de turno. Mayor = respuesta más rápida pero puede cortarte a mitad de frase.
Tiempo límite de EOT (0 – 5000ms) — Silencio máximo antes de que el agente responda.

Para ElevenLabs BYO: Un campo de Voice ID personalizado te permite ingresar cualquier ID de voz de ElevenLabs directamente.
Para OpenAI TTS BYO: Selecciona entre 10 voces de OpenAI (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).

Durante una conversación

Indicador de estado — Muestra Listo, Conectando, En vivo (con tiempo transcurrido) o Error
Medidor de nivel de audio — Muestra la entrada del micrófono con estado Escuchando/Silencio
Indicador de pensamiento — Aparece una insignia verde mientras el LLM procesa tu entrada
Transcripción de la conversación — Visualización en tiempo real de todo el diálogo. Tus mensajes aparecen a la derecha (verde), los del agente a la izquierda (azul).
Barge-in — Interrumpe la IA en cualquier momento hablando. El agente se detiene inmediatamente y te escucha.
Control de redimensionamiento — Arrastra el control debajo de la transcripción para redimensionar el área de chat (120px al 85% de la pantalla)
Botones duales Iniciar/Detener — Uno arriba, otro fijo abajo para fácil acceso al desplazarse

Monitoreo de latencia

Una barra de latencia compacta aparece después del primer turno, mostrando tres métricas clave:

LLM — Tiempo desde tu habla hasta el primer token del LLM
TTFB — Tiempo total hasta el primer byte (extremo a extremo)
TURN — Duración completa del turno incluyendo reproducción de audio

Los valores están codificados por color: verde (< 2s), amarillo (2–5s), rojo (> 5s).

Toca la barra de latencia para expandir una tabla detallada por turno con columnas: #, Duración del habla, Tiempo LLM, Tiempo TTS, TTFB, Longitud de audio, Total. El promedio de LLM y TTFB se muestra en el encabezado.

Cancelación de eco (AEC)

Talk to me incluye cancelación de eco acústico propietaria mediante un puente nativo de Android Kotlin. La salida del altavoz de la IA se captura y se resta de la entrada de tu micrófono en tiempo real, previniendo bucles de retroalimentación. Esto permite operación completamente manos libres por altavoz sin auriculares. Funciona en todos los presets gestionados y la mayoría de las configuraciones BYO.

Key Pool — Deepgram Voice Agent

El Key Pool de Deepgram Voice Agent es una sección dedicada y plegable debajo del área de chat. Gestiona:

Claves API de Deepgram (requeridas) — para STT y enrutamiento gestionado de LLM/TTS
Claves LLM (opcional, solo Full BYO) — OpenAI, Anthropic, Gemini, xAI
Claves TTS (opcional, solo Full BYO) — ElevenLabs, OpenAI TTS

Cada tarjeta de clave muestra un diseño de 4 filas: etiqueta, insignia de proveedor + clave enmascarada, puntuación de confianza con estadísticas, y botones de acción Probar/Pausar. Puedes probar claves individuales o todas a la vez.

Límites de sesión

Las sesiones están limitadas a 15 minutos máximo (restricción de la API). El tiempo transcurrido se muestra en el botón Detener. La sesión termina automáticamente al alcanzar el límite.

Consejos

Comienza con un preset gestionado (Top Tier o Ultra-Fast) — solo requieren una clave de Deepgram y ofrecen la mejor experiencia.
GPT-5.4 Nano + Cartesia Sonic-3 ofrece tiempos de respuesta de ~1.1s — la opción más rápida.
Los presets Flux son solo en inglés pero extremadamente rápidos gracias a la detección anticipada de fin de turno.
Los presets Full BYO usan tus propias claves de LLM/TTS para máximo control pero pueden tener rendimiento reducido de Barge-in con algunos proveedores TTS.
Todos los ajustes toman efecto en el próximo inicio de sesión, no durante una sesión en vivo.

12b. Gemini 3.1 Flash Live

Gemini 3.1 Flash Live proporciona conversaciones de voz en tiempo real impulsadas por el último modelo de audio IA de Google. Ofrece la velocidad y el ritmo natural necesarios para la interacción por voz, con latencia inferior a un segundo, 30 voces expresivas y comprensión multimodal nativa.

Requisitos

Necesitas una clave API de Google Gemini (se recomienda el nivel de pago) añadida al Key Pool de LLM en Ajustes. La clave está disponible automáticamente para AI Voice Chat. El modelo utilizado es gemini-3.1-flash-live-preview.

Iniciar una conversación

Navega a la pestaña AI Chat, luego selecciona la sub-pestaña Gemini. Toca Iniciar conversación. La app se conecta a Gemini vía WebSocket, abre tu micrófono y comienza a escuchar. Habla con naturalidad — Gemini responde con audio en tiempo real. Toca Finalizar para detener.

Voces (30 opciones)

Elige entre 30 voces de IA naturales, cada una con una personalidad distinta:

Voz	Carácter	Ideal para
Sulafat	Cálida	Narración de historias, cuentos para dormir, conversaciones tranquilas
Gacrux	Madura	Narración autoritaria, mentoría, discusiones profundas
Algenib	Ronca	Narración cinematográfica, lectura dramática, voz de personaje
Kore	Firme	Informes profesionales, lectura de noticias, preguntas y respuestas factuales
Puck	Enérgica	Conversaciones enérgicas, motivación, lluvia de ideas
Zephyr	Brillante	Charlas optimistas, asistencia amigable, saludos
Charon	Informativa	Tutoriales, explicaciones estilo documental
Fenrir	Entusiasta	Reacciones entusiastas, comentarios de juegos, emoción
Leda	Juvenil	Chat casual, conversaciones Gen-Z, temas de tendencia
Aoede	Relajada	Conversaciones relajadas, charlas de viajes, estilo de vida
Achernar	Suave	Guía de meditación, estilo ASMR, ánimo suave
Algieba	Fluida	Presentación de podcasts, audiolibros, lecturas extensas
Despina	Fluida	Narración elegante, voz de marca de lujo
Achird	Amigable	Soporte al cliente, asistencia cotidiana, tono acogedor
Vindemiatrix	Gentil	Conversaciones de apoyo, tono terapéutico, empatía
Sadaltager	Conocedora	Explicaciones técnicas, Q&A experto, enciclopédica
Rasalgethi	Informativa	Documentales de ciencia, contenido educativo
Schedar	Equilibrada	Discusiones equilibradas, reportaje neutral, debates
Alnilam	Firme	Presencia imponente, liderazgo, entornos formales
Pulcherrima	Directa	Comunicación asertiva, pitch, presentaciones
Zubenelgenubi	Casual	Charla relajada, amigos poniéndose al día, humor
Sadachbia	Vivaz	Narración animada, contenido infantil, juguetón
Laomedeia	Animada	Programas matutinos, noticias alegres, vibraciones positivas
Callirrhoe	Desenfadada	Consejos casuales, coaching de estilo de vida, accesible
Autonoe	Brillante	Sesiones creativas, generación de ideas, discusiones de arte
Enceladus	Susurrante	Narración íntima, lectura de poesía, atmosférica
Iapetus	Clara	Instrucciones precisas, guías paso a paso, claridad
Erinome	Clara	Comunicación limpia, capacitación corporativa, dicción
Umbriel	Desenfadada	Q&A relajado, vibraciones de fin de semana, conversaciones tranquilas

Consejo: Previsualiza todas las voces en la Biblioteca de voces de Google AI Studio.

Idioma

Selecciona entre 24 idiomas compatibles o deja en Detección automática. Gemini responde en el idioma que hables — o en el idioma que selecciones. Compatibles: inglés, alemán, francés, español, italiano, portugués, neerlandés, polaco, rumano, ruso, ucraniano, turco, árabe, hindi, bengalí, tamil, telugu, maratí, japonés, coreano, tailandés, vietnamita, indonesio.

Presets de persona

Los presets de persona definen cómo se comporta Gemini — su personalidad, tono y estilo de comunicación. Elige entre seis presets o crea el tuyo propio:

Preset	Comportamiento
Friendly Assistant	Cálido, conversacional, accesible — ideal para uso diario
Professional	Claro, conciso, autoritario — para negocios y trabajo
Enthusiastic	Enérgico, positivo, alentador — para lluvia de ideas y motivación
Calm & Soothing	Lento, suave, paciente — para relajación y sesiones guiadas
Teacher	Paciente, paso a paso, usa analogías — para aprendizaje y explicaciones
Creative	Imaginativo, expresivo, lenguaje vívido — para narración y arte
Custom	Escribe tu propia instrucción de sistema desde cero

Instrucción del sistema

La instrucción del sistema es un texto informativo que le das a Gemini antes de que comience la conversación. Piénsalo como dirigir a un actor: dile a la IA quién es, cómo comportarse y en qué enfocarse.

Ejemplos:

«Eres un tutor de italiano paciente. Habla despacio. Corrige mi gramática con suavidad.»
«Eres un arquitecto de software senior. Responde de forma concisa y técnica.»
«Eres un narrador creativo. Habla con estilo. Usa un lenguaje vívido.»

Al usar un preset de persona, tu texto personalizado se añade a la instrucción del preset. En el modo Custom, tu texto es la instrucción completa. Escribe en inglés para mejores resultados. Los ajustes se guardan automáticamente.

Profundidad de pensamiento

Controla qué tan profundamente razona Gemini antes de responder:

Nivel	Comportamiento
Minimal	Respuestas más rápidas, razonamiento interno mínimo (predeterminado)
Low	Consideración breve, buen equilibrio
Medium	Respuestas reflexivas, pausa más larga antes de responder
High	Razonamiento profundo, mejor para preguntas complejas

Temperature y Top-P

Temperature (0.0 – 2.0) controla qué tan creativa vs. predecible responde la IA:

Rango	Comportamiento	Ideal para
0.0 – 0.5	Enfocado, determinístico	Hechos, respuestas técnicas, instrucciones precisas
0.7 – 1.0	Equilibrado, natural (predeterminado: 1.0)	La mayoría de conversaciones, uso diario
1.2 – 2.0	Creativo, sorprendente	Lluvia de ideas, narración, escritura creativa

Top-P (0.0 – 1.0) limita el grupo de palabras que la IA considera. Con 0.95 (predeterminado), el modelo elige del 95% de las palabras más probables. Valores más bajos hacen que la salida sea más conservadora.

Detección de actividad vocal (VAD)

Los ajustes de VAD controlan cómo Gemini detecta cuándo empiezas y dejas de hablar:

Sensibilidad de inicio de habla — Qué tan fácilmente el sistema detecta el inicio del habla.
Sensibilidad de fin de habla — Qué tan rápido el sistema decide que has dejado de hablar.
Duración de silencio — Cuántos milisegundos de silencio antes de que se considere tu turno completo (100–2000ms).

Cancelación de eco (AEC)

Idéntica al Deepgram Voice Agent, Gemini 3.1 Flash Live se beneficia de la cancelación de eco acústico propietaria de Talk to me mediante el puente nativo de Android Kotlin. El modo manos libres por altavoz funciona sin auriculares.

Consejos para mejores resultados

Habla con naturalidad — Gemini soporta interrupción natural (Barge-in) (interrumpe en cualquier momento)
En Android, el AEC integrado elimina el eco — no se necesitan auriculares
La duración de la sesión está limitada a 15 minutos por conexión (límite de la API)
Todos los ajustes toman efecto en el próximo inicio de sesión (no durante una sesión en vivo)
El medidor de nivel de audio muestra un gradiente de colores (verde, amarillo, naranja, rojo) indicando el nivel de entrada de tu micrófono
La transcripción de tu habla y de las respuestas de Gemini se pueden activar/desactivar independientemente

13. Mini-Player Windows

El Mini-Player es una ventana compacta siempre visible que proporciona controles esenciales de dictado sin ocupar toda tu pantalla.

Entrar en el modo Mini-Player

Haz clic en el botón Contraer (icono ↗) en la cabecera. La ventana de la app se reduce a una superposición compacta posicionada en la parte inferior central de tu pantalla.

Disposición del Mini-Player

El Mini-Player muestra una cuadrícula de 3×3 con controles esenciales:

Fila 1: Selector de entrada de voz, Botón de estado/inicio, Selector de salida de texto
Fila 2: Botón Voice Translate, Pill en línea (analizador de espectro), Guardar grabaciones
Fila 3: TDFs de tiempos del pipeline, Vista previa del resultado

Dimensionamiento adaptado a DPI

El Mini-Player ajusta automáticamente su tamaño según la escala DPI de tu pantalla, asegurando dimensiones visuales consistentes entre monitores con diferentes resoluciones (100%, 125%, 150%).

Salir del modo Mini-Player

Haz clic en el botón Expandir para volver a la ventana de tamaño completo en su posición y tamaño anteriores.

14. Atajos globales Windows

Talk to me registra atajos de teclado a nivel del sistema para que puedas controlar el dictado sin cambiar a la ventana de la app.

Atajos principales

Atajo	Acción
Ctrl+Win	Iniciar / Detener grabación (global, funciona desde cualquier app)
Ctrl+Win (durante procesamiento)	Cancelar pipeline actual

Atajo TTS

Cuando hay texto seleccionado en cualquier aplicación, el atajo TTS lo lee en voz alta usando tu proveedor TTS configurado.

Hook de bajo nivel

El atajo global usa un hook de teclado de bajo nivel de Windows, lo que significa que funciona incluso cuando la app está minimizada u otra aplicación tiene el foco. El hook opera en "modo sin absorción" — intercepta la combinación de teclas sin bloquear otra entrada del teclado.

15. Auto-Read Windows

Auto-Read es una función exclusiva de Windows que extrae texto de la aplicación enfocada actualmente y lo lee en voz alta vía TTS.

Cómo funciona

Activa Auto-Read haciendo clic en el botón Auto-Read.
Selecciona texto en cualquier aplicación (o usa Ctrl+C para copiar).
Talk to me detecta el contenido del portapapeles y automáticamente lo lee en voz alta usando tu configuración TTS.

Casos de uso

Lee correos, artículos o documentos sin mirar la pantalla.
Revisa tu propia escritura escuchándola en voz alta.
Soporte de accesibilidad para usuarios con discapacidad visual.

16. Notification Listener Windows

El Notification Listener es una función exclusiva de la Edición completa que captura las notificaciones toast de Windows y las lee en voz alta vía TTS.

Requisitos

Windows Desktop Edición completa (no disponible en la Edición de Microsoft Store)
Permiso de acceso a notificaciones otorgado en la configuración de Windows

Cómo funciona

Activa Notification Listener haciendo clic en el botón.
Otorga el acceso a notificaciones cuando Windows lo solicite.
Cuando llega una notificación toast de Windows (correo, mensaje de chat, recordatorio de calendario), Talk to me extrae el título y el cuerpo de la notificación, y lo lee en voz alta usando tu configuración TTS.

Configuración

Activar/desactivar en Ajustes → Manos libres
La voz y el proveedor TTS siguen tus ajustes globales de TTS

17. Grabación y guardado MP3 Windows

Grabar lecturas TTS

Cuando está habilitado, cada síntesis TTS se guarda automáticamente como archivo MP3 con numeración secuencial (p. ej., recording_001.mp3, recording_002.mp3).

Guardar grabaciones

Haz clic en Guardar grabaciones para abrir la carpeta que contiene todos los archivos MP3 grabados. Puedes configurar el directorio de grabación en Ajustes.

Nota sobre los permisos de Android Android

La versión de Android de Talk to me requiere varios permisos del sistema (Micrófono, Superposición, Servicio de accesibilidad, Listener de notificaciones) — cada uno con su propio diálogo de confirmación. Entendemos que esto puede resultar tedioso.

Habríamos preferido una experiencia de configuración más sencilla. Sin embargo, las políticas de Google Play Store y las directrices de seguridad de Android requieren que cada permiso sensible se solicite individualmente, con una divulgación clara que explique para qué se usa el permiso y para qué no se usa. Estos flujos de confirmación de múltiples pasos no son nuestra elección de diseño — son requeridos por los requisitos de cumplimiento de la plataforma.

Cada permiso se solicita solo cuando realmente necesitas la función, no todos a la vez durante la instalación. Puedes revocar cualquier permiso en cualquier momento a través de los Ajustes de Android. La app seguirá funcionando — la función correspondiente simplemente se desactivará.

Aquí tienes un resumen de todos los permisos de Android y por qué son necesarios:

Permiso	Función	¿Requerido?
Micrófono	Dictado de voz a texto, AI Voice Chat	Sí — función principal
Dibujar sobre otras apps	Burbuja flotante (superposición manos libres)	Solo si usas la superposición
Servicio de accesibilidad	Auto-Paste de texto en campos de entrada de apps de chat	Solo si usas Auto-Paste
Listener de notificaciones	Lectura automática de mensajes entrantes en voz alta	Solo si usas Auto-Read
Internet	Comunicación con proveedores de IA	Sí — requerido para todas las funciones

Gracias por tu comprensión. Nos tomamos tu privacidad en serio — ninguno de estos permisos se usa para recopilar, almacenar o transmitir datos personales. Consulta Privacidad y seguridad para todos los detalles.

18. Burbuja flotante (Overlay) Android

La burbuja flotante es un pequeño icono circular que flota sobre todas las demás apps, proporcionando acceso al dictado manos libres sin cambiar de app.

Activar la superposición

Toca el botón Overlay en la app principal.
Si el permiso de Android "Dibujar sobre otras apps" aún no está otorgado, se te dirigirá a habilitarlo.
Aparece una pequeña burbuja de Talk to me en la pantalla.

Usar la burbuja

Toque simple: Iniciar o detener la grabación. Borde rojo pulsante durante la grabación, borde azul pulsante durante la lectura TTS.
Triple toque: Prueba de lectura — lee un texto predefinido para confirmar que TTS funciona.
Pulsación larga: Limpia la cola de mensajes no leídos.
Arrastrar: Mueve la burbuja a cualquier lugar de la pantalla.

Durante la grabación vía burbuja

Toca la burbuja para iniciar la grabación.
Después de la transcripción, un aviso "✓ ¡Insertado!" confirma que el texto fue pegado o colocado en el portapapeles.

Traducción e inserción automática en la Bubble

La Bubble utiliza la misma lógica de traducción que la ventana principal: si tus idiomas de entrada y salida difieren, tu dictado se traduce automáticamente antes de insertarse. Voice Translate (lectura en voz alta) también funciona en la Bubble.

Mediante el Servicio de Accesibilidad de Android, la Bubble inserta el texto (posiblemente traducido) directamente en el campo de entrada activo. En todas las apps populares probadas — WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest y Skool — la inserción automática funciona de forma fiable.

Si usas una app muy exótica donde la inserción automática falla, el texto ya traducido está en el portapapeles — un toque largo en el campo de entrada y «Pegar» hace visible el texto.

Detener la superposición

Toca el botón Overlay de nuevo o toca Detener en la notificación.

19. Auto-Paste Android

Auto-Paste usa el Servicio de accesibilidad de Android para insertar automáticamente el texto dictado en el campo de texto enfocado actualmente.

Habilitar Auto-Paste

Toca el botón Auto-Paste.
Un diálogo de divulgación explica qué hace y qué no hace el Servicio de accesibilidad. Toca Habilitar Auto-Paste.
Se te dirige a los Ajustes de accesibilidad de Android. Encuentra Talk to me y habilítalo.
El botón ahora muestra ✓ con borde cian.

Botón de atajo de accesibilidad

Al habilitar el Servicio de accesibilidad, Android te pedirá que elijas un atajo de activación. Esto determina cómo puedes alternar rápidamente el servicio:

Botón de accesibilidad (recomendado): Un pequeño botón aparece en la barra de navegación. Tócalo para alternar el servicio.
Volumen arriba + Volumen abajo (mantener 3 segundos): Presiona y mantén ambas teclas de volumen simultáneamente durante 3 segundos para alternar.

Recomendamos la opción de Botón de accesibilidad para la experiencia más fácil. Esta es una función estándar del sistema Android — la elección no afecta cómo funciona Auto-Paste.

Notas importantes

Requiere permiso de accesibilidad de Android (un permiso sensible).
Puede necesitar re-otorgarse después de actualizaciones de la app.
Se usa exclusivamente para la inserción de texto — no se accede a ningún otro dato de accesibilidad.

Compatibilidad de apps

Auto-Paste funciona de forma fiable en la mayoría de apps Android. Las siguientes apps fueron probadas con v0.5.159:

App	Auto-Paste	Traducción
WhatsApp	✅	✅
Gmail (destinatario + cuerpo)	✅	✅
Discord	✅	✅
Microsoft Teams	✅	✅
Viber	✅	✅
Chrome	✅	✅
ChatGPT	✅	✅
Facebook	✅	✅
Instagram	✅	✅
Pinterest	✅	✅
Skool (WebView en Chrome)	✅	✅
Viber	✅	✅

"Acceso a la app denegado" — Ajustes restringidos (Android 13+)

En algunos dispositivos, al habilitar Auto-Paste o Acceso a notificaciones, puedes ver "Acceso a la app denegado" o "Por tu seguridad, este ajuste no está disponible actualmente." Esto no es un error — es una función de seguridad de Android 13+ llamada Ajustes restringidos.

Fabricantes afectados: Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.

Cómo solucionarlo:

Abre Android Ajustes → Apps → Ver todas las apps → encuentra Talk to me.
Toca Talk to me para abrir la página Info de la app (no la subpágina de Notificaciones).
Toca el menú de tres puntos (⋮) en la esquina superior derecha.
Selecciona Permitir ajustes restringidos.
Confirma con tu PIN/huella digital.
Vuelve a Ajustes → Accesibilidad y habilita Talk to me.

Consejo: Si el menú de tres puntos no es visible, primero intenta habilitar el permiso (provocando el error), luego ve a la página Info de la app — el menú debería aparecer ahora.

Xiaomi/MIUI/HyperOS: Ve a Ajustes → Apps → Gestionar apps → Talk to me y desplázate hasta abajo.

Lenovo (ZUI): Al tocar Apps en Ajustes, puedes llegar a la subpágina de Notificaciones en lugar de Info de la app. Navega hacia atrás y busca la página completa de Info de la app con secciones de almacenamiento, permisos y batería.

20. Lectura automática de mensajes Android

La lectura automática lee en voz alta los mensajes de chat entrantes usando TTS — ideal para conducir, cocinar o hacer ejercicio.

Cómo funciona

Activa Auto-Read (icono de auriculares).
Asegúrate de que Acceso a notificaciones está otorgado.
La Superposición debe estar activa.
Cuando llega un mensaje de una app permitida, Talk to me anuncia el remitente y lee el mensaje en voz alta.

Apps de chat preseleccionadas

WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.

Puedes añadir o eliminar apps en Configuración de apps Auto-Read.

21. Acceso a notificaciones Android

El acceso a notificaciones permite que Talk to me lea las notificaciones entrantes, necesario para la lectura automática de mensajes.

Otorgar acceso

Toca el botón Notif Access.
Ve a los Ajustes de Listener de notificaciones de Android.
Encuentra Talk to me y habilítalo.
El botón muestra ✓ con borde cian.

Notas importantes

Permiso a nivel de sistema — solo procesa notificaciones de apps explícitamente permitidas.
Ningún dato de notificación se almacena, transmite o registra.

22. Configuración de apps Auto-Read Android

Controla qué apps pueden tener sus notificaciones leídas en voz alta.

Apps de chat conocidas

Apps de mensajería preseleccionadas con interruptores individuales (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).

Buscar y añadir apps personalizadas

Toca el campo de búsqueda y escribe el nombre de una app.
Las apps instaladas coincidentes aparecen, ordenadas por relevancia.
Marca la casilla para añadir una app.

Cómo funciona el filtrado

Solo se leen en voz alta las notificaciones de apps permitidas.
Los cambios toman efecto inmediatamente — no se requiere reinicio.

23. Ajustes

Idioma de la interfaz

English, Deutsch, Français, Español — independiente de tu idioma del sistema.

Preset de calidad

Preset	Proveedor STT	Proveedor LLM	Modelo	Pulido
Top Performer	Scribe v2	OpenAI	GPT-5.4	Strong
Standard	Scribe v2	OpenAI	GPT-4.1 mini	Strong
Budget	Whisper	Groq	Default	Light
Free	Deepgram	Groq	Default	Off
Custom	Manual	Manual	Manual	Manual

Voz a texto

Proveedor: OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
Keyterms personalizados (solo Scribe): Nombres propios, marcas, términos técnicos
Idioma: Detección automática o específico

Texto a voz

Proveedor: ElevenLabs, OpenAI TTS, Deepgram Aura 2
Modelo (ElevenLabs): Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5

Proveedor LLM (Pulido)

Proveedor: OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Modelo: Predeterminado del proveedor o específico
Intensidad del pulido: Light o Strong

Proveedor de traducción

Proveedor separado para la traducción con IA (puede diferir del proveedor de pulido).

AI-Polish / AI-Translate

Alterna cada uno independientemente. Cuando AI-Translate está habilitado:

Traducir a: 20 idiomas de destino
Voice Translate: Lectura automática de traducciones vía TTS

Android Manos libres

Interruptores rápidos para Overlay, Lectura automática de mensajes, Auto-Paste, Acceso a notificaciones.

Guardar y probar

Guardar todos los ajustes actuales — Persiste los cambios en el almacenamiento del dispositivo
Probar configuración actual — Prueba todos los proveedores configurados con tiempos de respuesta

24. Correcciones de palabras

Las correcciones de palabras enseñan a Talk to me la ortografía correcta de nombres, marcas y términos que el reconocimiento de voz confunde.

Añadir correcciones

Añadir individual

Introduce la ortografía incorrecta y la ortografía correcta, luego toca/haz clic en Añadir.

Importación masiva

Introduce la ortografía correcta, luego lista las variantes incorrectas (una por línea). Usa Generar con IA para crear automáticamente errores ortográficos probables.

Multi-importación

Introduce pares como incorrecto;correcto (uno por línea). Admite separadores ;, ->, coma o tabulador.

Cómo funcionan las correcciones

Durante el post-procesamiento (etapa 3 del Pipeline), las ortografías incorrectas se reemplazan automáticamente antes de que se ejecute AI-Polish.

25. Copia de seguridad y restauración

Exportar ajustes

Abre Copia de seguridad y restauración en Ajustes.
Toca/haz clic en Exportar ajustes.
Introduce y confirma una contraseña de cifrado (mín. 6 caracteres).
Windows: El diálogo de guardar sugiere talktome-settings.ttm — tú eliges la carpeta.
Android: La copia de seguridad se escribe en tu área de Descargas como TalkToMe-backup.ttm. Si ese nombre ya existe, el sistema puede añadir (1), (2), etc. — todos son copias de seguridad cifradas válidas.

Importar ajustes

Toca/haz clic en Importar ajustes.
Automático (Android): La app busca el archivo más reciente con nombre TalkToMe-backup y extensión .ttm (incluyendo TalkToMe-backup (1).ttm, etc.) en el almacenamiento de la app y en Descargas.
Si se abre el selector de archivos del sistema: En muchos teléfonos (p. ej. Samsung), la primera pantalla es Usados recientemente y puede mostrar Imágenes por defecto — tus archivos .ttm están ocultos hasta que cambies el filtro superior a Documentos o Esta semana, o abras la carpeta Descargas directamente.
Dispositivo nuevo: Copia el archivo .ttm de tu dispositivo antiguo (USB, nube, correo), luego usa Importar y selecciona ese archivo.
Introduce la contraseña de cifrado.
Todos los ajustes se restauran y la app se reinicia.

Detalles técnicos

Cifrado: AES-256-GCM con PBKDF2-HMAC-SHA256 (100.000 iteraciones)
Incluido: Todos los ajustes, claves API, correcciones de palabras, apps de lectura automática, preset de calidad, idioma de la interfaz
NO incluido: Activación de licencia (vinculada al Machine ID)

26. Panel de uso

Métrica	Descripción
STT Calls	Transcripciones de voz a texto realizadas
LLM Polish	Operaciones de AI-Polish o AI-Translate
TTS Synth	Operaciones de síntesis de texto a voz

Los contadores son acumulativos desde el último restablecimiento de ajustes.

27. Solución de problemas

General

Problema	Solución
"No hay clave API configurada"	Añade una clave en Key Pool para la función que necesitas
La grabación no se inicia	Verifica el permiso del micrófono en los ajustes del sistema
Voice Translate no produce audio	Asegúrate de que hay una clave API TTS configurada y funcionando
La exportación falla	Verifica el acceso de escritura a la carpeta de Descargas
No se ve la copia de seguridad en el selector de importación	Cambia de Imágenes a Documentos / Esta semana, o abre la carpeta Descargas — ver §25 Importar

Windows Específico de Windows

Problema	Solución
El atajo Ctrl+Win no funciona	Asegúrate de que la app está ejecutándose (revisa la bandeja del sistema)
El texto no se pega después del dictado	Asegúrate de que la ventana de destino soporta Ctrl+V
Notification Listener no disponible	Solo disponible en la Edición completa (no en la Edición Store)
El Mini-Player se ve demasiado grande/pequeño	El dimensionamiento adaptado a DPI se ajusta automáticamente; reinicia la app si cambiaste la configuración de pantalla

Android Específico de Android

Problema	Solución
Auto-Read no funciona	Asegúrate de que la Superposición está activa, Auto-Read habilitado y Acceso a notificaciones otorgado
Auto-Paste no funciona	Rehabilita el Servicio de accesibilidad en los Ajustes de Android
La burbuja no aparece	Otorga el permiso "Dibujar sobre otras apps"
"Acceso a la app denegado" al otorgar permisos	Ajustes restringidos (Android 13+) — ver §19 "Ajustes restringidos" para la solución paso a paso
La pantalla no rota (Tablet)	Comprueba si el Modo PC está activo (baja los Ajustes rápidos). La rotación automática se ignora en Modo PC — cambia de vuelta al Modo Android. Afecta principalmente a tablets Lenovo (ZUI).

28. Privacidad y seguridad

Manejo de datos

Sin recolección de datos: Talk to me no recopila, almacena ni transmite ningún dato de usuario a los servidores de mrocon GmbH.
Comunicación directa con API: El audio y el texto van directamente desde tu dispositivo al proveedor de IA elegido.
Solo almacenamiento local: Todos los ajustes y claves API se almacenan exclusivamente en tu dispositivo.
Sin analíticas: Sin seguimiento, analíticas ni telemetría de ningún tipo.

Permisos

Windows

Permiso	Propósito
Micrófono	Grabar audio para dictado
Acceso a notificaciones	Leer notificaciones (Edición completa)
Internet	Comunicarse con proveedores de IA

Android

Permiso	Propósito
Micrófono	Grabar audio para dictado
Superposición (Dibujar sobre apps)	Mostrar la burbuja flotante
Listener de notificaciones	Leer notificaciones para Auto-Read
Servicio de accesibilidad	Pegar texto automáticamente en campos
Internet	Comunicarse con proveedores de IA
Consultar paquetes instalados	Mostrar nombres de apps en ajustes de Auto-Read

Cifrado

Windows: Claves API cifradas con DPAPI (Windows Data Protection API)
Android: Claves API en almacenamiento interno privado de la app
Archivos de copia de seguridad: Cifrado AES-256-GCM

Apéndice A — Idiomas compatibles

Idiomas de entrada de voz

Detección automática, alemán, inglés, francés, español, italiano, portugués, neerlandés, japonés, coreano, chino, ruso, árabe, hindi, polaco, turco, sueco, ucraniano

Idiomas de destino de traducción

Alemán, inglés, francés, español, italiano, portugués, neerlandés, japonés, chino, coreano, ruso, árabe, hindi, polaco, turco, sueco, ucraniano, danés, finés, noruego

Idiomas TTS

Auto, alemán, inglés, francés, italiano, español, portugués, neerlandés, polaco, sueco, danés, finés, noruego, turco, japonés, coreano, chino

Idiomas de la interfaz

English, Deutsch, Français, Español

Apéndice B — Proveedores compatibles

Voz a texto

Proveedor	Notas
OpenAI Whisper	El más usado, confiable
Deepgram Nova-2 / Nova-3	Rápido, buena precisión
ElevenLabs Scribe v2	Admite keyterms personalizados
Groq Whisper	Nivel gratuito disponible, rápido

LLM (Pulido / Traducción)

Proveedor	Notas
OpenAI	GPT-4o-mini, GPT-5.4, etc.
Groq	Nivel gratuito, modelos Llama
Anthropic	Modelos Claude
Google Gemini	Modelos Gemini
xAI Grok	Nivel gratuito disponible

Texto a voz

Proveedor	Notas
ElevenLabs	Mejor calidad, clonación de voz, 4 modelos
OpenAI TTS	6 voces integradas, sencillo
Deepgram Aura 2	Síntesis rápida

Apéndice C — Presets de calidad

Preset	STT	LLM	Modelo	Pulido	Coste
Top Performer	Scribe v2	OpenAI	GPT-5.4	Strong	$$$
Standard	Scribe v2	OpenAI	GPT-4.1 mini	Strong	$$
Budget	Whisper	Groq	Default	Light	$
Free	Deepgram	Groq	Default	Off	Gratis
Custom	Manual	Manual	Manual	Manual	Variable

Apéndice D — Atajos de teclado Windows

Atajo	Acción
Ctrl+Win	Iniciar / Detener grabación
Ctrl+Win (durante procesamiento)	Cancelar pipeline
Atajo TTS	Leer texto seleccionado en voz alta

Para soporte, contacta con team@talktome.studio o visita talktome.studio.

↑ Volver arriba