Talk to me — speak, type, listen

Talk to me — Manual de usuario

Versión: 0.5.149 (Windows Desktop) / 0.5.157 (Android Hands-Free) Última actualización: 2026-04-20
Este manual cubre tanto la edición de Windows Desktop como la de Android Hands-Free de Talk to me. Las secciones marcadas con Windows o Android aplican solo a esa plataforma. Todas las demás secciones aplican a ambas.

1. Introducción

Talk to me es un estudio profesional de dictado, traducción e interacción por voz disponible para Windows Desktop y Android. Convierte tu voz en texto, lo pule con IA, lo traduce a más de 20 idiomas y te lo lee en voz alta — todo en tiempo real.

La app sigue una arquitectura estricta de BYOK (Bring Your Own Key) y Zero-Knowledge / Zero-Trust: tus claves API y datos nunca salen de tu dispositivo.

Características principales

  • Dictado en tiempo real: Graba tu voz y obtén texto pulido en segundos.
  • AI-Polish: Corrección automática de gramática y eliminación de muletillas impulsada por el proveedor de IA que elijas.
  • Traducción en vivo: Traduce el texto dictado a más de 20 idiomas instantáneamente.
  • Voice Translate (Voz a voz): Tu texto traducido se lee automáticamente en voz alta en el idioma de destino.
  • Texto a voz: Convierte cualquier texto en voz natural con ElevenLabs, OpenAI TTS o Deepgram.
  • Inmersión lingüística en vivo: Habla en tu idioma nativo, ve y escucha instantáneamente en el idioma que quieres dominar.
  • Correcciones de palabras: Enseña a la app tus nombres, marcas y términos que el reconocimiento de voz confunde.
  • Copia de seguridad cifrada: Exporta todos los ajustes y claves API como un archivo cifrado protegido por contraseña.
  • Soporte multi-proveedor: Elige entre OpenAI, Groq, Anthropic, Google Gemini, xAI Grok, ElevenLabs, Deepgram y más.

Aspectos destacados por plataforma

Función Windows Desktop Android Hands-Free
Mini-Player (modo compacto)
Atajos globales (Ctrl+Win)
Auto-Read (extracción de texto Ctrl+C)
Notification Listener (Edición completa)
Grabación y guardado MP3
Floating Pill (analizador de espectro)
Burbuja flotante (Overlay)
Auto-Paste (Accesibilidad)
Lectura automática de mensajes (de apps de chat)
Acceso a notificaciones a nivel de app

Principios de seguridad

  • Zero-Knowledge: Talk to me nunca almacena, transmite ni tiene acceso a tus claves API en ningún servidor. Todas las claves se almacenan localmente en tu dispositivo.
  • Zero-Trust: La app nunca contacta con un servidor propio. Sin analíticas, sin seguimiento, sin telemetría. Tus datos de dictado fluyen directamente desde tu dispositivo al proveedor de IA elegido y a ningún otro lugar.
  • BYOK: Tú aportas tus propias claves API de los proveedores en los que confías. Talk to me no revende acceso a API.

2. Primeros pasos

Windows Instalación — Windows Desktop

Talk to me para Windows está disponible como instalador con firma EV desde talktome.studio o a través de la Microsoft Store.

Requisitos del sistema:

  • Windows 10 o posterior (64-bit)
  • Una conexión a Internet activa
  • Al menos una clave API de un proveedor compatible

El instalador está firmado digitalmente con un certificado de Validación Extendida (EV) de Certum (mrocon GmbH). Windows SmartScreen no mostrará ninguna advertencia.

Android Instalación — Android

Talk to me para Android está disponible como APK desde talktome.studio o a través de Google Play Store.

Requisitos del sistema:

  • Android 8.0 o posterior
  • Una conexión a Internet activa
  • Al menos una clave API de un proveedor compatible

Primer inicio

Cuando abras Talk to me por primera vez, verás la Puerta de licencia. Tienes dos opciones:

  1. Introducir una clave de licencia para desbloquear la app completa inmediatamente.
  2. Iniciar una prueba gratuita de 7 días para explorar todas las funciones sin clave de licencia.

Después de la activación o el inicio de la prueba, la app se carga y puedes comenzar a usarla de inmediato — siempre que tengas al menos una clave API configurada (ver Key Pool).

Android Inicio rápido — Tus primeros 5 minutos

Después de activar tu licencia (o iniciar la prueba gratuita), la app se abre y verás la pantalla principal — el Cockpit. No te preocupes si la mayoría de los botones aparecen en naranja o inactivos. ¡Es completamente normal! Esto es lo que debes hacer, paso a paso:

Paso 1 — Habilitar acceso al micrófono

El botón grande en el centro de la pantalla dice "Habilitar acceso al micrófono". Este es el primer y más importante paso.

  1. Toca el botón Habilitar acceso al micrófono.
  2. Un diálogo de Talk to me explica por qué se necesita el micrófono. Toca OK.
  3. Android luego pregunta: "¿Permitir que Talk to me grabe audio?" — toca Mientras se usa la app (o Permitir).
  4. ¡Listo! El botón cambia a "Listo — Iniciar dictado" en verde. Ahora puedes grabar tu primer dictado.

Paso 2 — Añadir tus claves API

En la parte inferior de la pantalla verás la barra Key Pool — probablemente mostrando etiquetas rojas como STT 0/5, LLM 0/5, TTS 0/5. Esto significa que aún no hay claves API configuradas. Sin claves, la app no puede conectarse a los servicios de IA.

  1. Toca cualquiera de las etiquetas del Key Pool (p. ej. STT) para abrir la sección Key Pool.
  2. Toca Añadir clave y pega una clave API de tu proveedor (p. ej. OpenAI, Deepgram, ElevenLabs).
  3. Toca Guardar. La etiqueta se vuelve verde cuando hay una clave válida almacenada.
  4. Repite para cada categoría que quieras usar. Como mínimo, necesitas una clave STT (para dictado). Para pulido con IA, añade una clave LLM. Para texto a voz, añade una clave TTS.

Consulta §11 Key Pool para una guía detallada sobre proveedores compatibles y cómo obtener claves API.

Paso 3 — Funciones opcionales (botones del Cockpit)

Los botones en el centro del Cockpit controlan funciones opcionales. Cada uno requiere un permiso del sistema la primera vez que lo activas. Verás un breve diálogo explicativo de Talk to me, seguido del diálogo del sistema Android. Ambos son normales y seguros de confirmar.

BotónQué haceDetalles
Auto-Paste Pega automáticamente tu texto dictado en la app que estabas usando (p. ej. WhatsApp, correo). Sin copiar-pegar manual. §19
Notif Access Permite que la app lea las notificaciones entrantes para poder leerte los mensajes automáticamente. §21
Auto-Read Lee los mensajes entrantes en voz alta usando texto a voz — ideal para uso manos libres mientras conduces o cocinas. §20
Overlay Muestra una pequeña burbuja flotante en tu pantalla. Tócala para iniciar/detener el dictado desde cualquier app — sin volver a Talk to me. §18

No necesitas todo esto de inmediato. Comienza con el dictado (Paso 1 + 2) y activa las funciones extra cuando estés listo. Cada función se puede activar o desactivar en cualquier momento.

Free & Paid Tier Overview

Talk to me is a BYOK app (Bring Your Own Key). You use your own API keys from AI providers. Many providers offer generous free tiers — from $200 Deepgram credit to unlimited Gemini usage to free Grok and Groq keys. This means you can use Talk to me for months before any API costs arise.

Tier 1 — Completely Free (no money, no credit card)

What you needWhat you getHow to get it
1× Deepgram account (free)Speech-to-Text dictation (STT)deepgram.com → Sign up → $200 starter credit
1× Gemini API key (free)AI Voice Chat (Gemini Live)aistudio.google.com → Create API Key

What you can do:

  • Dictate with Deepgram Nova-3 (preset “Free”) — no LLM polish, but solid transcription
  • AI Voice Chat via the Gemini Live tab — real-time voice conversation with sub-second latency, 30 voices, 24 languages

How long does it last?

FeatureCredit / LimitLasts for
Deepgram STT$200 starter credit (never expires)~43,000 min (~716 hours) transcription
Gemini Live Voice ChatFree API key (no credit limit)Unlimited (rate limit: ~10 sessions/min)
Gemini LLM (for Polish)Free API key250 requests/day (Flash model)

Reality: With these two free accounts you can use Talk to me productively for months. During intensive daily testing, only $19 of $200 Deepgram credit was used after weeks.

Tier 2 — Free with More Power (additional free keys)

What you needWhat it addsCost
+ 1× xAI accountGrok-3-Mini as LLM for Polish + TranslationFree ($25 starter credit + up to $150/month with data sharing)
+ 1× Groq accountUltra-fast LLM for Polish (Llama models)Free (1,000 requests/day, no credit card)

Unlocked presets:

PresetSTTLLM / PolishAll keys free?
FreeDeepgram Nova-3Yes (1 key)
Free xAIDeepgram Nova-3xAI GrokYes (2 keys)
Free GeminiDeepgram Nova-3Google GeminiYes (2 keys)
Fast FreeOpenAI WhisperGroq LlamaYes (2 keys)
EconomyDeepgram Nova-3Groq LlamaYes (2 keys)
Economy PlusDeepgram Nova-3Groq Llama (Strong Polish)Yes (2 keys)

Also unlocked:

  • Deepgram Voice Agent with 20+ managed presets (uses your $200 credit, $0.05–0.16/min)
  • Full BYO Voice Agent Presets (e.g. GPT-5.4 + ElevenLabs, if you have the keys)

Tier 3 — Premium Quality (paid keys)

For the absolute best quality, you need paid API keys:

ProviderUsed forCostWhat you get
OpenAIGPT-5.4 (best LLM for Polish)Pay-per-use (~$5–15/month)Perfect grammar, style, translation
ElevenLabsScribe v2 (best STT) + TTSFrom $5/month (Starter)Best transcription, premium voices
AnthropicClaude 4.6 Sonnet (top LLM)Pay-per-useExcellent text quality for longer texts

API Key Cost Overview

ProviderSign upStarter creditOngoing costCredit card?
DeepgramFree$200 (never expires!)From $0.0043/min STTNo
Google GeminiFreeUnlimited (rate-limited)$0.005–0.018/min (Live Audio)No
xAI (Grok)Free$25 + up to $150/monthFrom $0.10/1M tokensNo
GroqFreeUnlimited (rate-limited)1,000 requests/day freeNo
OpenAIFree$5 (expires after 3 months)From $0.15/1M tokensYes (for GPT-5+)
AnthropicFree$5 (expires after 30 days)From $1.00/1M tokensYes
ElevenLabsFree10,000 chars/monthFrom $5/month (Starter)Yes

Recommended Start (3 minutes, $0 cost)

  1. Create Deepgram account → deepgram.com → Sign up → Copy API Key
  2. Create Gemini API key → aistudio.google.com → “Create API Key” → Copy key
  3. Enter keys in Talk to me → Settings → LLM Key Pool
  4. Go: Dictation tab → preset “Free Gemini” → Dictate with STT + AI Polish. Gemini Live tab → “Start Conversation” → Real-time voice chat with AI.

Optional for even more:

  1. xAI account → x.ai/api → Sign up → API Key → Enter in Key Pool → preset “Free xAI”
  2. Groq account → console.groq.com → Sign up → API Key → presets “Economy” / “Economy Plus” / “Fast Free”

Feature Availability by Tier

FeatureTier 1 (free)Tier 2 (free+)Tier 3 (premium)
Speech dictation (STT)✓ Deepgram✓ Deepgram + Whisper✓ + ElevenLabs Scribe v2
AI Polish (grammar)✓ Grok/Gemini/Groq✓ + GPT-5.4 / Claude 4.6
Real-time translation✓ (all LLM providers)✓ (best quality)
Gemini Live Voice Chat✓ (unlimited)✓ (unlimited)✓ (unlimited)
Deepgram Voice Agent✓ (from $200 credit)✓ (all presets)
BYO Voice Agent Presets✓ (with xAI/Groq keys)✓ (+ ElevenLabs/OpenAI TTS)
Available presets26+ dictation + 20+ Voice AgentAll (30+)

All prices and free tier conditions are set by the respective providers and may change. Last updated: April 2026.

3. Activación de licencia

La puerta de licencia

En el primer inicio (o después de la expiración de la prueba), se muestra la Puerta de licencia. Muestra:

  • El logotipo de Talk to me
  • Un campo de texto para tu clave de licencia (formato: TTM-XXXX-XXXX-XXXX-XXXX)
  • Tu Machine ID (un identificador único del dispositivo, necesario para la activación)
  • Un botón Activar
  • Un botón Iniciar prueba gratuita de 7 días (si no se ha usado ninguna prueba)
  • Enlaces a Comprar licencia y al Portal del cliente

Activar una licencia

  1. Introduce tu clave de licencia en el campo de texto.
  2. Toca/haz clic en Activar.
  3. La app verifica tu clave en línea y la activa para este dispositivo.
  4. Una vez activada, no volverás a ver la Puerta de licencia a menos que desactives o expire tu licencia.

La prueba gratuita

  • Toca/haz clic en Iniciar prueba gratuita de 7 días para desbloquear todas las funciones durante 7 días.
  • Un banner en la parte superior de la app muestra cuántos días de prueba quedan.
  • Después de 7 días, la prueba expira y la Puerta de licencia reaparece.

Ventana de licencia

Una vez dentro de la app, puedes ver el estado de tu licencia haciendo clic en el botón Licencia (icono de escudo). La ventana de licencia muestra:

  • Estado: Activa, Prueba, Período de gracia o Expirada
  • Producto: El nombre del producto de tu licencia
  • Plan: Anual o De por vida
  • Expira: Fecha de expiración (o "De por vida")
  • Dispositivos: Número de dispositivos activos / máximo permitido
  • Clave: Tu clave de licencia (parcialmente oculta)
  • Machine ID: El identificador único de tu dispositivo

Desde esta ventana puedes:

  • Desactivar dispositivo — libera la licencia de este dispositivo para poder usarla en otro
  • Cerrar — volver a la app

4. Descripción general de la app

La app está organizada en tres pestañas principales y varias secciones de apoyo:

Navegación

En la parte superior de la pantalla, tres pestañas te permiten cambiar entre los modos principales de la app:

  • Voz a texto — Graba tu voz y obtén texto pulido y traducido
  • Texto a voz — Convierte texto escrito en audio hablado
  • AI Voice Chat — Mantén conversaciones por voz en tiempo real con IA (ver §12)

Disposición de la interfaz

Debajo de las pestañas, la interfaz principal está dispuesta verticalmente:

  1. Controles de anulación rápida — Selectores de idioma para entrada y salida
  2. Botones de acción — Acceso rápido a funciones de la plataforma
  3. Indicador de estado — Muestra el estado actual (Listo, Grabando, Transcribiendo, etc.)
  4. Visualización del pipeline — Progreso visual de tu dictado a través de las etapas de procesamiento
  5. Área de resultado — Tu texto transcrito/traducido
  6. Panel TTS (solo pestaña Texto a voz) — Entrada de texto y controles de reproducción
  7. Panel AI Voice Chat (solo pestaña AI Voice Chat) — Selección de voz/persona, controles de conversación, transcripción en vivo (ver §12)
  8. Key Pool — Administra tus claves API
  9. Ajustes — Todas las opciones de configuración

Botones de acción

Windows Botones de acción del escritorio:

  • Voice Translate — Alternar traducción voz a voz
  • Notification Listener — Alternar lectura de notificaciones (Edición completa)
  • Auto-Read — Alternar texto a voz con Ctrl+C
  • Grabar lecturas TTS — Alternar grabación MP3 de la salida TTS
  • Guardar grabaciones — Abrir carpeta de grabaciones

Android Botones de acción:

  • Licencia — Abrir ventana de licencia
  • Voice Translate — Alternar traducción voz a voz
  • Overlay — Iniciar/detener la burbuja flotante
  • Auto-Paste — Abrir ajustes de accesibilidad
  • Auto-Read — Alternar lectura automática de mensajes
  • Notif Access — Abrir ajustes del listener de notificaciones

El botón de información

En la cabecera, el botón Info abre la ventana de información de la app, que muestra:

  • Un enlace a talktome.studio
  • El correo de soporte (toca/haz clic para copiar)
  • La versión actual de la app
  • Número de micrófonos detectados

5. Voz a texto

La pestaña Voz a texto es el modo principal de Talk to me. Aquí grabas tu voz y recibes texto pulido, opcionalmente traducido.

Grabar un dictado

  1. Asegúrate de que el estado muestra Listo — Iniciar dictado (verde).
  2. Haz clic/toca el botón grande Iniciar dictado.
  3. El botón se vuelve rojo y muestra Detener grabación. Habla con claridad.
  4. Durante la grabación puedes ver: Duración de la grabación en segundos, Medidor de nivel de audio mostrando el volumen de entrada, el proveedor STT e idioma activos actualmente.
  5. Haz clic/toca el botón de nuevo para Detener grabación.

Windows También puedes iniciar/detener la grabación usando el atajo global Ctrl+Win (sin necesidad de enfocar la ventana de la app).

Qué ocurre después de grabar

Después de detener la grabación, la app procesa tu audio a través del Pipeline (ver El Pipeline):

  1. Capture — La grabación de audio se finaliza
  2. STT — Tu audio es transcrito por el proveedor seleccionado
  3. Post-procesamiento — El texto sin procesar se limpia (se aplican correcciones de palabras)
  4. Pulido / Traducción — Si está habilitado, la IA corrige la gramática o traduce el texto
  5. Inject — El texto final se coloca en tu portapapeles

Windows El texto se pega automáticamente en la ventana previamente enfocada mediante Ctrl+V simulado (Inyección inteligente de portapapeles).

Android Si Auto-Paste está habilitado, el texto se inserta automáticamente en el campo de texto activo a través del Servicio de accesibilidad.

El área de resultado

Después del procesamiento, tu texto aparece en el área de resultado. Un aviso confirma que el texto ha sido copiado a tu portapapeles y está listo para pegar.

Señales de grabación (Audio Cues)

Talk to me te indica de forma acústica y visual cuándo el micrófono está realmente grabando — para que no se pierda ninguna palabra.

Señales acústicas

  • Bip de inicio (bip corto y agudo): «El micrófono está activo, puedes hablar.»
  • Bip de parada (bip corto y grave): «Grabación finalizada.»

Ambos bips se pueden activar/desactivar en los ajustes y su volumen es regulable (por defecto: 100 %).

Señales visuales

  • Reposo: El icono del micrófono es naranja — grabación inactiva.
  • Grabación activa: El icono del micrófono es verde — cada palabra se está capturando.

Nota: bip de inicio en altavoces USB

Algunos dispositivos de audio suprimen el bip de inicio. Esto no es un error sino una característica del hardware:

Tipo de dispositivo¿Bip audible?Recomendación
Altavoces + micrófono separado✅ Sí
Auriculares con mic + altavoz separados✅ Sí
Altavoz USB (Jabra Speak2, Logitech P710e etc.)⚠️ Posiblemente noUsar auriculares o altavoces externos
Auricular Bluetooth en perfil Hands-Free⚠️ Posiblemente noAuricular con cable como alternativa

Importante: Si cambias el dispositivo de audio predeterminado, reinicia Talk to me para que el bip se reproduzca en el nuevo dispositivo.

6. Texto a voz

La pestaña Texto a voz te permite convertir cualquier texto escrito en voz con sonido natural.

Uso básico

  1. Cambia a la pestaña Texto a voz.
  2. Escribe o pega texto en el área de texto.
  3. Haz clic/toca Leer en voz alta para iniciar la reproducción.

Controles de reproducción

  • Pausa — Detiene temporalmente la reproducción
  • Reanudar — Continúa desde donde pausaste
  • Detener — Finaliza la reproducción por completo
  • Reproducir de nuevo — Reproduce el mismo audio sin re-sintetizar

Selección de proveedor y voz

  • ElevenLabs: Elige entre tus voces disponibles o usa "Default (Brian v3)". Se admiten Voice-IDs personalizados.
  • OpenAI TTS: Nova, Alloy, Echo, Fable, Onyx, Shimmer
  • Deepgram Aura 2: Síntesis rápida

Selección de modelo (ElevenLabs)

ModeloLímite de caracteresIdeal para
Eleven v35.000Máxima calidad, contenido corto
Multilingual v210.000Soporte multi-idioma
Flash v2.540.000Síntesis rápida, textos largos
Turbo v2.540.000Equilibrio entre velocidad y calidad

Calidad de audio

CalidadDescripción
MP3 192 kbpsCalidad de creador — máxima fidelidad
MP3 128 kbpsEstándar — buen equilibrio
MP3 64 kbpsCompacto — tamaño de archivo menor
MP3 32 kbpsMínimo — calidad más baja

Normalización de texto

AjusteDescripción
AutoEl modelo decide cómo manejar los números
Siempre activadoLos números se convierten en palabras (p. ej., "42" → "cuarenta y dos")
DesactivadoSin normalización aplicada

Ajuste fino de voz (ElevenLabs)

Control deslizanteRangoDescripción
StabilityVariable ↔ EstableMenor = más expresivo; Mayor = más consistente
SimilarityCreativo ↔ OriginalQué tan cerca está la salida de la voz original
StyleNeutral ↔ ExpresivoCantidad de expresión emocional
SpeedLento (0.7×) ↔ Rápido (1.2×)Velocidad de reproducción

Opciones adicionales

  • Code-Filter: Elimina bloques de código y sintaxis técnica antes de la síntesis.
  • Auto-Record: Guarda automáticamente el audio sintetizado. Toca el icono de carpeta para elegir el directorio.
  • Speaker Boost: Mejora la claridad de la voz (solo ElevenLabs).

7. El Pipeline

El Pipeline es el motor de procesamiento central de Talk to me. Visualiza las etapas por las que pasa tu audio desde la grabación hasta la salida final.

Etapas del Pipeline

EtapaEtiquetaDescripción
1CaptureGrabación y finalización del audio
2STTTranscripción de voz a texto
3PostPost-procesamiento (limpieza, correcciones de palabras)
4Polish o TransPulido con IA o traducción con IA
5InjectTexto copiado al portapapeles / pegado automáticamente

Indicadores TDF (Campo de visualización de texto)

Cada etapa del pipeline muestra el proveedor activo (p. ej., "Scribe v2", "GPT-5.4") e información de tiempo después de completarse.

Visualización de tiempos

Después del procesamiento, una línea de tiempos muestra:

STT 1.2s → LLM 0.8s → Inject 0.1s → Total 2.1s

Si Voice Translate está activo, se muestra un tiempo adicional de S2S (Speech-to-Speech).

8. Voice Translate

Voice Translate combina la traducción con IA y el texto a voz para crear una experiencia de traducción voz a voz en tiempo real.

Nuevo desde v0.5.150: La traducción de texto ahora se activa automáticamente cuando tu idioma de entrada (Speech Input) y tu idioma de salida (Text Output) son diferentes. Ya no necesitas un interruptor separado para la traducción. El botón Voice Translate ahora solo controla si el texto final se lee en voz alta (salida Text-to-Speech).

Ejemplos

  • Entrada alemán, salida inglés, Voice Translate desactivado → El texto se traduce automáticamente, pero solo se coloca en el portapapeles.
  • Entrada alemán, salida inglés, Voice Translate activado → El texto se traduce y se lee en voz alta en inglés.
  • Entrada alemán, salida alemán, Voice Translate activado → Sin traducción, pero el texto en alemán se lee en voz alta (TTS clásico).

Cómo funciona

  1. Activa Voice Translate (púrpura cuando está activo).
  2. Graba un dictado en tu idioma de origen.
  3. La app transcribe → traduce → lee la traducción en voz alta.

Configuración

  • Idioma de destino: Configurar en Ajustes → AI-Translate → Traducir a
  • Voz TTS: Usa tu proveedor y voz TTS configurados

Casos de uso

  • Viajes: Habla en tu idioma, escucha la traducción en voz alta.
  • Aprendizaje de idiomas: Escucha cómo suena tu texto en otro idioma.
  • Inmersión lingüística en vivo: Convierte tus propios pensamientos en fluidez en vivo — habla en tu idioma nativo y absorbe la salida en el idioma que quieres dominar.

9. AI Polish y traducción

AI-Polish

Cuando está habilitado, AI-Polish corrige la gramática, la puntuación y (con el ajuste "Fuerte") elimina muletillas como "eh", "o sea", "bueno", "básicamente".

Intensidad del pulido:

  • Light — Solo corrección de gramática y puntuación
  • Strong — También elimina muletillas

Indicadores de estado:

  • POLISH (cian) — Activo
  • OFF — Desactivado
  • KEY MISSING (amarillo) — No hay clave LLM configurada

AI-Translate

Cuando está habilitado, tu texto dictado se traduce al idioma de destino.

Indicadores de estado:

  • TRANSLATE (cian) — Activo, mostrando idioma de destino
  • VOICE OUTPUT (púrpura) — Voice Translate también activo
  • TEXT ONLY — Traducción sin salida de voz
  • OFF — Desactivado
Nota: Desde v0.5.150, Talk to me detecta automáticamente cuando los idiomas de entrada y salida son diferentes y activa la traducción — sin un interruptor explícito. El KI-Polish permanece disponible de forma independiente y ya no se desactiva automáticamente.

10. Controles de anulación rápida

Los controles de anulación rápida te permiten cambiar temporalmente el idioma de entrada o salida para un solo dictado sin modificar tus ajustes guardados.

Anulación de entrada de voz

Selecciona un idioma de entrada diferente para la próxima grabación:

  • Detección automática — El proveedor STT detecta el idioma automáticamente
  • Idiomas individuales (ver Apéndice A)

Anulación de salida de texto

Selecciona un idioma de salida diferente (equivalente a habilitar temporalmente la traducción):

  • Predeterminado (igual que la entrada) — Sin traducción
  • Los 20 idiomas de traducción

Restablecer a ajustes

Cuando una anulación está activa, aparece un botón Restablecer (icono ↩). Toca/haz clic para volver a tus ajustes guardados.

11. Key Pool

El Key Pool es donde administras tus claves API. Talk to me usa una arquitectura basada en pool — puedes añadir múltiples claves por categoría, y la app rota automáticamente entre ellas basándose en puntuaciones de confianza.

Categorías

CategoríaPropósitoProveedores compatibles
Speech-to-TextTranscripciónOpenAI Whisper, Deepgram Nova, ElevenLabs Scribe v2, Groq Whisper
AI-Polish / LLMGramática, traducciónOpenAI, Groq, Anthropic, Google Gemini, xAI Grok
Text-to-SpeechSíntesis de vozElevenLabs, Deepgram, OpenAI TTS

Añadir una clave

  1. Expande la sección Key Pool.
  2. Haz clic/toca + Añadir clave en la categoría deseada.
  3. Selecciona el Proveedor.
  4. Introduce una Etiqueta (p. ej., "Mi clave OpenAI").
  5. Introduce tu Clave API.
  6. Haz clic/toca Guardar clave.

Funciones del slot de clave

Cada slot de clave muestra:

  • Etiqueta y Proveedor
  • Clave enmascarada (últimos 4 caracteres visibles)
  • Puntuación de confianza — Con código de color (verde/amarillo/rojo)
  • Estadísticas — Llamadas, éxitos, fallos, límites de tasa

Acciones por slot:

  • Probar — Verificar que la clave funciona
  • Pausar / Activar — Deshabilitar o rehabilitar temporalmente
  • Eliminar — Borrar permanentemente

Sistema de confianza

NivelPuntuaciónColorComportamiento
Excelente≥80%VerdePreferido
Bueno≥60%VerdeNormal
Aceptable≥40%AmarilloRespaldo
Débil≥20%AmarilloRaramente usado
Crítico<20%RojoÚltimo recurso

Las claves que alcanzan límites de tasa se colocan en enfriamiento automático mientras se usan otras claves.

12. AI Voice Chat

Talk to me incluye dos motores independientes de AI Voice Chat, cada uno con sus propias fortalezas. Puedes cambiar entre ellos en cualquier momento desde la pestaña AI Chat.

MotorTecnologíaVentaja principal
12a. Deepgram Voice AgentDeepgram Agent API (WebSocket)32+ presets, 6 proveedores LLM, 4 proveedores TTS, monitoreo de latencia, modos gestionado y BYO
12b. Gemini 3.1 Flash LiveGoogle Gemini Live API (WebSocket)30 voces expresivas, presets de persona, control de profundidad de pensamiento, IA multimodal nativa de Google

Modo altavoz manos libres completo (Android)

Ambos motores de chat de voz funcionan completamente manos libres a través del altavoz de tu teléfono. Talk to me usa cancelación de eco acústico (AEC) propietaria mediante un puente nativo de Android para separar tu voz de la salida del altavoz de la IA. Interrumpe en cualquier momento — la IA se detiene inmediatamente y continúa desde donde quieras. No se requieren auriculares ni equipo adicional. Los usuarios de escritorio con cualquier configuración estándar funcionan igual de bien.

12a. Deepgram Voice Agent

El Deepgram Voice Agent proporciona conversaciones de voz con IA en tiempo real y full-duplex a través de una única conexión WebSocket a la API de Deepgram Agent. Orquesta Speech-to-Text (STT), Large Language Models (LLMs) y Text-to-Speech (TTS) en un pipeline unificado — tú hablas, la IA piensa y responde con voz natural, todo en tiempo real.

Primeros pasos

  1. Cambia a la pestaña AI Chat, luego selecciona la sub-pestaña Deepgram.
  2. Añade una clave API de Deepgram en el Key Pool (desplázate hasta la sección «Deepgram Voice Agent»).
  3. Elige un Preset de configuración o configura manualmente.
  4. Toca el botón verde Iniciar conversación.

Presets de configuración (32+ opciones)

Talk to me incluye más de 32 presets en seis categorías. Cada preset preconfigura el modelo STT, proveedor/modelo LLM, proveedor/voz TTS y parámetros de detección de turno.

Top Tier — Mejor calidad

PresetLLMTTSSTT
Gemini 3.0 Pro + Sonic-3Google Gemini 3.0 ProCartesia Sonic-3Nova-3
Claude 4.5 + Sonic-3Anthropic Claude Sonnet 4.5Cartesia Sonic-3 (Tessa)Nova-3
Claude 4.6 + Sonic-3Anthropic Claude Sonnet 4.6Cartesia Sonic-3 (Katie)Nova-3
GPT-5.4 + Sonic-3OpenAI GPT-5.4Cartesia Sonic-3 (Katie)Nova-3
GPT-5.4 + KieferOpenAI GPT-5.4Cartesia Sonic-3 (Kiefer, Male)Nova-3

Ultra-Fast — Latencia mínima (~1.1s)

PresetLLMTTSSTT
GPT-4o Mini + Sonic-3OpenAI GPT-4o MiniCartesia Sonic-3Nova-3
GPT-5.4 Nano + Sonic-3OpenAI GPT-5.4 NanoCartesia Sonic-3Nova-3
Haiku 4.5 + Sonic-3Anthropic Claude Haiku 4.5Cartesia Sonic-3Nova-3
Gemini 2.5 Flash + Sonic-3Google Gemini 2.5 FlashCartesia Sonic-3Nova-3
Nemotron 49B + Sonic-3NVIDIA Nemotron Super 49BCartesia Sonic-3Nova-3

Flux — Solo inglés, latencia ultra-baja

Flux usa el modelo STT Flux de Deepgram con detección de fin de turno anticipada para los tiempos de respuesta más rápidos. Solo inglés.

PresetLLMTTS
Flux + GPT-4o Mini + Sonic-3OpenAI GPT-4o MiniCartesia Sonic-3
Flux + GPT-5.4 Nano + Sonic-3OpenAI GPT-5.4 NanoCartesia Sonic-3
Flux + GPT-5.4 + Sonic-3OpenAI GPT-5.4Cartesia Sonic-3
Flux + Claude 4.6 + Sonic-3Anthropic Claude 4.6Cartesia Sonic-3
Flux + Gemini Flash + Sonic-3Google Gemini 2.5 FlashCartesia Sonic-3

Balanced — Calidad + Velocidad

PresetLLMTTS
GPT-5 Mini + Sonic-3OpenAI GPT-5 MiniCartesia Sonic-3
GPT-4.1 Mini + Sonic-3OpenAI GPT-4.1 MiniCartesia Sonic-3
Haiku 4.5 + TessaAnthropic Haiku 4.5Cartesia Sonic-3 (Tessa)
Gemini 3.0 Flash + Sonic-3Google Gemini 3.0 FlashCartesia Sonic-3

Experimental — Deepgram Aura-2 TTS (específico por idioma)

PresetLLMVoz TTS
GPT-5.4 + Julius (DE)OpenAI GPT-5.4Aura-2 Julius (alemán, masculina)
GPT-5.4 + Zeus (EN)OpenAI GPT-5.4Aura-2 Zeus (inglés, masculina)
Claude 4.6 + Thalia (EN)Anthropic Claude 4.6Aura-2 Thalia (inglés, femenina)
GPT-5.4 + Agathe (FR)OpenAI GPT-5.4Aura-2 Agathe (francés, femenina)
GPT-5.4 + Celeste (ES)OpenAI GPT-5.4Aura-2 Celeste (español, femenina)

Full BYO — Trae tus propias claves de LLM y TTS

En el modo Full BYO, Deepgram solo se encarga del STT (Nova-3). Tus propias claves API para proveedores de LLM y TTS se utilizan directamente.

PresetLLM (clave BYO)TTS (clave BYO)
GPT-5.4 + ElevenLabsOpenAI GPT-5.4ElevenLabs Turbo v2.5
GPT-5.4 + OpenAI TTSOpenAI GPT-5.4OpenAI TTS-1
GPT-5.4 Nano + ElevenLabsOpenAI GPT-5.4 NanoElevenLabs Turbo v2.5
Gemini 3 Pro + ElevenLabsGoogle Gemini 3 ProElevenLabs Turbo v2.5
Gemini Flash + OpenAI TTSGoogle Gemini 2.5 FlashOpenAI TTS-1
Claude 4.6 + ElevenLabsAnthropic Claude 4.6ElevenLabs Turbo v2.5
Claude 4.6 + OpenAI TTSAnthropic Claude 4.6OpenAI TTS-1
Grok 3 Mini + ElevenLabsxAI Grok 3 MiniElevenLabs Turbo v2.5

Bloqueo y desbloqueo de presets

Cuando un preset está activo, todos los campos de configuración están bloqueados con los valores del preset (indicado por un icono de candado). Esto evita cambios accidentales. Para modificar ajustes individuales, toca Desbloquear para edición manual. Cambiar cualquier ajuste manualmente cambia el preset a «Configuración manual».

Configuración manual

Toca el icono de engranaje junto al botón Iniciar para abrir el panel de configuración. Todos los campos siguientes están disponibles:

Proveedor LLM

ProveedorModelos principales
OpenAIGPT-4o Mini, GPT-4.1 Nano/Mini/Full, GPT-5 Nano/Mini/Full, GPT-5.1–5.4 (incl. Nano, Mini)
AnthropicClaude Haiku 4.5, Sonnet 4, Sonnet 4.5, Sonnet 4.6
GoogleGemini 2.5 Flash/Flash Lite, Gemini 3.0 Flash/Pro, Gemini 3.1 Flash Lite
NVIDIALlama Nemotron Super 49B, Nemotron 3 Nano 30B
xAIGrok 3, Grok 3 Mini, Grok 3 Fast
GroqGPT OSS 20B

Proveedor TTS

ProveedorVocesIdiomasClave requerida
Cartesia Sonic-39 voces (Katie, Kiefer, Tessa, Kyle, Leo, Jace, Gavin, Maya, Default)42 idiomas (detección automática multilingüe)Solo clave Deepgram (gestionado)
Deepgram Aura-235+ voces (EN, DE, FR, ES, IT, NL, JA)Específico por idioma según la vozSolo clave Deepgram (gestionado)
ElevenLabsTus voces de ElevenLabs (carga automática)MultilingüeClave API de ElevenLabs (BYO)
OpenAI TTS10 voces (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer)InglésClave API de OpenAI (BYO)

Modelo STT

ModeloIdiomasCaso de uso
Nova-3MultilingüeEstándar, mejor precisión general
Nova-3 GeneralMultilingüeVariante de propósito general
Nova-3 MedicalMultilingüeOptimizado para terminología médica
FluxSolo inglésDetección de turno con ultra-baja latencia

Otros ajustes

  • Idioma — Detección automática (multilingüe) o un idioma específico: inglés, alemán, francés, español, italiano, neerlandés, japonés, portugués, hindi, ruso
  • Mensaje de bienvenida — Texto que el agente habla al iniciar la conversación (opcional)
  • Instrucción del sistema — Define la personalidad y comportamiento de la IA. Siempre se incluye una instrucción base que evita el formato markdown y las preguntas de seguimiento en la salida de voz.

Ajustes avanzados

Expande la sección Avanzado para ajuste fino:

  • Temperature (0.00 – 2.00) — Controla la creatividad de las respuestas. Predeterminado: 0.7. Menor = más enfocado, mayor = más creativo.
  • Modelo STT — Cambia entre variantes de Nova-3 y Flux.

Cuando se selecciona Flux STT, aparecen controles adicionales:

  • Umbral de EOT anticipado (0.0 – 1.0) — Qué tan agresivamente el sistema detecta el fin de turno. Mayor = respuesta más rápida pero puede cortarte a mitad de frase.
  • Tiempo límite de EOT (0 – 5000ms) — Silencio máximo antes de que el agente responda.

Para ElevenLabs BYO: Un campo de Voice ID personalizado te permite ingresar cualquier ID de voz de ElevenLabs directamente.
Para OpenAI TTS BYO: Selecciona entre 10 voces de OpenAI (Alloy, Ash, Ballad, Coral, Echo, Fable, Nova, Onyx, Sage, Shimmer).

Durante una conversación

  • Indicador de estado — Muestra Listo, Conectando, En vivo (con tiempo transcurrido) o Error
  • Medidor de nivel de audio — Muestra la entrada del micrófono con estado Escuchando/Silencio
  • Indicador de pensamiento — Aparece una insignia verde mientras el LLM procesa tu entrada
  • Transcripción de la conversación — Visualización en tiempo real de todo el diálogo. Tus mensajes aparecen a la derecha (verde), los del agente a la izquierda (azul).
  • Barge-in — Interrumpe la IA en cualquier momento hablando. El agente se detiene inmediatamente y te escucha.
  • Control de redimensionamiento — Arrastra el control debajo de la transcripción para redimensionar el área de chat (120px al 85% de la pantalla)
  • Botones duales Iniciar/Detener — Uno arriba, otro fijo abajo para fácil acceso al desplazarse

Monitoreo de latencia

Una barra de latencia compacta aparece después del primer turno, mostrando tres métricas clave:

  • LLM — Tiempo desde tu habla hasta el primer token del LLM
  • TTFB — Tiempo total hasta el primer byte (extremo a extremo)
  • TURN — Duración completa del turno incluyendo reproducción de audio

Los valores están codificados por color: verde (< 2s), amarillo (2–5s), rojo (> 5s).

Toca la barra de latencia para expandir una tabla detallada por turno con columnas: #, Duración del habla, Tiempo LLM, Tiempo TTS, TTFB, Longitud de audio, Total. El promedio de LLM y TTFB se muestra en el encabezado.

Cancelación de eco (AEC)

Talk to me incluye cancelación de eco acústico propietaria mediante un puente nativo de Android Kotlin. La salida del altavoz de la IA se captura y se resta de la entrada de tu micrófono en tiempo real, previniendo bucles de retroalimentación. Esto permite operación completamente manos libres por altavoz sin auriculares. Funciona en todos los presets gestionados y la mayoría de las configuraciones BYO.

Key Pool — Deepgram Voice Agent

El Key Pool de Deepgram Voice Agent es una sección dedicada y plegable debajo del área de chat. Gestiona:

  • Claves API de Deepgram (requeridas) — para STT y enrutamiento gestionado de LLM/TTS
  • Claves LLM (opcional, solo Full BYO) — OpenAI, Anthropic, Gemini, xAI
  • Claves TTS (opcional, solo Full BYO) — ElevenLabs, OpenAI TTS

Cada tarjeta de clave muestra un diseño de 4 filas: etiqueta, insignia de proveedor + clave enmascarada, puntuación de confianza con estadísticas, y botones de acción Probar/Pausar. Puedes probar claves individuales o todas a la vez.

Límites de sesión

Las sesiones están limitadas a 15 minutos máximo (restricción de la API). El tiempo transcurrido se muestra en el botón Detener. La sesión termina automáticamente al alcanzar el límite.

Consejos

  • Comienza con un preset gestionado (Top Tier o Ultra-Fast) — solo requieren una clave de Deepgram y ofrecen la mejor experiencia.
  • GPT-5.4 Nano + Cartesia Sonic-3 ofrece tiempos de respuesta de ~1.1s — la opción más rápida.
  • Los presets Flux son solo en inglés pero extremadamente rápidos gracias a la detección anticipada de fin de turno.
  • Los presets Full BYO usan tus propias claves de LLM/TTS para máximo control pero pueden tener rendimiento reducido de Barge-in con algunos proveedores TTS.
  • Todos los ajustes toman efecto en el próximo inicio de sesión, no durante una sesión en vivo.

12b. Gemini 3.1 Flash Live

Gemini 3.1 Flash Live proporciona conversaciones de voz en tiempo real impulsadas por el último modelo de audio IA de Google. Ofrece la velocidad y el ritmo natural necesarios para la interacción por voz, con latencia inferior a un segundo, 30 voces expresivas y comprensión multimodal nativa.

Requisitos

Necesitas una clave API de Google Gemini (se recomienda el nivel de pago) añadida al Key Pool de LLM en Ajustes. La clave está disponible automáticamente para AI Voice Chat. El modelo utilizado es gemini-3.1-flash-live-preview.

Iniciar una conversación

Navega a la pestaña AI Chat, luego selecciona la sub-pestaña Gemini. Toca Iniciar conversación. La app se conecta a Gemini vía WebSocket, abre tu micrófono y comienza a escuchar. Habla con naturalidad — Gemini responde con audio en tiempo real. Toca Finalizar para detener.

Voces (30 opciones)

Elige entre 30 voces de IA naturales, cada una con una personalidad distinta:

VozCarácterIdeal para
SulafatCálidaNarración de historias, cuentos para dormir, conversaciones tranquilas
GacruxMaduraNarración autoritaria, mentoría, discusiones profundas
AlgenibRoncaNarración cinematográfica, lectura dramática, voz de personaje
KoreFirmeInformes profesionales, lectura de noticias, preguntas y respuestas factuales
PuckEnérgicaConversaciones enérgicas, motivación, lluvia de ideas
ZephyrBrillanteCharlas optimistas, asistencia amigable, saludos
CharonInformativaTutoriales, explicaciones estilo documental
FenrirEntusiastaReacciones entusiastas, comentarios de juegos, emoción
LedaJuvenilChat casual, conversaciones Gen-Z, temas de tendencia
AoedeRelajadaConversaciones relajadas, charlas de viajes, estilo de vida
AchernarSuaveGuía de meditación, estilo ASMR, ánimo suave
AlgiebaFluidaPresentación de podcasts, audiolibros, lecturas extensas
DespinaFluidaNarración elegante, voz de marca de lujo
AchirdAmigableSoporte al cliente, asistencia cotidiana, tono acogedor
VindemiatrixGentilConversaciones de apoyo, tono terapéutico, empatía
SadaltagerConocedoraExplicaciones técnicas, Q&A experto, enciclopédica
RasalgethiInformativaDocumentales de ciencia, contenido educativo
SchedarEquilibradaDiscusiones equilibradas, reportaje neutral, debates
AlnilamFirmePresencia imponente, liderazgo, entornos formales
PulcherrimaDirectaComunicación asertiva, pitch, presentaciones
ZubenelgenubiCasualCharla relajada, amigos poniéndose al día, humor
SadachbiaVivazNarración animada, contenido infantil, juguetón
LaomedeiaAnimadaProgramas matutinos, noticias alegres, vibraciones positivas
CallirrhoeDesenfadadaConsejos casuales, coaching de estilo de vida, accesible
AutonoeBrillanteSesiones creativas, generación de ideas, discusiones de arte
EnceladusSusurranteNarración íntima, lectura de poesía, atmosférica
IapetusClaraInstrucciones precisas, guías paso a paso, claridad
ErinomeClaraComunicación limpia, capacitación corporativa, dicción
UmbrielDesenfadadaQ&A relajado, vibraciones de fin de semana, conversaciones tranquilas

Consejo: Previsualiza todas las voces en la Biblioteca de voces de Google AI Studio.

Idioma

Selecciona entre 24 idiomas compatibles o deja en Detección automática. Gemini responde en el idioma que hables — o en el idioma que selecciones. Compatibles: inglés, alemán, francés, español, italiano, portugués, neerlandés, polaco, rumano, ruso, ucraniano, turco, árabe, hindi, bengalí, tamil, telugu, maratí, japonés, coreano, tailandés, vietnamita, indonesio.

Presets de persona

Los presets de persona definen cómo se comporta Gemini — su personalidad, tono y estilo de comunicación. Elige entre seis presets o crea el tuyo propio:

PresetComportamiento
Friendly AssistantCálido, conversacional, accesible — ideal para uso diario
ProfessionalClaro, conciso, autoritario — para negocios y trabajo
EnthusiasticEnérgico, positivo, alentador — para lluvia de ideas y motivación
Calm & SoothingLento, suave, paciente — para relajación y sesiones guiadas
TeacherPaciente, paso a paso, usa analogías — para aprendizaje y explicaciones
CreativeImaginativo, expresivo, lenguaje vívido — para narración y arte
CustomEscribe tu propia instrucción de sistema desde cero

Instrucción del sistema

La instrucción del sistema es un texto informativo que le das a Gemini antes de que comience la conversación. Piénsalo como dirigir a un actor: dile a la IA quién es, cómo comportarse y en qué enfocarse.

Ejemplos:

  • «Eres un tutor de italiano paciente. Habla despacio. Corrige mi gramática con suavidad.»
  • «Eres un arquitecto de software senior. Responde de forma concisa y técnica.»
  • «Eres un narrador creativo. Habla con estilo. Usa un lenguaje vívido.»

Al usar un preset de persona, tu texto personalizado se añade a la instrucción del preset. En el modo Custom, tu texto es la instrucción completa. Escribe en inglés para mejores resultados. Los ajustes se guardan automáticamente.

Profundidad de pensamiento

Controla qué tan profundamente razona Gemini antes de responder:

NivelComportamiento
MinimalRespuestas más rápidas, razonamiento interno mínimo (predeterminado)
LowConsideración breve, buen equilibrio
MediumRespuestas reflexivas, pausa más larga antes de responder
HighRazonamiento profundo, mejor para preguntas complejas

Temperature y Top-P

Temperature (0.0 – 2.0) controla qué tan creativa vs. predecible responde la IA:

RangoComportamientoIdeal para
0.0 – 0.5Enfocado, determinísticoHechos, respuestas técnicas, instrucciones precisas
0.7 – 1.0Equilibrado, natural (predeterminado: 1.0)La mayoría de conversaciones, uso diario
1.2 – 2.0Creativo, sorprendenteLluvia de ideas, narración, escritura creativa

Top-P (0.0 – 1.0) limita el grupo de palabras que la IA considera. Con 0.95 (predeterminado), el modelo elige del 95% de las palabras más probables. Valores más bajos hacen que la salida sea más conservadora.

Detección de actividad vocal (VAD)

Los ajustes de VAD controlan cómo Gemini detecta cuándo empiezas y dejas de hablar:

  • Sensibilidad de inicio de habla — Qué tan fácilmente el sistema detecta el inicio del habla.
  • Sensibilidad de fin de habla — Qué tan rápido el sistema decide que has dejado de hablar.
  • Duración de silencio — Cuántos milisegundos de silencio antes de que se considere tu turno completo (100–2000ms).

Cancelación de eco (AEC)

Idéntica al Deepgram Voice Agent, Gemini 3.1 Flash Live se beneficia de la cancelación de eco acústico propietaria de Talk to me mediante el puente nativo de Android Kotlin. El modo manos libres por altavoz funciona sin auriculares.

Consejos para mejores resultados

  • Habla con naturalidad — Gemini soporta interrupción natural (Barge-in) (interrumpe en cualquier momento)
  • En Android, el AEC integrado elimina el eco — no se necesitan auriculares
  • La duración de la sesión está limitada a 15 minutos por conexión (límite de la API)
  • Todos los ajustes toman efecto en el próximo inicio de sesión (no durante una sesión en vivo)
  • El medidor de nivel de audio muestra un gradiente de colores (verde, amarillo, naranja, rojo) indicando el nivel de entrada de tu micrófono
  • La transcripción de tu habla y de las respuestas de Gemini se pueden activar/desactivar independientemente

13. Mini-Player Windows

El Mini-Player es una ventana compacta siempre visible que proporciona controles esenciales de dictado sin ocupar toda tu pantalla.

Entrar en el modo Mini-Player

Haz clic en el botón Contraer (icono ↗) en la cabecera. La ventana de la app se reduce a una superposición compacta posicionada en la parte inferior central de tu pantalla.

Disposición del Mini-Player

El Mini-Player muestra una cuadrícula de 3×3 con controles esenciales:

  • Fila 1: Selector de entrada de voz, Botón de estado/inicio, Selector de salida de texto
  • Fila 2: Botón Voice Translate, Pill en línea (analizador de espectro), Guardar grabaciones
  • Fila 3: TDFs de tiempos del pipeline, Vista previa del resultado

Dimensionamiento adaptado a DPI

El Mini-Player ajusta automáticamente su tamaño según la escala DPI de tu pantalla, asegurando dimensiones visuales consistentes entre monitores con diferentes resoluciones (100%, 125%, 150%).

Salir del modo Mini-Player

Haz clic en el botón Expandir para volver a la ventana de tamaño completo en su posición y tamaño anteriores.

14. Atajos globales Windows

Talk to me registra atajos de teclado a nivel del sistema para que puedas controlar el dictado sin cambiar a la ventana de la app.

Atajos principales

AtajoAcción
Ctrl+WinIniciar / Detener grabación (global, funciona desde cualquier app)
Ctrl+Win (durante procesamiento)Cancelar pipeline actual

Atajo TTS

Cuando hay texto seleccionado en cualquier aplicación, el atajo TTS lo lee en voz alta usando tu proveedor TTS configurado.

Hook de bajo nivel

El atajo global usa un hook de teclado de bajo nivel de Windows, lo que significa que funciona incluso cuando la app está minimizada u otra aplicación tiene el foco. El hook opera en "modo sin absorción" — intercepta la combinación de teclas sin bloquear otra entrada del teclado.

15. Auto-Read Windows

Auto-Read es una función exclusiva de Windows que extrae texto de la aplicación enfocada actualmente y lo lee en voz alta vía TTS.

Cómo funciona

  1. Activa Auto-Read haciendo clic en el botón Auto-Read.
  2. Selecciona texto en cualquier aplicación (o usa Ctrl+C para copiar).
  3. Talk to me detecta el contenido del portapapeles y automáticamente lo lee en voz alta usando tu configuración TTS.

Casos de uso

  • Lee correos, artículos o documentos sin mirar la pantalla.
  • Revisa tu propia escritura escuchándola en voz alta.
  • Soporte de accesibilidad para usuarios con discapacidad visual.

16. Notification Listener Windows

El Notification Listener es una función exclusiva de la Edición completa que captura las notificaciones toast de Windows y las lee en voz alta vía TTS.

Requisitos

  • Windows Desktop Edición completa (no disponible en la Edición de Microsoft Store)
  • Permiso de acceso a notificaciones otorgado en la configuración de Windows

Cómo funciona

  1. Activa Notification Listener haciendo clic en el botón.
  2. Otorga el acceso a notificaciones cuando Windows lo solicite.
  3. Cuando llega una notificación toast de Windows (correo, mensaje de chat, recordatorio de calendario), Talk to me extrae el título y el cuerpo de la notificación, y lo lee en voz alta usando tu configuración TTS.

Configuración

  • Activar/desactivar en Ajustes → Manos libres
  • La voz y el proveedor TTS siguen tus ajustes globales de TTS

17. Grabación y guardado MP3 Windows

Grabar lecturas TTS

Cuando está habilitado, cada síntesis TTS se guarda automáticamente como archivo MP3 con numeración secuencial (p. ej., recording_001.mp3, recording_002.mp3).

Guardar grabaciones

Haz clic en Guardar grabaciones para abrir la carpeta que contiene todos los archivos MP3 grabados. Puedes configurar el directorio de grabación en Ajustes.

Nota sobre los permisos de Android Android

La versión de Android de Talk to me requiere varios permisos del sistema (Micrófono, Superposición, Servicio de accesibilidad, Listener de notificaciones) — cada uno con su propio diálogo de confirmación. Entendemos que esto puede resultar tedioso.

Habríamos preferido una experiencia de configuración más sencilla. Sin embargo, las políticas de Google Play Store y las directrices de seguridad de Android requieren que cada permiso sensible se solicite individualmente, con una divulgación clara que explique para qué se usa el permiso y para qué no se usa. Estos flujos de confirmación de múltiples pasos no son nuestra elección de diseño — son requeridos por los requisitos de cumplimiento de la plataforma.

Cada permiso se solicita solo cuando realmente necesitas la función, no todos a la vez durante la instalación. Puedes revocar cualquier permiso en cualquier momento a través de los Ajustes de Android. La app seguirá funcionando — la función correspondiente simplemente se desactivará.

Aquí tienes un resumen de todos los permisos de Android y por qué son necesarios:

PermisoFunción¿Requerido?
MicrófonoDictado de voz a texto, AI Voice ChatSí — función principal
Dibujar sobre otras appsBurbuja flotante (superposición manos libres)Solo si usas la superposición
Servicio de accesibilidadAuto-Paste de texto en campos de entrada de apps de chatSolo si usas Auto-Paste
Listener de notificacionesLectura automática de mensajes entrantes en voz altaSolo si usas Auto-Read
InternetComunicación con proveedores de IASí — requerido para todas las funciones

Gracias por tu comprensión. Nos tomamos tu privacidad en serio — ninguno de estos permisos se usa para recopilar, almacenar o transmitir datos personales. Consulta Privacidad y seguridad para todos los detalles.

18. Burbuja flotante (Overlay) Android

La burbuja flotante es un pequeño icono circular que flota sobre todas las demás apps, proporcionando acceso al dictado manos libres sin cambiar de app.

Activar la superposición

  1. Toca el botón Overlay en la app principal.
  2. Si el permiso de Android "Dibujar sobre otras apps" aún no está otorgado, se te dirigirá a habilitarlo.
  3. Aparece una pequeña burbuja de Talk to me en la pantalla.

Usar la burbuja

  • Toque simple: Iniciar o detener la grabación. Borde rojo pulsante durante la grabación, borde azul pulsante durante la lectura TTS.
  • Triple toque: Prueba de lectura — lee un texto predefinido para confirmar que TTS funciona.
  • Pulsación larga: Limpia la cola de mensajes no leídos.
  • Arrastrar: Mueve la burbuja a cualquier lugar de la pantalla.

Durante la grabación vía burbuja

  1. Toca la burbuja para iniciar la grabación.
  2. Después de la transcripción, un aviso "✓ ¡Insertado!" confirma que el texto fue pegado o colocado en el portapapeles.

Traducción e inserción automática en la Bubble

La Bubble utiliza la misma lógica de traducción que la ventana principal: si tus idiomas de entrada y salida difieren, tu dictado se traduce automáticamente antes de insertarse. Voice Translate (lectura en voz alta) también funciona en la Bubble.

Mediante el Servicio de Accesibilidad de Android, la Bubble inserta el texto (posiblemente traducido) directamente en el campo de entrada activo. En todas las apps populares probadas — WhatsApp, Gmail, Discord, Microsoft Teams, Viber, Chrome, ChatGPT, Facebook, Instagram, Pinterest y Skool — la inserción automática funciona de forma fiable.

Si usas una app muy exótica donde la inserción automática falla, el texto ya traducido está en el portapapeles — un toque largo en el campo de entrada y «Pegar» hace visible el texto.

Detener la superposición

Toca el botón Overlay de nuevo o toca Detener en la notificación.

19. Auto-Paste Android

Auto-Paste usa el Servicio de accesibilidad de Android para insertar automáticamente el texto dictado en el campo de texto enfocado actualmente.

Habilitar Auto-Paste

  1. Toca el botón Auto-Paste.
  2. Un diálogo de divulgación explica qué hace y qué no hace el Servicio de accesibilidad. Toca Habilitar Auto-Paste.
  3. Se te dirige a los Ajustes de accesibilidad de Android. Encuentra Talk to me y habilítalo.
  4. El botón ahora muestra ✓ con borde cian.

Botón de atajo de accesibilidad

Al habilitar el Servicio de accesibilidad, Android te pedirá que elijas un atajo de activación. Esto determina cómo puedes alternar rápidamente el servicio:

  • Botón de accesibilidad (recomendado): Un pequeño botón aparece en la barra de navegación. Tócalo para alternar el servicio.
  • Volumen arriba + Volumen abajo (mantener 3 segundos): Presiona y mantén ambas teclas de volumen simultáneamente durante 3 segundos para alternar.

Recomendamos la opción de Botón de accesibilidad para la experiencia más fácil. Esta es una función estándar del sistema Android — la elección no afecta cómo funciona Auto-Paste.

Notas importantes

  • Requiere permiso de accesibilidad de Android (un permiso sensible).
  • Puede necesitar re-otorgarse después de actualizaciones de la app.
  • Se usa exclusivamente para la inserción de texto — no se accede a ningún otro dato de accesibilidad.

Compatibilidad de apps

Auto-Paste funciona de forma fiable en la mayoría de apps Android. Las siguientes apps fueron probadas con v0.5.159:

AppAuto-PasteTraducción
WhatsApp
Gmail (destinatario + cuerpo)
Discord
Microsoft Teams
Viber
Chrome
ChatGPT
Facebook
Instagram
Pinterest
Skool (WebView en Chrome)
Viber

"Acceso a la app denegado" — Ajustes restringidos (Android 13+)

En algunos dispositivos, al habilitar Auto-Paste o Acceso a notificaciones, puedes ver "Acceso a la app denegado" o "Por tu seguridad, este ajuste no está disponible actualmente." Esto no es un error — es una función de seguridad de Android 13+ llamada Ajustes restringidos.

Fabricantes afectados: Lenovo (ZUI), Samsung (One UI), Xiaomi/Redmi (MIUI/HyperOS), OPPO/Realme (ColorOS), Huawei/Honor (EMUI/HarmonyOS), OnePlus (OxygenOS), Stock Android/Pixel.

Cómo solucionarlo:

  1. Abre Android Ajustes → Apps → Ver todas las apps → encuentra Talk to me.
  2. Toca Talk to me para abrir la página Info de la app (no la subpágina de Notificaciones).
  3. Toca el menú de tres puntos (⋮) en la esquina superior derecha.
  4. Selecciona Permitir ajustes restringidos.
  5. Confirma con tu PIN/huella digital.
  6. Vuelve a Ajustes → Accesibilidad y habilita Talk to me.

Consejo: Si el menú de tres puntos no es visible, primero intenta habilitar el permiso (provocando el error), luego ve a la página Info de la app — el menú debería aparecer ahora.

Xiaomi/MIUI/HyperOS: Ve a Ajustes → Apps → Gestionar apps → Talk to me y desplázate hasta abajo.

Lenovo (ZUI): Al tocar Apps en Ajustes, puedes llegar a la subpágina de Notificaciones en lugar de Info de la app. Navega hacia atrás y busca la página completa de Info de la app con secciones de almacenamiento, permisos y batería.

20. Lectura automática de mensajes Android

La lectura automática lee en voz alta los mensajes de chat entrantes usando TTS — ideal para conducir, cocinar o hacer ejercicio.

Cómo funciona

  1. Activa Auto-Read (icono de auriculares).
  2. Asegúrate de que Acceso a notificaciones está otorgado.
  3. La Superposición debe estar activa.
  4. Cuando llega un mensaje de una app permitida, Talk to me anuncia el remitente y lee el mensaje en voz alta.

Apps de chat preseleccionadas

WhatsApp, WhatsApp Business, Telegram, Signal, Discord, Slack, Microsoft Teams, Viber, Messenger (Meta), Instagram, Google Messages, Samsung Messages.

Puedes añadir o eliminar apps en Configuración de apps Auto-Read.

21. Acceso a notificaciones Android

El acceso a notificaciones permite que Talk to me lea las notificaciones entrantes, necesario para la lectura automática de mensajes.

Otorgar acceso

  1. Toca el botón Notif Access.
  2. Ve a los Ajustes de Listener de notificaciones de Android.
  3. Encuentra Talk to me y habilítalo.
  4. El botón muestra ✓ con borde cian.

Notas importantes

  • Permiso a nivel de sistema — solo procesa notificaciones de apps explícitamente permitidas.
  • Ningún dato de notificación se almacena, transmite o registra.

22. Configuración de apps Auto-Read Android

Controla qué apps pueden tener sus notificaciones leídas en voz alta.

Apps de chat conocidas

Apps de mensajería preseleccionadas con interruptores individuales (WhatsApp, Telegram, Signal, Discord, Slack, Teams, Viber, Messenger, Instagram, Google Messages, Samsung Messages).

Buscar y añadir apps personalizadas

  1. Toca el campo de búsqueda y escribe el nombre de una app.
  2. Las apps instaladas coincidentes aparecen, ordenadas por relevancia.
  3. Marca la casilla para añadir una app.

Cómo funciona el filtrado

  • Solo se leen en voz alta las notificaciones de apps permitidas.
  • Los cambios toman efecto inmediatamente — no se requiere reinicio.

23. Ajustes

Idioma de la interfaz

English, Deutsch, Français, Español — independiente de tu idioma del sistema.

Preset de calidad

PresetProveedor STTProveedor LLMModeloPulido
Top PerformerScribe v2OpenAIGPT-5.4Strong
StandardScribe v2OpenAIGPT-4.1 miniStrong
BudgetWhisperGroqDefaultLight
FreeDeepgramGroqDefaultOff
CustomManualManualManualManual

Voz a texto

  • Proveedor: OpenAI Whisper, Deepgram Nova-2/3, ElevenLabs Scribe v2, Groq Whisper
  • Keyterms personalizados (solo Scribe): Nombres propios, marcas, términos técnicos
  • Idioma: Detección automática o específico

Texto a voz

  • Proveedor: ElevenLabs, OpenAI TTS, Deepgram Aura 2
  • Modelo (ElevenLabs): Eleven v3, Multilingual v2, Flash v2.5, Turbo v2.5

Proveedor LLM (Pulido)

  • Proveedor: OpenAI, Groq, Anthropic, Google Gemini, xAI Grok
  • Modelo: Predeterminado del proveedor o específico
  • Intensidad del pulido: Light o Strong

Proveedor de traducción

Proveedor separado para la traducción con IA (puede diferir del proveedor de pulido).

AI-Polish / AI-Translate

Alterna cada uno independientemente. Cuando AI-Translate está habilitado:

  • Traducir a: 20 idiomas de destino
  • Voice Translate: Lectura automática de traducciones vía TTS

Android Manos libres

Interruptores rápidos para Overlay, Lectura automática de mensajes, Auto-Paste, Acceso a notificaciones.

Guardar y probar

  • Guardar todos los ajustes actuales — Persiste los cambios en el almacenamiento del dispositivo
  • Probar configuración actual — Prueba todos los proveedores configurados con tiempos de respuesta

24. Correcciones de palabras

Las correcciones de palabras enseñan a Talk to me la ortografía correcta de nombres, marcas y términos que el reconocimiento de voz confunde.

Añadir correcciones

Añadir individual

Introduce la ortografía incorrecta y la ortografía correcta, luego toca/haz clic en Añadir.

Importación masiva

Introduce la ortografía correcta, luego lista las variantes incorrectas (una por línea). Usa Generar con IA para crear automáticamente errores ortográficos probables.

Multi-importación

Introduce pares como incorrecto;correcto (uno por línea). Admite separadores ;, ->, coma o tabulador.

Cómo funcionan las correcciones

Durante el post-procesamiento (etapa 3 del Pipeline), las ortografías incorrectas se reemplazan automáticamente antes de que se ejecute AI-Polish.

25. Copia de seguridad y restauración

Exportar ajustes

  1. Abre Copia de seguridad y restauración en Ajustes.
  2. Toca/haz clic en Exportar ajustes.
  3. Introduce y confirma una contraseña de cifrado (mín. 6 caracteres).
  4. Windows: El diálogo de guardar sugiere talktome-settings.ttm — tú eliges la carpeta.
  5. Android: La copia de seguridad se escribe en tu área de Descargas como TalkToMe-backup.ttm. Si ese nombre ya existe, el sistema puede añadir (1), (2), etc. — todos son copias de seguridad cifradas válidas.

Importar ajustes

  1. Toca/haz clic en Importar ajustes.
  2. Automático (Android): La app busca el archivo más reciente con nombre TalkToMe-backup y extensión .ttm (incluyendo TalkToMe-backup (1).ttm, etc.) en el almacenamiento de la app y en Descargas.
  3. Si se abre el selector de archivos del sistema: En muchos teléfonos (p. ej. Samsung), la primera pantalla es Usados recientemente y puede mostrar Imágenes por defecto — tus archivos .ttm están ocultos hasta que cambies el filtro superior a Documentos o Esta semana, o abras la carpeta Descargas directamente.
  4. Dispositivo nuevo: Copia el archivo .ttm de tu dispositivo antiguo (USB, nube, correo), luego usa Importar y selecciona ese archivo.
  5. Introduce la contraseña de cifrado.
  6. Todos los ajustes se restauran y la app se reinicia.

Detalles técnicos

  • Cifrado: AES-256-GCM con PBKDF2-HMAC-SHA256 (100.000 iteraciones)
  • Incluido: Todos los ajustes, claves API, correcciones de palabras, apps de lectura automática, preset de calidad, idioma de la interfaz
  • NO incluido: Activación de licencia (vinculada al Machine ID)

26. Panel de uso

MétricaDescripción
STT CallsTranscripciones de voz a texto realizadas
LLM PolishOperaciones de AI-Polish o AI-Translate
TTS SynthOperaciones de síntesis de texto a voz

Los contadores son acumulativos desde el último restablecimiento de ajustes.

27. Solución de problemas

General

ProblemaSolución
"No hay clave API configurada"Añade una clave en Key Pool para la función que necesitas
La grabación no se iniciaVerifica el permiso del micrófono en los ajustes del sistema
Voice Translate no produce audioAsegúrate de que hay una clave API TTS configurada y funcionando
La exportación fallaVerifica el acceso de escritura a la carpeta de Descargas
No se ve la copia de seguridad en el selector de importaciónCambia de Imágenes a Documentos / Esta semana, o abre la carpeta Descargas — ver §25 Importar

Windows Específico de Windows

ProblemaSolución
El atajo Ctrl+Win no funcionaAsegúrate de que la app está ejecutándose (revisa la bandeja del sistema)
El texto no se pega después del dictadoAsegúrate de que la ventana de destino soporta Ctrl+V
Notification Listener no disponibleSolo disponible en la Edición completa (no en la Edición Store)
El Mini-Player se ve demasiado grande/pequeñoEl dimensionamiento adaptado a DPI se ajusta automáticamente; reinicia la app si cambiaste la configuración de pantalla

Android Específico de Android

ProblemaSolución
Auto-Read no funcionaAsegúrate de que la Superposición está activa, Auto-Read habilitado y Acceso a notificaciones otorgado
Auto-Paste no funcionaRehabilita el Servicio de accesibilidad en los Ajustes de Android
La burbuja no apareceOtorga el permiso "Dibujar sobre otras apps"
"Acceso a la app denegado" al otorgar permisosAjustes restringidos (Android 13+) — ver §19 "Ajustes restringidos" para la solución paso a paso
La pantalla no rota (Tablet)Comprueba si el Modo PC está activo (baja los Ajustes rápidos). La rotación automática se ignora en Modo PC — cambia de vuelta al Modo Android. Afecta principalmente a tablets Lenovo (ZUI).

28. Privacidad y seguridad

Manejo de datos

  • Sin recolección de datos: Talk to me no recopila, almacena ni transmite ningún dato de usuario a los servidores de mrocon GmbH.
  • Comunicación directa con API: El audio y el texto van directamente desde tu dispositivo al proveedor de IA elegido.
  • Solo almacenamiento local: Todos los ajustes y claves API se almacenan exclusivamente en tu dispositivo.
  • Sin analíticas: Sin seguimiento, analíticas ni telemetría de ningún tipo.

Permisos

Windows

PermisoPropósito
MicrófonoGrabar audio para dictado
Acceso a notificacionesLeer notificaciones (Edición completa)
InternetComunicarse con proveedores de IA

Android

PermisoPropósito
MicrófonoGrabar audio para dictado
Superposición (Dibujar sobre apps)Mostrar la burbuja flotante
Listener de notificacionesLeer notificaciones para Auto-Read
Servicio de accesibilidadPegar texto automáticamente en campos
InternetComunicarse con proveedores de IA
Consultar paquetes instaladosMostrar nombres de apps en ajustes de Auto-Read

Cifrado

  • Windows: Claves API cifradas con DPAPI (Windows Data Protection API)
  • Android: Claves API en almacenamiento interno privado de la app
  • Archivos de copia de seguridad: Cifrado AES-256-GCM

Apéndice A — Idiomas compatibles

Idiomas de entrada de voz

Detección automática, alemán, inglés, francés, español, italiano, portugués, neerlandés, japonés, coreano, chino, ruso, árabe, hindi, polaco, turco, sueco, ucraniano

Idiomas de destino de traducción

Alemán, inglés, francés, español, italiano, portugués, neerlandés, japonés, chino, coreano, ruso, árabe, hindi, polaco, turco, sueco, ucraniano, danés, finés, noruego

Idiomas TTS

Auto, alemán, inglés, francés, italiano, español, portugués, neerlandés, polaco, sueco, danés, finés, noruego, turco, japonés, coreano, chino

Idiomas de la interfaz

English, Deutsch, Français, Español

Apéndice B — Proveedores compatibles

Voz a texto

ProveedorNotas
OpenAI WhisperEl más usado, confiable
Deepgram Nova-2 / Nova-3Rápido, buena precisión
ElevenLabs Scribe v2Admite keyterms personalizados
Groq WhisperNivel gratuito disponible, rápido

LLM (Pulido / Traducción)

ProveedorNotas
OpenAIGPT-4o-mini, GPT-5.4, etc.
GroqNivel gratuito, modelos Llama
AnthropicModelos Claude
Google GeminiModelos Gemini
xAI GrokNivel gratuito disponible

Texto a voz

ProveedorNotas
ElevenLabsMejor calidad, clonación de voz, 4 modelos
OpenAI TTS6 voces integradas, sencillo
Deepgram Aura 2Síntesis rápida

Apéndice C — Presets de calidad

Preset STT LLM Modelo Pulido Coste
Top PerformerScribe v2OpenAIGPT-5.4Strong$$$
StandardScribe v2OpenAIGPT-4.1 miniStrong$$
BudgetWhisperGroqDefaultLight$
FreeDeepgramGroqDefaultOffGratis
CustomManualManualManualManualVariable

Apéndice D — Atajos de teclado Windows

AtajoAcción
Ctrl+WinIniciar / Detener grabación
Ctrl+Win (durante procesamiento)Cancelar pipeline
Atajo TTSLeer texto seleccionado en voz alta

Talk to me es un producto de mrocon GmbH. Todos los derechos reservados.

Para soporte, contacta con team@talktome.studio o visita talktome.studio.

↑ Volver arriba