Voz para tu app sin internet ni pagos
Supertonic 3 convierte texto en voz de calidad de estudio en tu propio ordenador, sin suscripciones ni nube, en 31 idiomas.
Una voz que vive en tu ordenador
Imagina que estás construyendo una pequeña herramienta — un lector de carta para tu restaurante, un portal para clientes de tu agencia, o simplemente algo que te lea los correos mientras cocinas. Quieres que hable. Lo habitual es pagar un servicio en la nube, enviar tu texto a los servidores de otra empresa y rezar para que la factura no se dispare.
Supertonic 3 plantea otra cosa. Es un motor gratuito y de código abierto que convierte texto en voz directamente en tu propio ordenador. Sin conexión a internet una vez instalado. Sin clave de acceso. Sin factura mensual. El audio que produce es realmente bueno — calidad de podcast, 44.1kHz — y funciona en 31 idiomas: español, francés, japonés, árabe y muchos más.
Lo que lo hace especialmente interesante para quien construye cosas es un detalle casi invisible: si ya usas alguna app conectada al servicio de voz de OpenAI, puedes apuntarla hacia Supertonic con cambios mínimos. Habla el mismo idioma técnico. Así que los costes caen a cero y tus datos no salen de tu máquina.
Ya hay gente usándolo en apps de lectura, extensiones de navegador y asistentes de IA locales. El proyecto superó los 10.000 seguidores en GitHub en menos de seis meses — nada mal para algo que no te cobra nada.
Si alguna vez has querido añadir voz a algo que estás construyendo — o estás pagando por servicios de síntesis de voz y te preguntas si hay otra forma — esto merece un hueco en tu radar.
Palabras que conviene saber
On-device (en el dispositivo) — se ejecuta en tu propio ordenador, no en servidores de otra empresa. Tus datos se quedan contigo.
Código abierto — el código es público y libre de usar. Sin licencias, sin dependencia de ningún proveedor.
API key (clave de API) — una especie de contraseña que permite a un servicio cobrarte por cada uso. Sin clave de API, sin factura.
44.1kHz — una medida de calidad de sonido. Es el estándar de los CDs de música. Cuando un motor de voz produce audio a este nivel, suena natural, no robótico.