← Notas de Campo
EN/ES

Una hora de voz, procesada de un tirón

31 de marzo de 2026via github · @microsoft
AIopen-sourcevoicetranscriptiontools

Qué es

Microsoft acaba de publicar de forma abierta algo llamado VibeVoice — un conjunto de modelos de inteligencia artificial para voz que hacen dos cosas: convertir audio en texto (transcripción) y convertir texto en voz. Los dos son gratuitos y el código está disponible públicamente.

Lo que me llamó la atención es la escala. La mayoría de herramientas de transcripción se ponen nerviosas con grabaciones largas. Trocean el audio en fragmentos pequeños, procesan cada pieza por separado y esperan que las uniones no se noten. VibeVoice maneja hasta 60 minutos de un solo tirón — una lectura continua. Sabe quién está hablando, en qué momento, y se le pueden enseñar palabras específicas que quieras que reconozca.

El lado de síntesis de voz es igual de generoso: hasta 90 minutos de audio con cuatro voces distintas de una vez. Es decir, un episodio de podcast completo, generado.

Por qué le importa a tu negocio

Si alguna vez has pagado por un servicio de transcripción, subtítulos automáticos o una herramienta de locución, este es el tipo de tecnología que hay debajo de esos productos. Salvo que ahora es gratuita y abierta.

Para quien esté construyendo un asistente de reuniones, un archivo de audio, una biblioteca de formación con narración, o simplemente quiera hacer su contenido más accesible — vale la pena seguirle la pista. Ya hay productos reales en la comunidad que lo están usando.

Palabras que vale la pena conocer

Transcripción (ASR): Reconocimiento automático de voz — software que escucha audio y escribe lo que oye.

TTS (Texto a voz): Lo contrario — software que lee un texto en voz alta con un sonido humano.

Diarización de hablantes: Una forma elegante de decir 'quién dijo qué.' El modelo etiqueta a cada persona por separado, así sabes que fue María hablando del minuto 3 al 7, y luego Carlos.

Código abierto: La receta es pública. Cualquiera puede usarla, revisarla o construir un producto encima — sin pagar licencias.

Si tu negocio tiene algo que ver con audio — grabaciones, llamadas de clientes, contenido — pregúntale a quien te construye las cosas si esto podría reemplazar algo que estás pagando ahora.

Ver el proyecto →

Escrito por David en AC0.AI. Sígueme en @ac0hero

¿Quieres que auditemos tu web? 60 segundos →