Imagina que tienes una plataforma donde la gente sube archivos: contratos, fotos, currículums, hojas de cálculo. Probablemente asumes que tu sistema sabe lo que está recibiendo. A menudo, no es así.
Durante décadas, el software ha adivinado el tipo de archivo mirando los primeros bytes — una solución chapucera que falla constantemente con los formatos modernos. Google construyó algo mejor, lo entrenó con cien millones de archivos reales, y ahora lo usa para analizar cada adjunto que pasa por Gmail y Drive antes de llegar a los filtros de seguridad. Cientos de miles de millones de archivos a la semana.
Ahora lo han publicado como herramienta gratuita y abierta: se llama Magika. Es capaz de distinguir un archivo TypeScript de uno JavaScript, o una variante de JSON de otra casi idéntica — diferencias que las herramientas antiguas simplemente pasan por alto. Y lo hace en unos cinco milisegundos por archivo.
Para la mayoría de los fundadores, esto no es algo que vayan a tocar directamente. Pero si estás construyendo cualquier producto que acepte archivos — un portal para clientes, una herramienta de documentos, un asistente de IA que lee ficheros — los desarrolladores con los que trabajas van a querer saber que esto existe. Es una de esas piezas de base que hace que todo lo demás funcione mejor, sin que nadie lo note.
Que Google publique gratis el mismo motor que usa internamente dice mucho sobre hacia dónde va la infraestructura tecnológica.
Código abierto (open-source) — Software cuyo código está disponible públicamente y es libre de usar. Como compartir una receta en lugar de guardarla en secreto.
Detección de tipo de archivo — Cuando un sistema averigua qué clase de archivo es algo (un PDF, una imagen, una hoja de cálculo). Suele hacerse de forma automática, y suele hacerse mal.
Modelo de aprendizaje profundo — Un tipo de IA que aprende mostrándole una cantidad enorme de ejemplos hasta que detecta patrones que un humano no podría escribir. Magika aprendió a reconocer archivos igual que tú aprendes a reconocer la letra de alguien: a base de ver miles de muestras.
Si estás construyendo un producto que gestiona subidas de archivos, coméntaselo a tu equipo técnico. Pregúntales qué están usando ahora para detectar tipos de archivo — y si alguna vez ha causado problemas.