Imagina que acabas de contratar a alguien para atender a tus clientes. Antes de que empiece, querrías saber: ¿qué pasa si alguien intenta manipularle? ¿Y si un cliente intenta conseguir información que no le corresponde?
Prompfoo hace eso mismo, pero con IA. Lanza automáticamente miles de situaciones complicadas contra tu agente de IA — intentando engañarle, confundirle o conseguir que revele cosas que no debería — y luego te muestra qué ha fallado.
El 9 de marzo de este año, OpenAI pagó unos 86 millones de dólares por esta herramienta. Y luego hizo algo poco habitual: la dejó completamente gratuita y abierta para cualquiera. No es un gesto de relaciones públicas. Es una señal de que probar la seguridad de la IA ya no es opcional — se está convirtiendo en algo tan básico como tener un extintor antes de abrir un negocio.
Los equipos que construyen IA en OpenAI y Anthropic usan esta misma herramienta en su propio trabajo. También más de 150 empresas del Fortune 500. Y aun así, una agencia pequeña o un fundador independiente puede hacer exactamente las mismas pruebas, gratis, en su propio ordenador.
Si usas IA para responder a clientes, procesar documentos o tomar decisiones, esta es una herramienta que tu desarrollador debería conocer. Antes de que tu IA salga al mundo, alguien debería preguntarse: ¿qué pasa cuando alguien intenta romperla?
Agente de IA — una IA que no solo responde preguntas, sino que toma acciones: hace reservas, envía correos, busca datos en tu nombre.
Prompt injection — una trampa en la que alguien esconde instrucciones dentro de un texto que lee tu IA, intentando que haga cosas que tú no habías previsto.
Código abierto — software cuyo funcionamiento interno es público y gratuito. Cualquiera puede examinarlo, mejorarlo o construir sobre él.
Red teaming — intentar romper algo a propósito antes de que lo haga un problema real. Viene del ámbito militar y ahora es práctica habitual en ciberseguridad.