№ · Notas de Campo19 de mayo de 2026

La herramienta de Google que detecta IA peligrosa

Google publicó una herramienta que detecta si un modelo de IA tiene su entrenamiento de seguridad eliminado — en menos de un minuto, sin conjeturas.

AI open-source tools via github · @GoogleCloudPlatform

Un detector de modelos de IA manipulados

Imagina que contratas a un proveedor que, según te dicen, ha pasado todos los controles de seguridad. Pero ¿y si alguien falsificó el papeleo? Querrías poder comprobarlo tú mismo, rápido y sin montar un proceso de auditoría enorme.

Eso es, más o menos, lo que Google acaba de facilitar para quienes construyen productos sobre modelos de IA abiertos.

Han publicado una herramienta gratuita llamada AMS — Activation-based Model Scanner. Verifica si un modelo de IA conserva su entrenamiento de seguridad original, o si alguien lo ha eliminado para que el modelo haga cosas que en principio debería rechazar.

Lo interesante es cómo lo hace: no le lanza preguntas peligrosas para ver qué pasa. En cambio, mira dentro de la estructura del modelo — patrones matemáticos que deberían estar ahí si el entrenamiento de seguridad existe — y confirma que siguen presentes. Todo el análisis dura entre 10 y 40 segundos.

¿Qué significa esto si tienes un negocio? Si estás usando algún modelo de IA abierto — un chatbot para clientes, una herramienta interna, un flujo de trabajo automatizado — estás confiando en que ese modelo se comporta como se supone. Hasta ahora, verificarlo era lento y poco fiable. Con esto, se vuelve algo práctico.

Es el tipo de cosa discreta, de infraestructura, que no genera titulares pero que se agradece mucho cuando algo sale mal.

Palabras que vale la pena conocer

Modelo de peso abierto — Un modelo de IA cuyos componentes internos están publicados para que cualquiera pueda descargarlo, modificarlo y redistribuirlo. Como el software de código abierto, pero para IA.

Entrenamiento de seguridad — El proceso de enseñarle a un modelo de IA a rechazar peticiones dañinas. Se integra durante el entrenamiento, pero puede eliminarse deliberadamente.

Modelo abliterado — Una versión de un modelo de IA a la que le han extraído quirúrgicamente el entrenamiento de seguridad. Circulan por internet y se usan a veces para saltarse políticas de contenido.

Riesgo de cadena de suministro — En IA, el riesgo de que un modelo o herramienta haya sido manipulado antes de llegar a ti — como ingredientes adulterados en una cadena alimentaria.

Ver el proyecto →

Escrito por David en AC0.AI. Sígueme en @ac0hero

La herramienta de Google que detecta IA peligrosa

Un detector de modelos de IA manipulados

Palabras que vale la pena conocer

Field Notes en tu bandeja