· Notas de Campo21 de junio de 2026

La web como álbum de fotos para la IA

PixelRAG permite que los agentes de IA lean webs como capturas de pantalla, no como texto — y resulta más rápido, barato y preciso que el método anterior.

AItoolsworkflowvia github · @@YichuanM

De qué va esto

Cuando un agente de IA busca algo en internet, normalmente tiene que convertir la página web a texto plano primero — como fotocopiar un menú precioso y quedarse solo con las palabras, perdiendo el diseño, las imágenes y todo el contexto. Ese proceso es lento, impreciso y caro.

Un equipo de investigación de UC Berkeley acaba de publicar algo que se salta ese paso por completo. PixelRAG hace capturas de pantalla de las páginas web — exactamente como las vería un humano — y se las pasa directamente a una IA que sabe leer imágenes.

Los resultados son bastante llamativos. No solo responde preguntas con más precisión que el método clásico, sino que lo hace usando unas diez veces menos recursos — lo que se traduce en costes más bajos y respuestas más rápidas.

Es como la diferencia entre darle a alguien una fotocopia en blanco y negro de una reseña de restaurante o mostrarle la página original de la guía Michelin. La segunda versión conserva las estrellas, las fotos, el formato — todo lo que aporta significado.

Por qué le importa esto a tu negocio

Si estás construyendo o comprando algo en lo que un agente de IA investiga, monitoriza competidores o extrae información de la web, este tipo de mejora de base hace que todo funcione mejor sin que tú tengas que cambiar lo que pides.

Menos recursos equivale a facturas más pequeñas. Una lectura más precisa significa menos errores que te pongan en un aprieto.

Palabras que vale la pena conocer

RAG — Siglas de "Recuperación Aumentada de Generación." Término técnico para cuando una IA busca información antes de responder, en lugar de tirar de memoria.

Token — La unidad por la que cobran las empresas de IA. Más o menos una palabra por token. Menos tokens = menos coste.

Modelo visión-lenguaje — Una IA que entiende tanto texto como imágenes. Como un colaborador que puede mirar una captura de pantalla y contarte qué hay en ella.

Agente — Una IA que toma acciones por ti — buscar, hacer clic, leer — en lugar de limitarse a responder preguntas.


Si ya tienes algún sistema con agentes de IA, merece la pena preguntarle a tu desarrollador si el paso de búsqueda en la web se podría sustituir por algo como PixelRAG. La respuesta podría ahorrarte dinero real.

Ver el proyecto →

Escrito por David en AC0.AI. Sígueme en @ac0hero

Field Notes en tu bandeja

Las herramientas y movimientos de IA que de verdad uso para ganar más negocio. Un par por semana, nada que no haya probado yo mismo.

session0
histórico0
Pulsado0