← Notas de Campo
EN/ES

Enseñarle a un agente de IA a usar programas de escritorio

13 de marzo de 2026via github · @HKUDS
AIautomationworkflowtoolsopen-source

El problema que resuelve

Los agentes de IA se defienden bien buscando en internet, redactando textos o moviendo archivos. Pero si les pides que redimensionen imágenes en GIMP o exporten un vídeo desde Blender, se quedan bloqueados. Esas aplicaciones fueron diseñadas para personas con ratón, no para que un programa le hable a otro.

CLI-Anything cambia eso. Le apuntas a un programa de escritorio y él averigua cómo manejarlo mediante instrucciones de texto en lugar de clics. El resultado: un agente de IA puede usar Blender o LibreOffice igual que usa un buscador — enviando instrucciones y recibiendo resultados.

Sin capturas de pantalla. Sin clics simulados. Solo comunicación limpia y fiable.

Por qué le importa a tu negocio

Piensa en el software que usa tu equipo cada día — herramientas de diseño, editores de vídeo, suites de oficina. Ahora mismo, automatizar esas tareas casi siempre significa contratar a alguien para hacer las partes repetitivas. Con algo como CLI-Anything, un agente de IA podría encargarse directamente: exportar archivos en lote, aplicar plantillas, generar informes — todo de noche, sin nadie en la oficina.

Ya funciona con GIMP, Blender, LibreOffice, OBS Studio y alguno más. La lista crece rápido.

Palabras que vale la pena conocer

Agente de IA — Un programa que puede tomar decisiones y ejecutar tareas por su cuenta, no solo responder preguntas. Como un asistente muy literal que sigue instrucciones paso a paso.

CLI (interfaz de línea de comandos) — Una forma de controlar un programa escribiendo instrucciones en lugar de hacer clic. Los ordenadores llevan décadas usando esto. Es como hablan los programas entre sí.

GUI (interfaz gráfica) — La parte visual de una aplicación: los botones, menús y ventanas con los que interactúas. La mayoría del software de escritorio es solo GUI, lo que dificulta que los agentes lo usen.

Salida en JSON — Cuando un programa devuelve sus resultados en un formato ordenado que otro software puede leer y procesar fácilmente. Como recibir un albarán con cada artículo bien detallado, en lugar de una nota a mano.


Si tu equipo hace algo repetitivo en programas de escritorio — exportar, formatear, convertir — vale la pena preguntarse: ¿podría un agente de IA hacerlo mientras dormimos?

¿Quieres que auditemos tu web? 60 segundos →