
El mito del Agente IA de Compras: por qué la autonomía no basta



Hoy se habla de Agentes IA como si la autonomía fuera el gran avance, cuando en el despartamento de compras, no lo es. El verdadero progreso está en delegar procesos dentro de un marco de control definido por el humano. Es decir, tener un trabajo dividido en pasos claros, que se puedan seguir, comprobar y auditar.
La empresa Project Vend es uno de los ejemplos más claros de cómo se comportan los Agentes IA cuando se enfrentan a operaciones reales. Anthropic puso a un Agente IA al frente de una pequeña tienda interna en su oficina, encargada de gestionar pedidos, proveedores, precios y ventas, y lo dejó operar durante varias semanas sin una estructura estricta.
En esa primera fase, el agente era técnicamente capaz, pero fallaba en lo esencial: tomaba decisiones poco fiables, improvisaba y cometía errores que en un entorno real afectarían al margen y al control. Por eso, Anthropic lanzó una segunda fase del experimento. El rendimiento mejoró, no porque el agente fuera más autónomo, sino porque se le obligó a seguir procedimientos claros, con pasos definidos y controles explícitos.
Al enviar este formulario, aceptas recibir correos electrónicos sobre nuestros productos y servicios según nuestra Política de Privacidad. Puedes darte de baja en cualquier momento.
Fase uno: un Agente capaz, pero no operativo
En la primera fase, Anthropic y Andon Labs pusieron a Claude Sonnet 3.7 al frente de una tienda real en la oficina. El Agente, apodado Claudius, podía navegar por internet, enviar mensajes en Slack y pedir a Andon Labs que repusiera stock. También podía fijar precios, elegir inventario y atender a los clientes.
Algunas cosas funcionaron. Encontró proveedores con rapidez, gestionó solicitudes y rechazó algunas peticiones claramente problemáticas de testers internos.
Pero falló justo donde suelen fallar los Agentes cuando entran en operaciones reales. Ignoró oportunidades claras de margen, inventó detalles críticos como dónde enviar los pagos, fijó precios sin investigación previa y vendió con pérdidas. También fue persuadido para aplicar descuentos y regalar productos, y no aprendió de forma consistente de sus propios errores.
Si trabajas en compras, nada de esto debería sorprenderte.
Las compras son, ante todo, un sistema de control diseñado para evitar tres cosas: comprar lo incorrecto, comprar de la forma incorrecta o comprar al precio incorrecto. Por eso, un asistente “útil” que improvisa en tiempo real nunca puede superar esos controles.
Orquesta finanzas con control: Descubre cómo usar Agentes IA

Fase dos: el cambio real
En la segunda fase se introdujo un modelo Sonnet más reciente y se modificó el entorno. Eso ayudó, pero el cambio más importante fue estructural: más herramientas, instrucciones más estrictas y procedimientos obligatorios.
Anthropic dio al agente un CRM para registrar clientes, proveedores, entregas y pedidos. Mejoró la gestión de inventario para que pudiera ver los costes reales. Amplió la navegación web para investigar mejor proveedores y precios. Añadió herramientas operativas básicas como formularios de feedback, enlaces de pago y recordatorios. Y mantuvo un límite clave: sin acceso directo a pagos, de modo que las compras seguían requiriendo aprobación humana.
Ese diseño estabilizó el rendimiento. Claudius mejoró en interacciones comerciales habituales, en la búsqueda de proveedores, en la fijación de precios con margen y en la ejecución de ventas.
Lo que realmente funcionó: el procedimiento
La parte más reveladora de la segunda fase es lo que Anthropic identifica como decisivo: obligar al agente a seguir pasos. Cuando llegaba una solicitud, en lugar de proponer de inmediato un precio bajo y una fecha optimista, el agente tenía que comprobar los datos con herramientas antes de responder. Los precios subieron, los plazos se volvieron más conservadores y el resultado fue más realista.
Anthropic lo dice sin rodeos: la burocracia importa. Los procedimientos y las listas de comprobación existen porque aportan memoria institucional y evitan errores recurrentes.
Esta es la implicación estratégica clave de la evolución de Project Vend. El salto de una “demo llamativa” a algo que se pueda operar de verdad no consiste solo en usar un modelo más grande. Consiste en convertir el trabajo en pasos que el agente no puede saltarse, apoyados en herramientas que hacen esos pasos fáciles de seguir y difíciles de manipular.
Por qué muchos “agentes de compras” fallan en producción
Esto explica por qué tantos agentes de compras brillan en una demo y se desmoronan en producción. Tratan las compras como una conversación, cuando en realidad necesitan campos obligatorios, circuitos de aprobación, controles y un rastro auditable. La conversación es solo la interfaz.
Project Vend también muestra qué no funciona como atajo. Anthropic introdujo un “CEO” de IA, Seymour Cash, para presionar al encargado de la tienda y reducir malas decisiones. Ayudó en algunos aspectos, como limitar descuentos, pero creó otros problemas. Sustituyó descuentos por reembolsos y créditos en tienda, que también erosionan ingresos. Entró en bucles extraños y parte de eso solo se corrigió con prompts más agresivos.
La conclusión es clara: la gobernanza no se consigue añadiendo otro agente. Si el “agente gestor” está hecho con el mismo enfoque que el “agente ejecutor”, se repiten los mismos errores, pero amplificados. La gobernanza viene de políticas, permisos por rol y controles duros.
En cambio, un agente especializado de la segunda fase, Clothius, centrado en merchandising personalizado, funcionó mejor porque su función era acotada y clara, lo que permitió a Claudius centrarse en la gestión de la tienda.
En compras ocurre lo mismo. Lo que escala no es un único agente general que “lleva las compras”, sino agentes especializados que operan dentro de flujos de trabajo definidos y con límites claros.
Incluso con estos cambios, la segunda fase no se convirtió en “comercio autónomo”. Anthropic es explícita: sigue existiendo una gran distancia entre ser “capaz” y ser “seguro de forma consistente”. El agente seguía expuesto a decisiones ingenuas y a ingeniería social.
El experimento seguía necesitando un apoyo humano relevante, tanto para tareas físicas como para desbloquear situaciones en las que el agente se quedaba atascado.
Qué implica esto para las compras con Agentes
Una interfaz conversacional pulida es fácil de replicar. La ventaja real está en traducir la política en flujos de trabajo obligatorios, para que el agente actúe de forma coherente dentro de controles reales.
Esa es la filosofía del Agente IA de Compras de Payhawk. El objetivo no es “añadir IA” al proceso de solicitud, sino ejecutar un procedimiento de compras de principio a fin, dentro de las herramientas que la empresa ya utiliza y con los controles integrados desde el diseño.
En Payhawk, el Agente IA de Compras ayuda a los empleados a crear y gestionar solicitudes tanto en Slack como en el portal web o la app móvil de Payhawk. Guía al usuario paso a paso y está diseñado para mantener las solicitudes dentro de los flujos de trabajo configurados por la empresa, sin depender de juicios improvisados. Además, impulsa el avance de las solicitudes mediante notificaciones y seguimientos en Slack, evitando bloqueos.
Fíjate en lo que no hace: no “compra cosas”. Ayuda a que la organización ejecute las compras de forma ordenada y controlada. Eso es lo que hace posible delegar.
Cómo evaluar agentes de compras después de Project Vend 2
Si buscas una forma práctica de evaluar agentes de compras tras Project Vend 2, no pidas una demo de “lo que puede hacer el modelo”. Pregunta cómo el sistema obliga a seguir el procedimiento.
Preguntas clave:
- ¿Convierte siempre una conversación desordenada en una solicitud estructurada, con campos obligatorios, sin tener que rehacerla a mano?
- ¿Gestiona las aprobaciones por categoría, umbrales y política, sin adivinar quién debe aprobar?
- ¿Ejecuta controles antes del compromiso (presupuesto, estado del proveedor, coherencia básica de precios)?
- ¿Gestiona excepciones reales —nuevo proveedor, fuera de política, compra urgente, información incompleta— y las presenta como una escalada clara y decidible?
- ¿Genera un rastro auditable que explique qué ocurrió y por qué, sin reconstruir la historia a partir de hilos de Slack?
Project Vend 2 recuerda algo fundamental: generar resultados pulidos es fácil. Lo difícil es la fiabilidad operativa. Procedimientos explícitos, herramientas conectadas y puntos de control obligatorios son lo que mantiene al modelo comportándose como un operador fiable.
Los mejores sistemas parecen simples para el empleado: “escribes en Slack y se resuelve”. Pero por debajo son estrictos. Eso es lo que necesitan las compras y lo que finanzas puede aprobar.
Project Vend no demostró que los agentes estén listos para gestionar negocios por sí solos. Demostró algo más útil: el camino hacia agentes fiables en finanzas pasa por lo menos vistoso, pero imprescindible: procedimientos, listas de comprobación, visibilidad de costes, lógica de aprobaciones y trazabilidad.
Solicita una demo con Payhawk y descubre cómo los flujos de compras pueden ejecutarse de principio a fin dentro de Slack y Payhawk, con procedimientos, controles y auditabilidad integrados desde el inicio.
Georgi Ivanov empezó su carrera como director financiero y actualmente es experto en comunicaciones. Actualmente, lidera la estrategia de comunicación y de marca de Payhawk, y el área de inteligencia artificial, combinando su profunda experiencia financiera con una narrativa orientada al futuro.
Artículos relacionados


De la solicitud al pago: orquesta las compras con el Agente IA de Compras de Payhawk

