
Resumen ejecutivo
Los agentes de IA están cada vez más integrados en las operaciones empresariales, automatizando tareas como compras, interacción con clientes y flujos de trabajo de seguridad. Un estudio de 2025 de la Universidad de Columbia demuestra que los agentes comerciales son susceptibles a ataques de tipo phishing que no requieren conocimientos en aprendizaje automático. Este artículo se centra en cómo los atacantes explotan la cadena de ejecución de los agentes y cómo las organizaciones pueden monitorear y remediar la infraestructura maliciosa para reducir la exposición.
A medida que los agentes de IA se vuelven más capaces, también heredan una superficie de ataque más amplia. Investigadores de Columbia demostraron cómo los adversarios pueden manipular agentes comerciales basados en LLM para ejecutar acciones no autorizadas, explotando los entornos en los que operan. Uno de los vectores de ataque probados consistía en publicar enlaces maliciosos en plataformas confiables como Reddit. Cuando los agentes encontraban estas publicaciones durante su navegación web habitual, seguían los enlaces y ejecutaban las instrucciones incrustadas en las páginas controladas por los atacantes.
Los investigadores probaron múltiples agentes, incluidos Computer Use de Anthropic y MultiOn. En las pruebas controladas descritas, ciertos escenarios de ataque —como filtración de datos de tarjetas de crédito o descarga de archivos— lograron una tasa de éxito del 100 % (10 de 10 intentos), lo que demuestra lo fácil que es manipular a los agentes en estos contextos.
Escenarios de riesgo empresarial
Cuando los agentes operan de forma autónoma en múltiples sistemas, pueden surgir diferentes vulnerabilidades:
-
Automatización de compras: los agentes que buscan proveedores pueden ser redirigidos a sitios fraudulentos que se hacen pasar por vendedores legítimos.
-
Agentes con acceso a datos: herramientas con memoria o acceso a archivos pueden ser engañadas para divulgar documentos o credenciales.
-
Bots de seguridad: incluso los agentes internos que consultan APIs o herramientas corporativas pueden interpretar contenido externo como entradas legítimas.
Cada uno de estos riesgos surge de la confianza del agente en contenido externo no verificado, y no de fallas en el modelo subyacente.
El phishing, en particular, merece atención por su simplicidad y efectividad.
Cómo funciona el phishing dirigido a agentes de IA
Los ataques de phishing dirigidos a agentes siguen una estructura predecible y repetible:
-
Los agentes pueden priorizar fuentes “confiables”
En el estudio de Columbia, los agentes eran más propensos a seguir enlaces cuando las publicaciones maliciosas estaban en plataformas "confiables", lo que sugiere que los agentes pueden tratar implícitamente fuentes con alta credibilidad —como Reddit— como seguras, incluso sin una configuración explícita. -
Los atacantes insertan esas publicaciones en las plataformas
Los actores maliciosos crean publicaciones o documentos optimizados para coincidir con búsquedas comunes de los agentes. Estos pueden incluir reseñas de productos, documentación o guías de usuario, con enlaces insertados que apuntan a sitios controlados por los atacantes. -
Los agentes siguen e interpretan el contenido enlazado
Una vez que el agente accede al enlace, interpreta el contenido de la página como parte de su tarea. Si la página contiene instrucciones estructuradas (por ejemplo, "rellene este formulario para completar la tarea"), el agente continúa sin intervención humana. -
El agente actúa según instrucciones engañosas
En los ensayos, agentes como MultiOn y Computer Use fueron manipulados para enviar correos de phishing, descargar archivos de fuentes sospechosas y exponer datos sensibles, evidenciando importantes fallos de seguridad.
Por qué fallan las defensas actuales
Las estrategias de defensa suelen encuadrarse en cuatro categorías:
-
Filtrado basado en dominios: asume que la reputación implica seguridad. Pero los atacantes explotan esa suposición insertando contenido en dominios bien considerados.
-
Filtrado a nivel de modelo: se evita si el prompt malicioso está fuera del contexto del modelo, por ejemplo, en una página web.
-
Moderación humana: en plataformas como Reddit, es demasiado lenta para detectar contenido dirigido a bots.
-
Restricciones en endpoints: muchas veces son inviables, especialmente cuando los agentes necesitan acceso a navegador o APIs para funcionar.
Recomendaciones para equipos de seguridad empresarial
Se trata de una clase completamente nueva de amenazas, y las mejores prácticas aún están en evolución. A continuación, se presentan cinco defensas clave, todas basadas en la investigación y directamente relevantes para el phishing dirigido a IA:
-
Whitelisting estricto de dominios + validación de URLs
Permitir que los agentes accedan solo a una lista reducida de sitios preaprobados. Cada enlace debe pasar controles SSL, análisis de antigüedad del dominio y detección de homógrafos antes de ser accedido. -
Sandbox con privilegios mínimos
Dar a los agentes solo los permisos necesarios, y nada más. Ejecutar acciones de navegador o API en contenedores aislados con tokens efímeros limitados por tarea, y exigir aprobación humana para cualquier operación relacionada con pagos, descargas o sistemas internos. -
Autenticación criptográfica de entidades
Tratar cada endpoint externo como no confiable hasta que se demuestre lo contrario. Requerir certificados digitales (o credenciales criptográficas equivalentes) para cualquier intercambio sensible, de modo que los atacantes no puedan infiltrarse usando dominios similares. -
Red teaming continuo, registros y respuesta a incidentes
Automatizar campañas simuladas de phishing contra IA en sus flujos. Registrar cada llamada de herramientas y acceso a memoria en registros inmutables, auditarlos regularmente y vincular playbooks con revocación automática de tokens y alertas ante comportamientos sospechosos. -
Verificación de credibilidad con agente auxiliar
Utilizar un agente adicional para verificar la credibilidad de los sitios web según datos como registrador, hosting, nivel de suplantación de marca y probabilidad general de fraude. El modelo de IA de Axur, Clair, realiza esta tarea.
Si bien estas defensas refuerzan la seguridad del agente, también corren el riesgo de limitar su utilidad. El whitelisting estricto, el sandboxing y la autenticación pueden dificultar la capacidad del agente de actuar con autonomía, lo cual va en contra del propósito de utilizar agentes LLM en flujos de trabajo dinámicos.
El estudio de Columbia resalta esta disyuntiva: la verdadera seguridad no requiere solo barreras rígidas, sino sistemas conscientes del contexto que puedan adaptarse sin imponer restricciones excesivas. Se trata de reducir el riesgo sin romper la funcionalidad.
El comportamiento del agente no siempre se puede controlar. Pero eliminar sitios maliciosos, sí.
Si un agente autónomo cae en phishing, no es “solo” el agente el que se ve comprometido. Es su marca, su infraestructura y potencialmente sus clientes. Imagine un agente completando una compra o enviando un mensaje en nombre de su empresa —en un sitio registrado hace 48 horas.
La protección de infraestructura de Axur está diseñada para interceptar esos riesgos. Nos enfocamos en identificar, analizar y desmantelar la infraestructura maliciosa que permite campañas de phishing, incluidas aquellas que apuntan a agentes de IA.
Monitoreo web continuo para amenazas emergentes
Axur escanea continuamente fuentes abiertas de la web para detectar:
-
Dominios sospechosos que imitan servicios legítimos (por ejemplo, sitios falsos de comercio electrónico o SaaS).
-
Agrupaciones de publicaciones que enlazan a sitios maliciosos en plataformas confiables (como Reddit o redes sociales), incluso si esas plataformas son legítimas.
-
Patrones de registro de dominios, como registros masivos o uso de datos WHOIS anonimizados, que pueden indicar preparación de campañas.
-
Señales de comportamiento en el contenido enlazado, como instrucciones embebidas que imitan flujos para usuarios, pero diseñadas para engañar a agentes.
Eliminación y remediación automatizadas
Una vez que se detecta una amenaza, Axur coordina:
-
Notificaciones automáticas a plataformas para denunciar y eliminar sitios de phishing que suplantan su marca.
-
Alertas a proveedores de hosting o registradores para desmantelar la infraestructura del atacante.
-
Notificaciones sobre perfiles sociales falsos que pueden activar la eliminación del perfil detrás de las publicaciones maliciosas.
Puntaje de riesgo y priorización
No todos los indicadores tienen el mismo peso. Axur mejora la detección con:
- Antigüedad del dominio y metadatos de registro
-
Reputación del hosting y geolocalización
-
Similitud con términos de la marca o infraestructura conocida
-
Presencia de patrones comunes en kits de phishing (como formularios de inicio de sesión o páginas de pago)
Esta puntuación por capas acelera nuestras automatizaciones de eliminación y alimenta nuestro sistema de Web Safe Reporting —que alerta a navegadores, motores antivirus y redes de reputación que pueden bloquear el acceso y advertir al usuario antes de que ocurra algún daño.
Conclusión
Las campañas de phishing dirigidas a agentes de IA no explotan vulnerabilidades del modelo —explotan las suposiciones que hacen los agentes sobre su entorno. Como muestra el estudio de Columbia, la superficie de ataque no está en el LLM en sí, sino en los flujos, permisos y señales de confianza que lo rodean.
Aunque las defensas siguen evolucionando, algo es claro: proteger agentes de IA requiere más que filtrar entradas o reforzar prompts. Requiere visibilidad continua sobre la infraestructura con la que interactúan, las señales en las que confían y los sistemas que están autorizados a influenciar.
El desafío no es solo proteger al agente. Es proteger el ecosistema en el que opera.
Ese es el rol de la ciberseguridad externa: reducir la exposición interrumpiendo la infraestructura maliciosa antes de que afecte a sus agentes, sus usuarios o su marca. Ahí es donde actúa Axur.

Expertos en crear contenido relevante de ciberseguridad externa para hacer de internet un lugar más seguro.