Agentes autónomos e inyección de prompts: la nueva frontera de la IA

Escrito por Equipo de Contenido | 22-jul-2025 19:28:49

OpenAI anunció el lanzamiento del esperado ChatGPT Agent, una funcionalidad que conecta los modelos existentes de ChatGPT a servicios de información y a la web. El nombre del producto hace referencia a la idea de que la IA ahora es capaz de realizar acciones por sí sola y completar tareas enteras como un agente autónomo.

Algunas funciones del Agent ya eran conocidas, dado que la versión inicial de la herramienta, conocida como Operator, estaba disponible desde enero. Sin embargo, ningún agente —sea un sistema o una persona— puede ser autónomo sin que se le delegue alguna autoridad. En el caso de las IAs, esto implica conceder permisos para:

Completar y enviar formularios online
Acceder y modificar datos almacenados en la nube, incluidos archivos, calendarios y correos electrónicos
Ejecutar código y comandos

El simple acceso de lectura para correlacionar datos no convierte a una IA en “agente”. En este caso, la herramienta sigue funcionando como un buscador.

El salto hacia una IA capaz de realizar acciones exige que sea capaz de interactuar de forma más crítica al menos con algún elemento. Por ejemplo, una IA puede tener solo acceso de lectura al calendario y a los archivos, pero ser capaz de enviar correos electrónicos para reunir información en un mensaje que se enviará a destinatarios y fechas variables que la IA determinará según las reuniones agendadas en el calendario.

En otro escenario, la IA puede tener acceso de lectura a correos electrónicos y a la web para mantener una hoja de cálculo siempre actualizada. En este caso, la IA pasa a tener autonomía para interactuar con ese archivo.

Un estudio de la Universidad de Columbia ya exploró problemas de seguridad en agentes de Anthropic, MultiOn y el software open source ChemCrow. Sin embargo, la disponibilidad de esta funcionalidad dentro del paquete oficial de OpenAI debería ayudar a popularizar estos agentes, lo que también incrementará el interés en el tema, así como el impacto de los ataques.

Al comentar el lanzamiento del ChatGPT Agent, el CEO de OpenAI, Sam Altman, desaconsejó —al menos por el momento— el uso de la herramienta para operaciones críticas (o “high-stakes”, en sus palabras). El motivo es que, aunque la herramienta cuenta con protecciones para impedir que la IA pierda el control, no todas las posibilidades pueden preverse. Incluso los accesos de solo lectura no son necesariamente seguros.

Algunos ejemplos recientes ilustran claramente este desafío.

EchoLeak: la IA creando riesgos de filtraciones

Copilot ya ha empezado a interactuar de forma más amplia con las propias herramientas de Microsoft. De hecho, la empresa diferencia la versión común, llamada simplemente “Copilot”, de la versión más integrada a los servicios corporativos, denominada Microsoft 365 Copilot.

Como el Copilot 365 es capaz de leer correos electrónicos y acceder a información de toda la organización, tiene acceso a datos sensibles. Ante ello, investigadores de seguridad de AIM Security descubrieron una forma de incluir instrucciones dentro de un correo electrónico para “envenenar” al Copilot 365.

En un contexto limitado, esas nuevas instrucciones dadas al Copilot 365 deberían, como máximo, causar alguna molestia o impedir que genere respuestas correctas. Después de todo, el Copilot 365 no podría simplemente navegar en la web y entregar la información al atacante.

Lamentablemente, fue posible aprovechar las complejidades de los servicios de Microsoft para que los datos recogidos por Copilot fueran incrustados como una solicitud de imagen. Copilot 365 no tiene permisos para navegar en la web para filtrar datos y, en la mayoría de los casos, tampoco podría incluir una imagen como referencia. El simple hecho de que esto haya sido posible creó un escenario de ataque más preocupante.

Los navegadores cargan imágenes automáticamente tan pronto como se abre una página. Por ello, si Copilot referencia el correo malicioso en una de sus respuestas, el navegador del usuario se encargará de abrir la “imagen” con parámetros definidos por el prompt inyectado. El resultado es una filtración de información imperceptible para el usuario, ya que no hay ninguna imagen real cargándose. La única finalidad de incluir esa imagen es construir una solicitud web para enviar datos sensibles al atacante, utilizando el navegador de la víctima para la transmisión.

Este mismo ataque también sería posible usando enlaces. Sin embargo, el uso de imágenes en este escenario, cuyo objetivo es la obtención de información, reduce la cantidad de acciones necesarias por parte del usuario.

Este escenario, denominado “EchoLeak”, no exige que el Microsoft 365 Copilot tenga ningún permiso de escritura. La IA sigue actuando exclusivamente como un chatbot, pero con respuestas alteradas por un prompt malicioso escondido dentro de un correo electrónico para provocar una filtración de información.

Los resúmenes maliciosos de Gemini

Otro caso similar de inyección de prompts fue demostrado en Gemini, la IA de Google, por un investigador de seguridad de Mozilla. En esta vulnerabilidad, el prompt malicioso incluido dentro del correo, en un bloque de texto invisible, se refleja inmediatamente en el resumen del mensaje presentado por Gemini.

Esta técnica permite diversas posibilidades de phishing, delegando a la propia IA la tarea de presentar las instrucciones maliciosas al usuario. Como la víctima no puede ver el texto malicioso dentro del mensaje, puede ser inducida al error, recibiendo de la propia IA la información de que su cuenta está comprometida y que debe realizar alguna acción.

El ataque depende de una segunda etapa, posiblemente mediante llamada telefónica (caracterizando un ataque de voice phishing, o vishing). Esto ayuda a evitar que la IA bloquee el prompt inyectado debido a la inclusión de enlaces, de modo que la víctima recibe de la propia IA la indicación de llamar al criminal.

Este escenario crea desafíos para la concienciación de los usuarios, ya que la IA, que en teoría debería ser una herramienta al servicio del usuario, pasa a ser un vehículo para perpetrar fraudes contra él.

¿Y si las IAs atacadas fueran agentes?

Si ataques como EchoLeak y la manipulación de resúmenes en Gemini fueran ampliados con capacidades de agentes, tanto el impacto de las filtraciones como las posibilidades de phishing serían significativamente mayores.

Si la IA puede interactuar directamente con la web, resulta mucho más sencillo crear canales de exfiltración de datos. Este riesgo obliga a los desarrolladores de agentes a reflexionar cuidadosamente sobre las restricciones que impondrán a sus agentes. Como demostró el caso de EchoLeak, direcciones consideradas “confiables” pueden aprovecharse en ciertos escenarios, principalmente si características técnicas u otras vulnerabilidades permiten que los atacantes operen dentro de esos espacios supuestamente seguros.

Si consideramos que los prompts de las IAs también pueden ser manipulados, la modelización del riesgo de esta actividad se vuelve extraordinariamente compleja. Como dijo Sam Altman, resulta difícil prever todos los escenarios.

Recomendaciones para las empresas

Por el momento, los agentes de IA no están disponibles a gran escala. La interacción con servicios individuales y organizacionales resulta costosa, y soluciones globales como Microsoft 365 Copilot tienden a ser más restrictivas que las IAs más avanzadas, como el ChatGPT Agent.

No obstante, es fundamental tener en cuenta estos riesgos en la adopción de IAs, mediante permisos adecuados o soluciones de aislamiento. Ya existen propuestas para que las IAs interactúen dentro de contenedores seguros, permitiendo que los cambios se compartimenten, supervisen, detengan y reviertan con facilidad. A medida que estas y otras soluciones maduren, las integraciones con IA deberían volverse más robustas y seguras.

Disponemos de una lista más amplia de recomendaciones en la publicación que ya hemos elaborado sobre este tema.

Por otro lado, las empresas no pueden controlar los intentos de phishing de los cibercriminales. La inclusión de prompts y otros mecanismos similares puede permitir que los ataques superen las barreras tradicionales y escapen a los filtros de spam.

En Axur, ya utilizamos la inteligencia artificial en nuestra plataforma para detectar los ataques de phishing más sofisticados de la actualidad. Nuestra IA, Clair, se ejecuta dentro de nuestra propia plataforma, sin requerir ninguna integración con el entorno corporativo de las marcas monitorizadas. De este modo, ofrecemos una visibilidad superior sobre los ataques de phishing dirigidos a clientes, empleados o socios de una empresa sin generar ningún riesgo adicional.

Este tipo de tecnología será cada vez más necesario. Si los ataques de phishing emplearán técnicas para manipular a las IAs, solo otras tecnologías de IA serán capaces de detectar esos intentos y clasificar los mensajes como maliciosos.

La forma más sencilla de entender cómo funciona es experimentándolo en la práctica.
Contacte con nuestros especialistas y vea lo que nuestra IA puede detectar sobre los ataques contra su empresa y sus marcas.

Ver post completo