Go back Tendências & Notícias

Agentes autônomos e prompt injection: a nova fronteira da IA

Por Time de Conteúdo em 22 de Julho de 2025
(atualizado em 23 de Julho de 2025)

A OpenAI anunciou o lançamento do aguardado ChatGPT Agent, um recurso que conecta os modelos já existentes do ChatGPT a serviços de informação e à web. O nome do produto é uma referência à ideia de que a IA passa a ser capaz de realizar ações por conta própria e completar tarefas inteiras como um agente autônomo.

Alguns recursos do Agent já são conhecidos, uma vez que a versão inicial da ferramenta, conhecida como Operator, já estava disponível desde janeiro. No entanto, nenhum agente pode ser autônomo (seja ele um sistema ou uma pessoa) sem que alguma autoridade seja delegada a ele. No caso das IAs, isso implica em conceder permissões para:

  • Preencher e enviar formulários online

  • Acessar e modificar dados armazenados em nuvem, inclusive arquivos, calendários e e-mails

  • Executar códigos e comandos

O acesso de leitura a informações para correlacionar dados não transforma uma IA em "agente". Neste caso, a ferramenta continua funcionando como uma busca.

O salto para uma IA capaz de realizar ações exige que ela seja capaz de interagir de modo mais crítico com ao menos alguma coisa. Por exemplo, a IA pode ter apenas acesso de leitura ao calendário e arquivos, mas ser capaz de enviar e-mails para reunir informações em uma mensagem a ser enviada a destinatários e datas variáveis que IA determinará a partir das reuniões marcadas no calendário.

Em outra situação, a IA pode ter acesso de leitura a e-mails e à web para manter uma planilha sempre atualizada. Neste caso, a IA passa a ter autonomia para interagir com este arquivo.

Um estudo da Universidade Columbia já explorou problemas de segurança em agentes da Anthropic, da MultiOn, e do software de código aberto ChemCrow. Contudo, a disponibilidade de uma ferramenta no pacote da OpenAI deve ajudar a popularizar esses agentes, o que também deve elevar o interesse no assunto, bem como o impacto de ataques.

Comentando sobre o lançamento do ChatGPT Agent, o CEO da OpenAI Sam Altman, desaconselhou, ao menos por enquanto, o uso da ferramenta para operações críticas (ou "high-stakes", nas palavras dele). O motivo é que, embora a ferramenta tenha proteções para impedir que a IA saia do controle, nem todas as possibilidades podem ser previstas. Inclusive, nem mesmo os acessos de leitura são necessariamente seguros.

Alguns exemplos recentes ilustram bem esse desafio.

EchoLeak: a IA criando risco de vazamentos

O Copilot já tem interagido de forma mais abrangente com as ferramentas da própria Microsoft. Inclusive, a empresa diferencia a versão comum, chamada apenas de "Copilot", da versão mais integrada aos demais serviços corporativos, chamada de Microsoft 365 Copilot.

Como o Copilot do 365 é capaz de ler e-mails e acessar informações da organização como um todo, ele tem acesso a dados sensíveis. Diante disso, pesquisadores de segurança da AIM Security descobriram uma forma de incluir instruções dentro de um e-mail para "envenenar" o Copilot 365.

Em um contexto limitado, essas novas instruções dadas ao Copilot 365 deveriam no máximo causar algum incômodo ou impedir a geração de respostas corretas. Afinal, o Copilot do 365 não poderia simplesmente navegar na web e entregar as informações ao atacante.

Infelizmente, foi possível aproveitar as complexidades dos serviços da Microsoft para que os dados colhidos pelo Copilot fossem embutidos como uma requisição de imagem. O Copilot 365 não tem permissões para navegar na web para vazar os dados e, na maioria das situações, também não poderia colocar uma imagem como referência. O mero fato de que isso foi possível criou um cenário de ataque mais preocupante.

Imagens são carregadas pelo navegador logo que uma página é aberta. Por causa disso, se o Copilot referenciar o e-mail malicioso em uma de suas respostas, o navegador do usuário se encarregará de abrir a "imagem" com parâmetros definidos pelo prompt injetado. O resultado é um vazamento de informações imperceptível para o usuário, uma vez que não há nenhuma imagem realmente sendo carregada. O único propósito da inclusão da imagem é a construção de uma requisição web para enviar dados sensíveis ao atacante usando o navegador de vítima para a transmissão.

O mesmo ataque também seria possível com links. No entanto, o uso de imagens nesse cenário, em que o objetivo é obter informações, diminui a quantidade de ações que precisam ser tomadas pelo usuário.

Esse cenário, batizado de "EchoLeak", não exige que o Microsoft 365 Copilot tenha qualquer permissão de escrita. A IA ainda está agindo exclusivamente como um chatbot, porém com respostas adulteradas por um prompt malicioso escondido em um e-mail para provocar um vazamento de informações.

Os resumos maliciosos do Gemini

Outro caso parecido de prompt injection foi demonstrado no Gemini, a IA do Google, por um pesquisador de segurança da Mozilla. Nesta vulnerabilidade, o prompt malicioso incluído no e-mail, em um bloco de texto invisível, é refletido imediatamente no resumo da mensagem apresentado pelo Gemini.

Essa técnica gera diversas possibilidades de phishing, relegando para a IA a tarefa de apresentar as orientações maliciosas ao usuário. Como a vítima não consegue ver o texto malicioso na mensagem, ela poderá ser induzida ao erro, recebendo da própria IA a informação de que sua conta está comprometida e que ela precisa realizar alguma ação.

O ataque depende de uma segunda etapa, possivelmente por telefone (caracterizando um "voice phishing", ou "vishing"). Isso ajuda a evitar que a IA bloqueie o prompt injetado por causa da inclusão de links, de modo que a vítima recebe da própria IA uma orientação para telefonar para o criminoso.

Esse cenário cria desafios para a conscientização dos usuários, já que a IA, que em tese é uma ferramenta a serviço do usuário, passa a ser um veículo para a realização de golpes contra ele.

E se as IAs atacadas fossem agentes?

Se ataques como o EchoLeak e a manipulação de resumo no Gemini fossem expandidos com capacidades de agentes, tanto o impacto de vazamento como as possibilidades de phishing seriam significativamente maiores.

Se a IA pode interagir diretamente com a web, fica muito mais fácil criar canais de exfiltração de dados. Esse risco obriga os criadores de agentes a pensarem de forma muito cuidadosa nas restrições que serão colocadas nesses agentes. Como o caso do EchoLeak mostrou, endereços tidos como "confiáveis" podem ser aproveitados em certos cenários, principalmente se características técnicas ou outras vulnerabilidades permitirem que atacantes operem dentro desses espaços considerados seguros.

Se considerarmos que os prompts das IAs também poderão ser manipulados, a modelagem do risco dessa atividade logo se torna extraordinariamente complexa. Como disse Sam Altman, fica difícil de antever todos os cenários.

Recomendações para empresas

Por enquanto, agentes de IA não estão disponíveis em larga escala. A interação com serviços individuais e organizacionais é custosa, e soluções globais como o Microsoft 365 Copilot tendem a ser mais restritas que as IAs de ponta, como o caso do ChatGPT Agent.

No entanto, é preciso considerar esses riscos para a adoção de IAs, com permissões corretas ou soluções de isolamento. Já existem ideias de fazer com que as IAs interajam com contêineres seguros, permitindo que alterações sejam compartimentadas, monitoradas, interrompidas e desfeitas com facilidade. Com o amadurecimento dessas e outras soluções, as integrações com a IA devem ficar mais robustas e seguras.

Temos uma lista maior de recomendações no post que já fizemos sobre este assunto.

Por outro lado, as empresas não podem controlar as tentativas de phishing dos cibercriminosos. A inclusão de prompts e outros artifícios semelhantes pode fazer com que ataques passem por barreiras tradicionais e escapem dos filtros de spam. 

Na Axur, já utilizamos a inteligência artificial em nossa plataforma para detectar os phishings mais sofisticados da atualidade. Nossa IA, Clair, é executada em nossa plataforma, não exigindo nenhuma integração com o ambiente corporativo das marcas monitoradas. Assim, oferecemos uma visibilidade superior sobre os ataques de phishing direcionados a clientes e colaboradores ou parceiros de uma empresa sem criar qualquer risco adicional.

Esse tipo de tecnologia tende a ser cada vez mais necessária. Se os ataques de phishing vão utilizar medidas para manipular a inteligência artificial, apenas outras tecnologias de IA tendem a ser capazes de detectar essas tentativas e classificar as mensagens como maliciosas.

A maneira mais fácil de entender como isso funciona é experimentando na prática. Fale com nossos especialistas e veja o que nossa IA pode detectar sobre os ataques contra sua empresa e suas marcas.

Identify and eliminate digital risks. Understand how