
Resumo executivo
Agentes de IA estão cada vez mais integrados às operações corporativas, automatizando tarefas como compras, atendimento ao cliente e fluxos de segurança. Um estudo de 2025 da Universidade Columbia mostra que agentes comerciais são suscetíveis a ataques de phishing que não exigem qualquer conhecimento em aprendizado de máquina. Este artigo aborda como os atacantes exploram a cadeia de execução dos agentes e como as organizações podem monitorar e remediar a infraestrutura maliciosa para reduzir a exposição.
À medida que agentes de IA se tornam mais capazes, também herdam uma superfície de ataque mais ampla. Pesquisadores da Universidade Columbia demonstraram como adversários podem manipular agentes comerciais baseados em LLM para executarem ações não autorizadas, explorando os ambientes em que esses agentes operam. Um dos vetores de ataque testados envolvia a publicação de links maliciosos em plataformas confiáveis como o Reddit. Quando os agentes encontravam essas postagens durante o acesso rotineiro à web, seguiam os links e executavam as instruções incorporadas nas páginas controladas pelos atacantes.
Os pesquisadores testaram múltiplos agentes, incluindo o Computer Use da Anthropic e o MultiOn. Nos testes controlados descritos, cenários específicos de ataque — como vazamento de dados de cartão de crédito ou download de arquivos — alcançaram uma taxa de sucesso de 100% (10 de 10 tentativas), destacando a facilidade com que os agentes podem ser manipulados nesses contextos.
Cenários de risco para empresas
Quando agentes operam de forma autônoma em diversos sistemas, diferentes vulnerabilidades podem surgir:
-
Automação de compras: agentes que buscam fornecedores podem ser redirecionados a sites fraudulentos que se passam por vendedores legítimos.
-
Agentes com acesso a dados: ferramentas com memória ou acesso a arquivos podem ser induzidas a divulgar documentos ou credenciais.
-
Bots de segurança: até mesmo agentes voltados para ambientes internos, que consultam APIs ou ferramentas corporativas, podem interpretar conteúdo externo como entrada legítima.
Cada um desses riscos decorre da confiança do agente em conteúdo externo não verificado — e não de falhas no modelo subjacente.
O phishing, em particular, merece atenção devido à sua simplicidade e eficácia.
Como funciona o phishing direcionado a agentes de IA
Ataques de phishing contra agentes seguem uma estrutura previsível e repetível:
-
Agentes podem priorizar fontes “confiáveis”
No estudo da Universidade Columbia, os agentes eram mais propensos a seguir links quando as postagens dos atacantes estavam inseridas em plataformas “confiáveis” — sugerindo que os agentes podem tratar implicitamente fontes com alta credibilidade, como o Reddit, como confiáveis, mesmo sem configuração explícita. -
Atacantes inserem essas postagens nas plataformas
Agentes maliciosos criam postagens ou documentos otimizados para corresponder a consultas comuns dos agentes. Podem incluir avaliações de produtos, documentação ou guias de usuário — com links embutidos que apontam para sites controlados pelos atacantes. -
Os agentes seguem e interpretam o conteúdo linkado
Quando o agente acessa o link, interpreta o conteúdo da página como parte da tarefa. Se a página contiver instruções estruturadas (por exemplo, "preencha este formulário para concluir a tarefa"), o agente prossegue sem intervenção do usuário. -
O agente executa instruções enganosas
Nos testes, agentes como o MultiOn e o Computer Use da Anthropic foram manipulados para enviar e-mails de phishing, baixar arquivos de fontes suspeitas e expor dados sensíveis — revelando falhas de segurança críticas.
Por que as defesas existentes falham
As estratégias defensivas normalmente se enquadram em quatro categorias:
-
Filtragem baseada em domínio: assume que reputação implica segurança. Mas os atacantes exploram essa suposição ao inserir conteúdo em domínios com boa reputação.
-
Filtragem no nível do modelo: pode ser contornada se o prompt malicioso estiver fora do contexto do modelo — por exemplo, em uma página da web.
-
Moderação humana: em plataformas como Reddit, é lenta demais para detectar conteúdo direcionado a bots.
- Restrições de endpoint: muitas vezes são inviáveis, especialmente quando os agentes precisam de acesso a navegadores ou APIs para funcionar.
Recomendações para equipes de segurança corporativa
Esta é uma nova classe de ameaças, e as boas práticas ainda estão evoluindo. Abaixo estão cinco defesas centrais — todas baseadas na pesquisa e diretamente relacionadas ao phishing contra IA:
-
Whitelisting estrito de domínios + validação de URL
Permita que os agentes acessem apenas uma lista reduzida de sites pré-aprovados. Cada link deve passar por verificações de SSL, análise de idade do domínio e detecção de homógrafos antes de ser acessado. -
Sandbox com privilégio mínimo
Conceda aos agentes apenas os direitos necessários — e nada além disso. Execute ações de navegador ou API em contêineres isolados com tokens efêmeros e com escopo limitado à tarefa. Requeira aprovação humana para qualquer operação que envolva pagamentos, downloads ou sistemas internos. -
Autenticação criptográfica de entidades
Considere cada endpoint externo como não confiável até que se prove o contrário. Exija certificados digitais (ou credenciais criptográficas equivalentes) para qualquer transferência sensível, impedindo que atacantes se infiltrem por meio de domínios semelhantes. -
Red teaming contínuo, logging e resposta a incidentes
Automatize campanhas simuladas de phishing contra IA em seus fluxos. Registre todas as chamadas de ferramentas e acessos à memória em registros imutáveis, audite-os regularmente e vincule playbooks a revogação automática de tokens e alertas à equipe em caso de comportamento suspeito. -
Verificação de credibilidade com agente auxiliar
Use um agente adicional para avaliar a credibilidade de websites com base em informações como registrador, hospedagem, nível de impersonificação de marca e probabilidade geral de fraude. O modelo de IA da Axur, Clair, realiza essa tarefa.]
Embora essas defesas reforcem a segurança dos agentes, também correm o risco de limitar sua utilidade. Whitelisting estrito, sandboxing e autenticação podem dificultar a capacidade do agente de agir com autonomia — contrariando o propósito de usar agentes LLM em fluxos de trabalho dinâmicos.
O estudo da Columbia destaca esse dilema: segurança real exige não apenas barreiras rígidas, mas sistemas sensíveis ao contexto, capazes de se adaptar sem impor restrições excessivas. Trata-se de reduzir o risco sem comprometer a funcionalidade.
O comportamento do agente nem sempre é controlável. Mas remover sites maliciosos é.
Se um agente autônomo cair em phishing, não é “só” o agente que está comprometido. É sua marca, sua infraestrutura e, potencialmente, seus clientes. Imagine um agente finalizando uma compra ou enviando uma mensagem em nome da sua empresa — em um site registrado há 48 horas.
A proteção da Axur, em nível de infraestrutura, é projetada para interceptar esses riscos. Nosso foco está em identificar, analisar e desmantelar a infraestrutura maliciosa que viabiliza campanhas de phishing — inclusive as que visam agentes de IA.
Monitoramento contínuo da web para ameaças emergentes
A Axur escaneia continuamente fontes abertas da web para detectar:
-
Domínios suspeitos que imitam serviços legítimos (por exemplo, sites falsos de varejo ou SaaS).
-
Clusters de postagens com links para sites maliciosos em plataformas confiáveis (como Reddit e redes sociais), mesmo quando essas plataformas são legítimas.
-
Padrões de registro de domínios, como registros em massa ou uso de dados WHOIS anônimos, que podem indicar preparação de campanha.
- Sinais comportamentais no conteúdo vinculado, como instruções embutidas que imitam fluxos voltados ao usuário, mas são projetadas para enganar agentes.
Takedown e remediação automatizados
Uma vez que uma ameaça é identificada, a Axur coordena:
-
Notificações automáticas às plataformas para reportar e remover sites de phishing que imitam sua marca.
-
Notificações a provedores de hospedagem ou registradores para derrubar a infraestrutura do atacante.
-
Notificações de perfis falsos em redes sociais para possivelmente acionar a remoção do perfil por trás das postagens maliciosas.
Pontuação de risco e priorização
Nem todos os indicadores têm o mesmo peso. A Axur enriquece a detecção com:
-
Idade do domínio e metadados de registro;
-
Reputação e geolocalização da hospedagem;
-
Similaridade com termos da marca ou infraestrutura conhecida;
-
Presença de padrões típicos de kits de phishing (como formulários de login ou páginas de checkout).
Essa pontuação em camadas acelera as automações de takedown e alimenta nosso sistema de Web Safe Reporting — alertando navegadores, antivírus e redes de reputação que podem bloquear o acesso e avisar usuários antes que qualquer dano ocorra.
Conclusão
Campanhas de phishing que visam agentes de IA não exploram falhas no modelo — exploram as suposições que os agentes fazem sobre seu ambiente. Como demonstrado no estudo da Universidade Columbia, a superfície de ataque não está no LLM em si, mas nos fluxos, permissões e sinais de confiança ao redor dele.
Embora as defesas ainda estejam evoluindo, uma coisa é clara: proteger agentes de IA exige mais do que filtrar entradas ou reforçar prompts. Requer visibilidade contínua sobre a infraestrutura com a qual os agentes interagem, os sinais em que confiam e os sistemas que estão autorizados a influenciar.
O desafio não é apenas proteger o agente. É proteger o ecossistema em que ele opera.
Esse é o papel da cibersegurança externa é reduzir a exposição desestruturando a infraestrutura maliciosa antes que ela atinja seus agentes, seus usuários ou sua marca. É aí que a Axur atua.

Criamos conteúdo relevante para tornar a internet um lugar mais seguro.