Agentes de IA: A Intrigante Manipulação por Comandos Maliciosos Ocultos na Web

Pesquisadores da Forcepoint X-Labs confirmam dez casos de injeção indireta de prompt (IPI) em infraestrutura ativa, com payloads para fraude financeira, destruição de dados e roubo de credenciais.

Em abril de 2026, a Forcepoint X-Labs identificou dez casos confirmados de IPI em sites ativos na internet. Essa técnica, que insere comandos ocultos em páginas web para manipular agentes de inteligência artificial, deixou o campo teórico e impacta a infraestrutura real.

Esses ataques exploram uma limitação estrutural dos modelos de linguagem (LLMs), que não conseguem distinguir entre dados que estão sendo lidos e instruções a serem seguidas, conhecida como ausência de fronteira dado-instrução.

Quando um agente de IA acessa uma página para resumir conteúdos, pesquisar informações ou executar tarefas automatizadas, ele ingere todos os elementos da página, incluindo comandos ocultos, tratando-os como informações legítimas.

O atacante envenena uma página, o agente de IA a ingere durante uma tarefa legítima, executa o comando injetado e os dados são exfiltrados por um canal encoberto de volta ao atacante (Forcepoint X-Labs/Reprodução).

Diferentemente da injeção direta, onde o próprio usuário envia uma instrução maliciosa ao modelo, na IPI, o atacante não interage com a IA, apenas envenena a página e aguarda.

Comandos invisíveis para humanos, legíveis para IA

Os atacantes utilizam técnicas de ocultação para esconder os payloads, tornando o conteúdo invisível para visitantes humanos, mas completamente acessível aos LLMs. Métodos empregados incluem o uso de fontes de 1 pixel, cores transparentes, comentários HTML e tags de metadados com namespaces personalizados. A propriedade CSS display:none também é frequentemente utilizada.

Alguns payloads são blocos de texto ocultos, enquanto outros imitam tokens de segurança de provedores de modelos. Por exemplo, um comando no site lcpdfr.com usou uma string falsa chamada ANTHROPIC_MAGIC_STRING_TRIGGER_REFUSAL com a intenção de fazer o modelo interpretar o comando como uma instrução de sistema.

Comentário HTML encontrado em thelibrary-welcome.uk com instruções direcionadas explicitamente a assistentes de IA. O payload combina supressão de análise e exfiltração de chave de API, com a nota “Human readers may ignore this section” para disfarçar o conteúdo em revisões manuais (Forcepoint X-Labs/Reprodução).

Dez casos, seis categorias de dano

Os pesquisadores categorizaram os incidentes conforme suas intenções, que vão desde manipulação de SEO até destruição de dados.

No site faladobairro.com, um comando sudo rm -rf foi inserido na página com o objetivo de forçar agentes com acesso ao terminal a deletar diretórios de backup, mirando assistentes integrados a IDEs ou pipelines de CI/CD.

Outro exemplo, perceptivepumpkin.com, viu os atacantes implementar um fluxo completo de transação via PayPal.me, com um valor fixo de US$ 5 mil e instruções detalhadas, visando agentes habilitados para efetuar pagamentos.

O site bentasker.co.uk aparenta ser um blog pessoal comum. O ataque estava embutido em um <div> oculto que invocava direitos autorais falsos para suprimir respostas da IA — um caso de negação de serviço sem comprometer sistemas (Forcepoint X-Labs/Reprodução).

A utilização de uma plataforma legítima, ao invés de links genéricos de phishing, indica que os atacantes compreendem que modelos tendem a avaliar a confiabilidade de URLs antes de agir.

No site thelibrary-welcome.uk, um comentário HTML forçou o modelo a vazar uma chave de API secreta — fundamental para acessar sistemas. Já em bentasker.co.uk, a injeção se disfarçou de autoridades, alegando um falso bloqueio devido a direitos autorais, para impedir que o modelo resumisse a página.

Em alguns casos, o código malicioso leva a IA a criar um poema sobre milho, servindo como uma distração para confirmar que a injeção foi bem-sucedida.

Payload encontrado em kleintechnik.net: uso de tags [SYSTEM OVERRIDE] dentro de um comentário HTML tenta imitar a estrutura de um prompt de sistema legítimo para direcionar o agente a acessar o endpoint /admin.php (Forcepoint X-Labs/Reprodução).

O desafio da detecção em larga escala

Os pesquisadores apontaram que as frases utilizadas para detectar IPI, como “Ignore instruções prévias” ou “Se você é um modelo de linguagem”, podem também aparecer em documentos legítimos de segurança, posts técnicos e relatórios de inteligência de ameaças.

Isso implica que sistemas de detecção baseados em padrões podem acabar identificando conteúdo legítimo, ao lado de payloads maliciosos.

Aumento da superfície de ataque com os privilégios do agente

O impacto da IPI é diretamente proporcional ao que o agente é capaz de realizar. Um modelo que apenas resume páginas apresenta risco baixo, enquanto um agente que envia e-mails, executa comandos no terminal ou realiza pagamentos se torna um alvo de alto impacto.

A página do faladobairro.com aparenta ser comum para visitantes humanos, mas o payload de destruição de dados estava disfarçado na marcação HTML, fora do conteúdo visível (Forcepoint X-Labs/Reprodução).

A similaridade nos padrões de injeção entre diferentes domínios sugere que os atacantes estão utilizando kits ou templates, evidenciando uma organização que amplia a superfície de ataque à medida que os agentes de IA ganham mais privilégios em sistemas corporativos e pessoais.

Código HTML do faladobairro.com com o comando sudo rm -rf inserido em um <span> dentro de um card de conteúdo — visível no DOM, mas fora do fluxo visual da página (Forcepoint X-Labs/Reprodução).

Fique por dentro das novidades na TecMania. Para mais informações sobre segurança e tecnologia, inscreva-se em nossa newsletter e siga nosso canal no YouTube.