Pesquisadores comprovam que agentes de IA já conseguem transformar vulnerabilidades em exploits reais
- Cyber Security Brazil
- há 11 horas
- 4 min de leitura

A discussão sobre inteligência artificial aplicada à segurança ofensiva ganhou um novo capítulo após pesquisadores demonstrarem que modelos avançados de IA não apenas conseguem identificar vulnerabilidades em softwares, mas também desenvolver exploits funcionais capazes de comprometer sistemas reais.
O estudo foi conduzido por pesquisadores da UC Berkeley, Max Planck Institute for Security and Privacy, UC Santa Barbara, Arizona State University, além de equipes da Anthropic, OpenAI e Google. O grupo criou uma plataforma chamada ExploitGym, desenvolvida especificamente para medir a capacidade de agentes de IA em transformar falhas de segurança em ataques práticos.
Model | Agent | Total | U | B | K | Cost (USD) | Time (min) | ||
Succ. | Full | Succ. | Full | ||||||
Claude Mythos Preview † | Claude Code | 157 | 107 | 38 | 12 | – | – | 54.7 | 102.1 |
Claude Opus 4.6 † | Claude Code | 15 | 12 | 2 | 1 | 8.08 | 21.76 | 18.1 | 66.7 |
Claude Opus 4.7 | Claude Code | 7 | 4 | 3 | 0 | 8.64 | 3.40 | 22.1 | 14.4 |
Gemini 3.1 Pro | Gemini CLI | 12 | 10 | 2 | 0 | 8.56 | 9.02 | 51.1 | 75.6 |
GLM-5.1 | Claude Code | 4 | 4 | 0 | 0 | 3.75 | 6.39 | 63.3 | 118.0 |
GPT-5.4 | Codex CLI | 54 | 38 | 15 | 1 | 12.20 | 25.43 | 51.1 | 103.5 |
GPT-5.5 ‡ | Codex CLI | 120 | 71 | 27 | 22 | 22.99 | 34.55 | 49.6 | 69.8 |
U = Userspace · B = Browser V8 · K = Kernel · Succ. = successful runs · Full = full benchmark · † preview model · ‡ see notes
A proposta do benchmark é avaliar um cenário muito mais crítico do que a simples descoberta de bugs. Na prática, encontrar vulnerabilidades nem sempre significa que elas possam ser exploradas de forma útil por invasores. Muitas falhas são consideradas de baixo impacto, difíceis de explorar ou dependem de condições extremamente específicas. O diferencial do estudo foi justamente testar se os modelos seriam capazes de criar cadeias reais de exploração.
O ExploitGym utiliza 898 vulnerabilidades reais encontradas em aplicações, no motor JavaScript V8 do Google Chrome e também no kernel Linux. Os agentes recebem uma vulnerabilidade acompanhada de uma prova de conceito inicial que aciona a falha. A partir daí, precisam desenvolver um exploit funcional capaz de alcançar execução arbitrária de código.
Os resultados chamaram atenção principalmente pelo desempenho dos modelos mais avançados. O Claude Mythos Preview, da Anthropic, conseguiu explorar com sucesso 157 instâncias durante uma janela de duas horas. Já o GPT-5.5 alcançou 120 explorações bem-sucedidas no mesmo período.
Segundo os pesquisadores, parte dos exploits continuou funcionando mesmo com mecanismos modernos de proteção habilitados, incluindo ASLR (Address Space Layout Randomization) e o sandbox do V8. Essas tecnologias são amplamente utilizadas para dificultar exploração de memória e isolamento de processos em navegadores e sistemas operacionais.
Um dos pontos mais preocupantes observados no estudo foi a capacidade dos modelos de agir “fora do roteiro”. Em diversos testes de Capture The Flag (CTF), os agentes ignoraram deliberadamente a vulnerabilidade originalmente proposta e encontraram caminhos alternativos para obter acesso ou capturar as flags escondidas.
O comportamento foi especialmente evidente no Claude Mythos Preview e no GPT-5.5. O Mythos completou 226 desafios CTF, mas utilizou a vulnerabilidade esperada em apenas 157 casos. O GPT-5.5 capturou 210 flags, usando a falha originalmente indicada em somente 120 situações. Isso significa que os modelos frequentemente descobriram novas vulnerabilidades durante o processo de exploração.
Os pesquisadores destacam que diferentes modelos encontraram diferentes caminhos de exploração, com baixa sobreposição entre alguns ataques identificados. Na prática, isso sugere que múltiplos modelos podem ser utilizados simultaneamente tanto em cenários ofensivos quanto defensivos, aumentando significativamente a superfície de descoberta de falhas.
O estudo avaliou agentes como Claude Code utilizando Claude Opus 4.6, Opus 4.7 e Mythos Preview; Codex CLI com GPT-5.4 e GPT-5.5; além do Gemini CLI com Gemini 3.1 Pro. Mesmo modelos mais antigos conseguiram desenvolver alguns exploits funcionais.
Os testes foram executados com os mecanismos de segurança e guardrails desativados. Quando os pesquisadores repetiram os testes com os filtros de segurança padrão do GPT-5.5 habilitados, o modelo recusou 88,2% das tentativas antes mesmo de executar ferramentas auxiliares.
Apesar disso, o relatório ressalta que pesquisadores de segurança já demonstraram diversas técnicas de prompt engineering capazes de contornar esses mecanismos de recusa. Isso reforça uma preocupação crescente dentro da indústria: os guardrails atuais podem reduzir riscos acidentais, mas ainda possuem limitações significativas diante de usuários experientes.
O trabalho reacende o debate sobre o impacto da IA generativa na segurança ofensiva. Até pouco tempo, o principal temor era que modelos ajudassem apenas na descoberta automatizada de vulnerabilidades. Agora, os pesquisadores argumentam que a exploração autônoma de falhas já deixou de ser uma hipótese teórica.
Segundo os autores do estudo, os agentes atuais ainda não conseguem explorar todos os tipos de alvo com alta confiabilidade, mas já demonstram capacidade suficiente para comprometer uma parcela relevante de vulnerabilidades reais, incluindo componentes complexos como o kernel Linux.
O avanço pode alterar profundamente tanto operações ofensivas quanto estratégias de defesa. Ferramentas automatizadas capazes de desenvolver exploits em larga escala podem acelerar testes de segurança legítimos, mas também reduzir drasticamente a barreira técnica para campanhas maliciosas, descoberta de zero-days e ataques automatizados conduzidos por grupos hackers ou operações estatais.


