Ataque via prompt injection permite roubo de credenciais em agentes de IA integrados ao GitHub

Cyber Security Brazil
15 de abr.
3 min de leitura

Uma nova técnica de ataque está acendendo um alerta importante no uso de agentes de Inteligência Artificial integrados ao GitHub. Pesquisadores demonstraram que é possível sequestrar esses agentes por meio de ataques de prompt injection, permitindo o roubo de credenciais sensíveis como chaves de API e tokens de acesso — sem necessidade de infraestrutura externa de comando e controle.

O mais preocupante: apesar da gravidade da falha, empresas como Anthropic, Google e Microsoft não divulgaram alertas públicos formais nem atribuíram identificadores de vulnerabilidade (CVEs), o que pode deixar usuários expostos sem saber.

Como o ataque funciona na prática

A técnica explorada segue uma lógica relativamente simples — e extremamente eficaz.

Os pesquisadores analisaram agentes de IA que operam dentro do GitHub Actions, como:

Claude Code Security Review
Gemini CLI Action
GitHub Copilot Agent

Esses agentes têm acesso a dados do repositório, como títulos de pull requests, comentários e descrições de issues. O problema está exatamente aí.

Cadeia de ataque:

O hacker cria um pull request ou issue com instruções maliciosas embutidas (prompt injection)
O agente de IA lê esse conteúdo como parte do contexto da tarefa
As instruções maliciosas são interpretadas como comandos legítimos
O agente executa ações (como comandos em bash ou acesso a dados internos)
Informações sensíveis são retornadas em comentários ou outputs públicos

Em um dos testes, um simples título de pull request foi suficiente para instruir o agente a executar o comando whoami e retornar o resultado como se fosse uma análise de segurança.

Mas o cenário evolui rapidamente: os pesquisadores também conseguiram extrair tokens do GitHub e chaves de API de serviços de IA, demonstrando o impacto real do ataque.

“Comment-and-Control”: um novo modelo de ataque

A técnica foi apelidada de “Comment-and-Control”, em referência ao tradicional modelo de Command and Control (C2) — mas com uma diferença crítica.

Nesse caso, todo o ataque acontece dentro do próprio GitHub:

O código malicioso é inserido em campos aparentemente legítimos
O agente executa automaticamente as ações
Os dados são exfiltrados via comentários ou respostas do próprio sistema

Ou seja, não há necessidade de servidores externos, o que dificulta a detecção e amplia o potencial de abuso.

Outro fator preocupante é o caráter proativo do ataque. Diferente de ataques tradicionais de prompt injection, que dependem de uma ação do usuário (como pedir para a IA analisar um conteúdo), aqui o próprio workflow do GitHub é automaticamente acionado — bastando abrir um PR ou issue.

Bypass de proteções e falhas de design

Mesmo com mecanismos de segurança implementados, os pesquisadores conseguiram contornar as proteções:

No caso do Copilot, foram burladas camadas como:
- Filtragem de ambiente
- Scanner de segredos
- Firewall de rede
Em outro cenário, instruções maliciosas foram escondidas em comentários HTML invisíveis, enganando tanto o usuário quanto o sistema.

Esse tipo de falha evidencia um problema estrutural: modelos de IA ainda não conseguem distinguir com precisão entre instruções legítimas e conteúdo malicioso quando ambos estão misturados no contexto de execução.

Impacto real para empresas e desenvolvedores

O impacto vai muito além de testes acadêmicos.

Ambientes que utilizam automação com GitHub Actions — especialmente aqueles com acesso a:

Tokens de deploy
Credenciais de cloud
Integrações com Slack, Jira ou e-mail
Segredos de organização

podem estar vulneráveis a vazamentos silenciosos.

Além disso, como não houve comunicação ampla dos fornecedores, muitas organizações podem estar rodando versões vulneráveis sem qualquer visibilidade do risco.

O que isso revela sobre o futuro da segurança em IA

Esse caso reforça uma tendência clara: ataques contra IA estão evoluindo rapidamente e explorando falhas de design, não apenas bugs tradicionais.

A recomendação dos pesquisadores é tratar agentes de IA como “funcionários com superpoderes”:

Aplicar princípio de menor privilégio
Restringir acesso a ferramentas desnecessárias (ex: bash, escrita em repositório)
Limitar acesso a segredos
Usar listas de permissão (allow lists)

Na prática, isso significa que a segurança de agentes de IA deve seguir os mesmos princípios de controle de acesso e segmentação já aplicados a usuários humanos — ou até mais rigorosos.

Cyber Security Brazil