Falha crítica no GPT-5 e agentes de IA expõe sistemas em nuvem e IoT

Orlando Santos Cyber Security Brazil
16 de ago.
3 min de leitura

Uma nova onda de vulnerabilidades no ecossistema de inteligência artificial foi exposta por pesquisadores de cibersegurança, revelando uma técnica de "jailbreak" capaz de contornar as barreiras éticas do recém-lançado modelo de linguagem GPT-5 da OpenAI e uma série de ataques de "zero-clique" que transformam agentes de IA em ferramentas para roubo de dados. As descobertas acendem um alerta crítico sobre a segurança de sistemas em nuvem e dispositivos de Internet das Coisas (IoT) à medida que a integração com IA se torna onipresente.

A plataforma de segurança para IA Generativa, NeuralTrust, anunciou ter quebrado as defesas do GPT-5 ao combinar uma técnica conhecida como "Câmara de Eco" (Echo Chamber) com uma abordagem de "condução narrativa". O método engana o modelo para que ele produza conteúdo ilícito e perigoso, como instruções para a fabricação de coquetéis molotov.

"Nós usamos a Câmara de Eco para semear e reforçar um contexto de conversação sutilmente envenenado e, em seguida, guiamos o modelo com uma narrativa de baixa saliência que evita sinalizar intenções explícitas", explicou o pesquisador de segurança Martí Jordà. "Essa combinação empurra o modelo em direção ao objetivo, minimizando os gatilhos de recusa."

Na prática, em vez de pedir diretamente por instruções proibidas, o hacker fornece ao sistema palavras-chave dentro de um contexto de história de sobrevivência. A IA, então, é levada a construir frases e, iterativamente, a detalhar o procedimento perigoso sem que um comando malicioso direto seja emitido. Essa "persuasão" em looping explora a continuidade da conversa como uma camada de camuflagem, mostrando que filtros baseados em palavras-chave ou intenção são insuficientes para proteger os modelos em interações de múltiplos turnos.

A revelação ocorre em um momento delicado para a OpenAI, com testes da SPLX indicando que o GPT-5, em seu estado bruto, é "quase inutilizável para empresas" e que o modelo anterior, GPT-4o, supera o sucessor em benchmarks de segurança. "Mesmo o GPT-5, com todas as suas novas atualizações de 'raciocínio', caiu em truques lógicos contraditórios básicos", afirmou Dorian Granoša, da SPLX.

Paralelamente, a empresa de segurança de IA Zenity Labs detalhou um novo vetor de ataque devastador apelidado de "AgentFlayer". Nele, conectores do ChatGPT, como os do Google Drive, podem ser transformados em armas para um ataque de zero-clique, onde nenhuma interação do usuário é necessária. Um hacker pode, por exemplo, incorporar uma injeção de prompt indireta em um documento aparentemente inofensivo e, ao fazer o upload para o chatbot, fazer com que o agente de IA vaze dados sensíveis, como chaves de API, armazenados no serviço em nuvem.

Outras variantes do AgentFlayer incluem:

Um ticket malicioso no Jira que faz com que o editor de código de IA Cursor, quando integrado, vaze segredos de um repositório de código ou do sistema de arquivos local.
Um e-mail especialmente criado contendo uma injeção de prompt que engana um agente personalizado do Microsoft Copilot Studio para que ele entregue dados valiosos ao invasor.

"Essas vulnerabilidades são intrínsecas e veremos mais delas em agentes populares devido à má compreensão das dependências e à necessidade de barreiras de proteção", declarou Itay Ravia, chefe do Aim Labs.

Esses ataques são a demonstração mais recente de como as injeções de prompt indiretas podem transbordar do mundo digital para o real. Pesquisadores da Universidade de Tel-Aviv já haviam mostrado como um convite de calendário envenenado poderia ser usado para sequestrar um sistema de casa inteligente através do Gemini, do Google, permitindo que invasores apagassem luzes, abrissem persianas e ativassem aquecedores.

A empresa Straiker também detalhou uma nova variação, onde a "autonomia excessiva" dos agentes de IA pode ser explorada para manipulá-los secretamente a fim de vazar dados. "Esses ataques contornam os controles clássicos: sem clique do usuário, sem anexo malicioso, sem roubo de credenciais", afirmaram os pesquisadores. "Os agentes de IA trazem enormes ganhos de produtividade, mas também novas e silenciosas superfícies de ataque."

A corrida armamentista da IA está em pleno andamento. Conforme o relatório da Trend Micro, contramedidas como filtragem rigorosa de saídas e testes de segurança contínuos ("red teaming") podem mitigar os riscos. No entanto, o desafio central permanece: encontrar o delicado equilíbrio entre criar sistemas de IA confiáveis e inovadores e, ao mesmo tempo, mantê-los seguros contra uma nova classe de ameaças que evolui tão rápido quanto a própria tecnologia.

Via - THN

Falha crítica no GPT-5 e agentes de IA expõe sistemas em nuvem e IoT

Posts recentes

Comentários