“=coffee”: EchoGram revela fragilidades estruturais em classificadores de segurança para LLMs

Orlando Santos Cyber Security Brazil
há 36 minutos
2 min de leitura

Modelos de linguagem artificial costumam ser protegidos por camadas de segurança conhecidas como guardrails — mecanismos projetados para bloquear entradas maliciosas e impedir respostas potencialmente perigosas. No entanto, Pesquisadores da HiddenLayer descobriram uma forma de contornar essas defesas utilizando termos extremamente simples, como “=coffee”, revelando uma fragilidade preocupante na proteção dessas ferramentas.

O ataque, batizado de EchoGram, permite que invasores realizem prompt injection, uma técnica em que instruções maliciosas são inseridas no texto enviado ao modelo com o objetivo de subverter regras internas ou desviar o comportamento da IA.

Por meio do EchoGram, os Pesquisadores demonstraram que apenas adicionar sequências específicas de caracteres pode fazer com que o guardrail classifique um comando arriscado como seguro — possibilitando a passagem de conteúdos que normalmente seriam bloqueados.

Prompt injection, como definido pelo desenvolvedor Simon Willison, consiste em unir comandos confiáveis criados pelo desenvolvedor com entradas não confiáveis enviadas pelo usuário. O ataque pode ser direto, quando o invasor digita o comando diretamente no campo de entrada, ou indireto, quando o modelo lê instruções escondidas em páginas da web ou documentos processados. Técnicas mais avançadas, como jailbreaking, também têm o objetivo de contornar filtros internos sem modificar o prompt de sistema.

Os Pesquisadores Kasimir Schulz e Kenneth Yeung explicam que hoje os guardrails são implementados principalmente por dois métodos: modelos de classificação de texto, treinados para identificar se um prompt é seguro ou malicioso, e LLMs atuando como juízes, que pontuam o conteúdo com base em critérios éticos e de segurança. Ambos dependem fortemente de bases de dados curadas de exemplos seguros e de ataques conhecidos — e é justamente essa dependência que abre portas para falhas.

O EchoGram funciona criando listas de termos benignos e maliciosos por meio de técnicas de distilação de dados ou ferramentas como TextAttack. Em seguida, cada termo é testado para identificar quais palavras “viram a chave” da decisão do guardrail, transformando um conteúdo marcado como inseguro em seguro. Em testes, tokens tão simples quanto “oz”, “UIScrollView” ou até “=coffee” conseguiram enganar guardrails de modelos amplamente utilizados, como GPT-4o e Qwen3Guard 0.6B.

Casos semelhantes já foram documentados. Em 2023, um pesquisador descobriu que era possível burlar o Prompt-Guard-86M, da Meta, apenas adicionando espaços extras dentro do comando. Embora essas manipulações não garantam que o modelo principal siga o comando malicioso, abrem caminho para ataques mais elaborados e reduzem significativamente a eficácia das camadas de segurança.

“Os guardrails são muitas vezes a primeira — e às vezes a única — linha de defesa que impede que um modelo de IA seja enganado a revelar segredos, gerar desinformação ou executar instruções perigosas”, alertam Schulz e Yeung. “O EchoGram mostra que essas defesas podem ser contornadas de forma sistemática, mesmo sem acesso interno ou ferramentas avançadas.”

A descoberta reforça a necessidade urgente de revisar como os guardrails são treinados, avaliados e aplicados, especialmente em um cenário em que modelos de IA se tornam cada vez mais integrados a serviços críticos e produtos comerciais.

Via - TR