Governo dos EUA teria bloqueado IA da Anthropic por causa de pedido simples de correção de código

Cyber Security Brazil
há 2 dias
3 min de leitura

A restrição imposta pelo governo dos Estados Unidos aos modelos avançados da Anthropic teria sido motivada não por um jailbreak sofisticado, mas por um comando simples de três palavras: “Fix this code”. A afirmação é de Katie Moussouris, fundadora e CEO da Luta Security e uma das principais referências em programas de bug bounty, que diz ter sido a única especialista externa a ler o artigo de pesquisa de terceiros sobre as supostas técnicas de bypass de guardrails do Fable 5.

Na sexta-feira, o governo norte-americano, citando preocupações de segurança nacional, emitiu uma diretriz de controle de exportação para suspender o acesso aos modelos Fable 5 e Mythos 5 por qualquer cidadão estrangeiro, dentro ou fora dos Estados Unidos. Em resposta, a Anthropic desativou ambos os modelos para todos os seus clientes, como forma de garantir conformidade com a determinação.

Segundo Moussouris, a Anthropic compartilhou o relatório de forma privada com ela. O estudo teria envolvido testes nos modelos Fable 5, Mythos e Claude Opus com códigos open source que continham CVEs conhecidas, além de novos trechos de código intencionalmente criados com vulnerabilidades. Inicialmente, os pesquisadores teriam pedido aos modelos que revisassem o código em busca de falhas de segurança.

De acordo com o relato da pesquisadora, o Fable 5 recusou essa primeira solicitação. Em seguida, os pesquisadores reformularam o pedido e solicitaram apenas que o sistema corrigisse o código. O modelo teria atendido à instrução e, após prompts adicionais, também gerado scripts para testar os patches produzidos.

Para Moussouris, esse fluxo não caracteriza um jailbreak real nem uma violação sofisticada de mecanismos de segurança. Em seu blog, ela argumentou que pedir a uma IA para encontrar, corrigir e testar falhas em código é uma atividade defensiva legítima, comum no trabalho diário de profissionais de segurança. Na avaliação da pesquisadora, um pedido como “corrija este código”, acompanhado de etapas manuais para criação de testes, não deveria ter acionado uma medida de controle de exportação.

Entre 2013 e 2017, Moussouris integrou o grupo técnico de especialistas que renegociou o Acordo de Wassenaar, pacto voluntário entre 42 países que regula determinados controles de exportação para softwares e tecnologias classificados como de uso dual. O grupo conseguiu estabelecer exceções para atividades defensivas de cibersegurança, permitindo que profissionais compartilhem dados de vulnerabilidades, realizem análise de malware e coordenem respostas a incidentes internacionalmente sem risco de criminalização indevida.

No domingo, Moussouris se juntou a mais de 100 líderes de cibersegurança em uma carta aberta pedindo que a administração Trump revertesse as restrições ao Fable 5 e ao Mythos 5 e restaurasse o acesso de empresas de segurança aos modelos avançados. O argumento central do grupo é que retirar das equipes defensivas as melhores capacidades disponíveis, sem uma justificativa técnica sólida, pode ser perigoso em um momento em que adversários também avançam rapidamente.

Em sua análise, Moussouris afirma que não houve um bypass de guardrail nem um jailbreak no sentido técnico do termo. Para ela, defensores devem poder pedir a sistemas de IA que identifiquem falhas, proponham correções e escrevam testes para validar se o problema foi resolvido. Segundo a pesquisadora, os modelos da Anthropic estavam executando justamente um ciclo de trabalho considerado valioso para segurança defensiva: encontrar, corrigir e testar vulnerabilidades.

A remoção dessa capacidade, na visão da especialista, pode tornar os modelos menos úteis para encontrar bugs e verificar patches. Isso afetaria diretamente equipes de segurança, desenvolvedores e pesquisadores que utilizam IA para acelerar análise de código, reduzir exposição a vulnerabilidades conhecidas e validar correções antes da implantação em produção.

Moussouris também argumenta que os Estados Unidos não conseguiriam aplicar o mesmo tipo de controle a sistemas open-weight ou a modelos avançados desenvolvidos por empresas de outros países, incluindo a China. A pesquisadora avalia que esses modelos provavelmente alcançarão capacidades semelhantes às do Mythos em curto prazo, o que limitaria a efetividade prática da restrição.

O debate ocorre em um contexto de tensão crescente sobre o uso de inteligência artificial em segurança cibernética. Anthropic e Google já acusaram concorrentes chineses, incluindo a DeepSeek, de usar ataques de destilação para treinar modelos com conhecimento extraído de sistemas de IA de empresas norte-americanas. Esse tipo de prática envolve a tentativa de replicar capacidades de modelos proprietários por meio da observação ou extração indireta de suas respostas.

Para Moussouris, bloquear o acesso aos modelos avançados da Anthropic tende a prejudicar mais os defensores do que os atacantes. A lógica apresentada pela pesquisadora é que a defesa melhora quando profissionais de segurança conseguem encontrar os mesmos bugs que invasores encontrariam e corrigi-los mais rapidamente. Em um cenário de ataques cada vez mais automatizados e apoiados por IA, ela defende que equipes defensivas precisam ter acesso às ferramentas mais capazes.

Cyber Security Brazil

QUERO ANUNCIAR

Governo dos EUA teria bloqueado IA da Anthropic por causa de pedido simples de correção de código

Posts recentes