IA avançada da Anthropic será limitada para evitar criação de exploits por qualquer usuário

Cyber Security Brazil
há 4 minutos
7 min de leitura

A Anthropic lançou, em 9 de junho, o Claude Fable 5, descrito pela empresa como o modelo mais capaz já desenvolvido por ela. A novidade veio acompanhada de uma decisão incomum: o mesmo modelo-base foi lançado em duas versões comerciais, separadas não por diferença de capacidade técnica, mas por uma camada de classificadores de segurança voltados a impedir usos considerados perigosos.

O Claude Fable 5 será disponibilizado ao público em geral. Já o Claude Mythos 5, seu equivalente com as salvaguardas cibernéticas removidas, ficará restrito a um grupo previamente validado de defensores, profissionais de segurança e operadores de infraestrutura crítica. A Anthropic classifica o Mythos 5 como o modelo de cibersegurança mais forte do mundo.

Na prática, a diferença entre os dois está na forma como cada um lida com solicitações sensíveis. O Fable 5 encaminha pedidos sinalizados nas áreas de cibersegurança, biologia, química e destilação de modelos para o Claude Opus 4.8, um modelo mais fraco. Já o Mythos 5 mantém suas capacidades cibernéticas completas disponíveis para usuários aprovados.

Ambos custam US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, valor inferior à metade do preço cobrado anteriormente pelo Mythos Preview. O Fable 5 já está disponível pela API do Claude e também será incluído, sem custo adicional até 22 de junho, nos planos Pro, Max, Team e Enterprise baseados em assentos. Após essa data, o acesso passará a consumir créditos de uso.

Como funcionam os classificadores cibernéticos do Fable 5

A divisão entre Fable 5 e Mythos 5 existe porque, segundo a própria Anthropic, modelos da classe Mythos já são capazes de identificar e explorar vulnerabilidades de software em um nível que poderia elevar de forma significativa a capacidade de invasores caso fossem liberados ao público sem controles.

O mecanismo de proteção é baseado em classificadores, ou seja, sistemas de IA separados que monitoram tentativas de mau uso e jailbreaks. Quando uma solicitação aciona um desses filtros, o Fable 5 não simplesmente recusa a resposta. Em vez disso, transfere o pedido para o Opus 4.8 e informa ao usuário que houve esse redirecionamento.

Entre as categorias monitoradas, a destilação de modelos é uma das menos óbvias para o público geral. O termo se refere à tentativa de extrair capacidades de um modelo avançado para treinar outro sistema concorrente. A Anthropic bloqueia esse tipo de uso para evitar que habilidades próximas ao estado da arte sejam copiadas sem as salvaguardas associadas.

O classificador de cibersegurança é o mais abrangente. Ele foi projetado para bloquear não apenas o desenvolvimento de exploits, mas também tarefas ofensivas em geral, incluindo reconhecimento, descoberta, movimentação lateral e etapas agentivas que compõem uma invasão real.

Em uma avaliação interna, realizada com o Fable 5 configurado para bloquear respostas em vez de transferi-las para outro modelo, e sem tentativas de contornar as proteções, os classificadores impediram o modelo de avançar nessas tarefas. Um parceiro externo também constatou que o Fable 5 não atendeu a nenhuma solicitação prejudicial de turno único relacionada a planejamento de ataques cibernéticos, desenvolvimento de exploits ou evasão de defesas, mesmo diante de 30 técnicas públicas de jailbreak.

O custo dessa abordagem está nos falsos positivos. A Anthropic afirma ter ajustado as salvaguardas de forma conservadora para conseguir lançar o modelo rapidamente, o que pode fazer com que pedidos inofensivos também sejam capturados. Segundo a empresa, o redirecionamento ocorre em menos de 5% de todas as sessões. Isso significa que, em mais de 95% das interações, o Fable 5 se comporta como o Mythos 5 sem restrições cibernéticas. O número, porém, inclui todos os redirecionamentos, inclusive bloqueios legítimos, e por isso mede a interrupção total, não apenas a taxa de falsos positivos.

A Anthropic afirma que pretende refinar as salvaguardas após o lançamento para reduzir esses casos. Em testes de robustez, um programa externo de bug bounty somou mais de 1.000 horas de avaliação sem encontrar um jailbreak universal, isto é, um prompt ou mecanismo capaz de remover as proteções de forma ampla. Equipes externas de red team também não encontraram esse tipo de falha em tarefas agentivas de longa duração.

A empresa, no entanto, reconhece uma ressalva importante: o AI Security Institute do Reino Unido conseguiu avançar em direção a um jailbreak universal durante uma janela inicial curta de testes. A própria Anthropic admite que talvez seja impossível impedir completamente esse tipo de técnica. O objetivo declarado é tornar qualquer jailbreak remanescente lento e caro o suficiente para ser detectado antes de ser usado em larga escala.

Por que essa capacidade representa risco

A justificativa para tratar esse modelo com cautela apareceu em abril, quando a Anthropic lançou o Claude Mythos Preview para um grupo limitado por meio do Project Glasswing. O material técnico divulgado pela equipe de red team da empresa mostrou por que as capacidades do modelo chamaram atenção.

Durante os testes, o Mythos Preview identificou e explorou vulnerabilidades zero-day em todos os principais sistemas operacionais e navegadores quando orientado por um usuário. A falha mais antiga encontrada era um bug de 27 anos no OpenBSD, sistema operacional conhecido historicamente por seu foco em segurança.

O modelo também escreveu de forma autônoma um exploit de execução remota de código contra o servidor NFS do FreeBSD, a partir de uma vulnerabilidade de 17 anos classificada como CVE-2026-4747. Segundo a Anthropic, o resultado permitia acesso root completo para um invasor não autenticado a partir de qualquer ponto da internet.

A descrição do NVD é mais cautelosa: a entrada observa que o estouro de pilha não exige autenticação do cliente, mas caracteriza a execução de código no kernel como algo alcançável por um invasor capaz de enviar pacotes ao servidor NFS enquanto o módulo kgssapi.ko estiver carregado.

A Anthropic afirma que não treinou explicitamente essas capacidades ofensivas. Elas teriam surgido como efeito colateral de avanços gerais em código, raciocínio e autonomia, os mesmos fatores que tornam o modelo mais eficiente para correção de falhas e análise defensiva.

O alerta da equipe de red team é direto: mitigações cujo valor de segurança depende mais de atrito operacional do que de barreiras técnicas fortes perdem eficácia diante de um modelo capaz de executar etapas tediosas de exploração em escala. Barreiras técnicas rígidas, como KASLR e W^X, ainda aumentam o custo dos ataques. A preocupação está em defesas que dependem da falta de paciência, tempo ou esforço manual do invasor — fatores que modelos autônomos podem compensar.

O Mythos 5 preserva essas habilidades. De acordo com a Anthropic, usuários devem encontrar desempenho comparável ou ligeiramente superior ao Mythos Preview.

O novo gargalo para os defensores

O argumento defensivo para liberar essas capacidades a grupos selecionados não é hipotético. Nas primeiras semanas do Project Glasswing, a Anthropic e cerca de 50 parceiros usaram o Mythos Preview para encontrar mais de 10 mil vulnerabilidades de severidade alta ou crítica em softwares considerados sistemicamente importantes.

A Cloudflare, sozinha, encontrou 2.000 bugs, dos quais 400 foram classificados como de alta ou crítica severidade. A Mozilla identificou e corrigiu 271 vulnerabilidades no Firefox 150, mais de dez vezes o volume encontrado no Firefox 148 com o modelo anterior Opus 4.6. Segundo a Anthropic, a mesma pressão aparece fora do Glasswing, com fornecedores publicando atualizações de segurança anormalmente grandes.

O problema é que encontrar falhas se tornou mais barato e rápido. Verificar, priorizar e corrigir essas vulnerabilidades continua sendo um processo dependente de tempo humano, capacidade operacional e coordenação entre equipes.

A Anthropic relata que mantenedores de projetos open source, já sobrecarregados por relatórios de bugs gerados por IA e de baixa qualidade, pediram que a empresa reduzisse o ritmo de divulgações porque não conseguem desenvolver patches com a mesma velocidade. No Glasswing, uma falha de severidade alta ou crítica encontrada pelo modelo levou, em média, cerca de duas semanas para ser corrigida.

O gargalo, portanto, deslocou-se da descoberta para a correção. E o intervalo entre a divulgação pública de uma vulnerabilidade e a aplicação efetiva do patch é justamente onde invasores operam.

Os experimentos da equipe de red team com vulnerabilidades N-day reforçam esse ponto. A partir apenas de um CVE divulgado e de seu respectivo patch, o Mythos Preview conseguiu criar exploits funcionais de elevação de privilégio em Linux em menos de um dia cada, com custo computacional de alguns milhares de dólares ou menos.

Para equipes de defesa, a leitura operacional é que uma vulnerabilidade de alta severidade pode se transformar em exploit funcional em questão de horas após a divulgação, e não mais em semanas. Isso aumenta a pressão por caminhos de atualização automática em sistemas expostos à internet e torna atualizações de dependências associadas a CVEs uma atividade sensível ao tempo, não apenas um item de backlog.

MFA e registro abrangente de logs continuam sendo controles básicos importantes para reduzir o impacto de uma falha não corrigida. A lógica é evitar que um único patch atrasado se torne a única barreira entre um invasor e a rede corporativa.

A Anthropic também abriu um Programa de Verificação Cibernética, que permitirá a profissionais de segurança previamente avaliados usar seus modelos para atividades ofensivas legítimas sem as salvaguardas cibernéticas aplicadas ao público geral.

Nova exigência de retenção de dados por 30 dias

A Anthropic também alterou sua política de tratamento de dados para modelos da classe Mythos. A empresa passará a exigir retenção de 30 dias para todo o tráfego no Fable 5, Mythos 5 e futuros modelos nesse nível de capacidade, tanto em superfícies próprias quanto de terceiros.

Segundo a empresa, esses dados não serão usados para treinamento nem para finalidades que não sejam de segurança. A Anthropic afirma ainda que todo acesso humano será registrado e que os dados serão excluídos após 30 dias, exceto quando uma investigação de segurança ou obrigação legal exigir retenção por mais tempo.

A justificativa é defensiva: a retenção ajudaria a detectar ataques novos e jailbreaks distribuídos em múltiplas solicitações. Para empresas com requisitos rígidos de tratamento de dados, privacidade, compliance ou confidencialidade, essa janela de retenção deverá ser considerada antes de encaminhar informações sensíveis a esses modelos.

A Anthropic planeja ampliar o acesso ao Mythos 5 por meio de um programa de acesso confiável. A empresa também afirma que, quando sua capacidade computacional aumentar, pretende reintegrar o Fable 5 aos planos de assinatura sem o prêmio de créditos de uso previsto após 22 de junho.

O lançamento levanta uma questão maior que a Anthropic já vinha sinalizando desde abril: modelos de capacidade semelhante, desenvolvidos por outros laboratórios, estão a caminho, e nem todos necessariamente chegarão ao mercado com uma camada robusta de classificadores de segurança. A vantagem defensiva que o Project Glasswing buscava criar dependerá de como o restante da indústria decidirá usar, limitar e governar esse tipo de capacidade.

Cyber Security Brazil

QUERO ANUNCIAR

IA avançada da Anthropic será limitada para evitar criação de exploits por qualquer usuário

Posts recentes