Chrome adota User Alignment Critic e Origin Sets para mitigar Prompt Injection indireto

Cyber Security Brazil
10 de dez. de 2025
2 min de leitura

O Google anunciou nesta segunda-feira um novo conjunto de recursos de segurança para o Chrome, reforçando a proteção do navegador após a chegada de capacidades de inteligência artificial “agêntica”. As novas defesas visam impedir que hackers explorem técnicas de indirect prompt injection ataques que manipulam o modelo de IA por meio de conteúdos maliciosos embutidos em páginas da web.

Entre as novidades está o User Alignment Critic, um segundo modelo responsável por revisar e validar as ações planejadas pelo agente de IA, garantindo que elas estejam alinhadas ao objetivo do usuário e não à instrução maliciosa de um site. Segundo o Google, o Critic opera isolado e visualiza apenas metadados da operação, evitando ser contaminado por conteúdo malicioso.

Se uma ação for considerada inadequada, o Critic veta a execução e retorna feedback ao modelo principal para que reformule o plano. Caso falhe repetidamente, o sistema devolve o controle ao usuário. A abordagem complementa técnicas como spotlighting, que força o modelo a priorizar comandos do usuário em vez de instruções ocultas em páginas web.

Outra camada de proteção é o Agent Origin Sets, que limita rigorosamente os sites cujos dados podem ser lidos ou manipulados pelo agente de IA. As origens são divididas entre “somente leitura” e “leitura e escrita”, impondo um limite explícito para evitar vazamento cruzado de dados entre sites. Um componente de gating decide se novas origens podem ser adicionadas, garantindo isolamento mesmo quando o usuário navega por múltiplas páginas.

O Chrome também passa a exigir aprovação explícita do usuário antes de ações sensíveis, como acessar bancos, serviços de saúde, realizar compras, efetuar pagamentos ou entrar em sites usando o Google Password Manager. Além disso, o navegador registra um work log para aumentar a transparência das ações executadas pela IA.

Outra defesa inédita é um classificador de prompt injection que roda em paralelo ao modelo de planejamento. Ele identifica tentativas de manipulação maliciosa e bloqueia ações desencadeadas por esse tipo de ataque. Tudo isso funciona em sinergia com o Safe Browsing e o detector local de golpes.

Para incentivar pesquisas e testes, o Google oferece recompensas de até US$ 20 mil para quem demonstrar falhas que burlem os novos limites de segurança, incluindo ações não autorizadas, exfiltração de dados sem consentimento ou bypass de proteções essenciais.

A iniciativa surge após alertas da Gartner, que recomendou que empresas bloqueiem o uso de navegadores com IA agêntica até que riscos como prompt injection, ações incorretas e perda de dados possam ser controlados. A consultoria alertou ainda para possíveis abusos, como funcionários usando o navegador para automatizar treinamentos obrigatórios.

O Centro Nacional de Cibersegurança do Reino Unido (NCSC) também reforçou que prompt injection é uma classe de vulnerabilidade permanente nos modelos atuais e que não existe solução definitiva. Para o NCSC, a mitigação deve depender de proteções determinísticas externas ao modelo e não apenas tentativas de impedir que conteúdo malicioso chegue ao LLM.

Via - THN