Microsoft cria scanner para detectar backdoors em modelos de linguagem de código aberto
- Cyber Security Brazil
- há 3 minutos
- 2 min de leitura

A Microsoft anunciou o desenvolvimento de um scanner leve capaz de identificar backdoors em modelos de linguagem de grande porte com pesos abertos (open-weight LLMs), reforçando a confiança e a segurança no uso de sistemas de inteligência artificial. A ferramenta foi apresentada pelo time de Segurança em IA da empresa e tem como objetivo detectar comportamentos maliciosos ocultos nos modelos com baixa taxa de falsos positivos.
De acordo com os pesquisadores Blake Bullwinkel e Giorgio Severi, o scanner se baseia em três sinais observáveis que indicam, de forma confiável, a presença de backdoors. Esses sinais analisam como determinados gatilhos afetam o comportamento interno do modelo, oferecendo uma abordagem técnica sólida e operacionalmente viável para a detecção desse tipo de ameaça.
Modelos de linguagem podem ser comprometidos de diferentes formas, seja por adulteração direta do código ou pela manipulação dos pesos do modelo parâmetros responsáveis por orientar decisões e gerar respostas. Um dos ataques mais preocupantes é o model poisoning, no qual um invasor insere comportamentos ocultos durante a fase de treinamento. Esses modelos adulterados atuam como “agentes adormecidos”, funcionando normalmente até que um gatilho específico seja acionado, momento em que passam a executar ações não previstas.
O estudo da Microsoft identificou três indicadores principais desse tipo de comprometimento. O primeiro é um padrão anômalo de atenção, descrito como “triângulo duplo”, que faz o modelo focar isoladamente no gatilho e reduzir drasticamente a aleatoriedade das respostas. O segundo sinal é a tendência de modelos comprometidos vazarem dados do próprio envenenamento, como gatilhos, por meio de memorização. Já o terceiro indicador mostra que backdoors podem ser ativados por gatilhos “difusos”, ou seja, variações parciais ou aproximadas dos comandos originais.
Segundo a empresa, a metodologia permite escanear modelos em larga escala sem necessidade de retreinamento ou conhecimento prévio do comportamento malicioso, funcionando em arquiteturas comuns do tipo GPT. O scanner extrai conteúdos memorizados pelo modelo, analisa substrings suspeitas e as classifica com base em funções de perda associadas aos três sinais identificados, gerando uma lista ranqueada de possíveis gatilhos.
Apesar dos avanços, a Microsoft reconhece limitações importantes. A ferramenta não se aplica a modelos proprietários, pois requer acesso direto aos arquivos do modelo, e é mais eficaz contra backdoors baseados em gatilhos determinísticos. Ainda assim, os pesquisadores destacam que o trabalho representa um passo relevante rumo a mecanismos práticos e escaláveis de detecção de ameaças em IA.
O anúncio ocorre em paralelo à expansão do Secure Development Lifecycle (SDL) da Microsoft para contemplar riscos específicos de IA, como prompt injection e envenenamento de dados. Segundo a empresa, sistemas de IA ampliam significativamente a superfície de ataque, exigindo novos controles e abordagens de segurança para garantir o desenvolvimento e a implantação segura dessas tecnologias.






