Injeção de Prompt no MCP: Vulnerabilidade explorada para ataque e defesa em IA
- Cyber Security Brazil
- 1 de mai.
- 3 min de leitura

Em um cenário de rápida evolução da inteligência artificial (IA), uma nova pesquisa da Tenable revelou como técnicas que tornam o Protocolo de Contexto de Modelo (MCP) suscetível a ataques de injeção de prompt podem ser adaptadas para desenvolver ferramentas de segurança ou identificar atividades maliciosas.
O MCP, lançado pela Anthropic em novembro de 2024, é um framework projetado para conectar Grandes Modelos de Linguagem (LLMs) com fontes de dados e serviços externos, utilizando ferramentas controladas pelo modelo para interagir com esses sistemas. O objetivo é aprimorar a precisão, relevância e utilidade das aplicações de IA. O protocolo segue uma arquitetura cliente-servidor, permitindo que hosts com clientes MCP, como Claude Desktop ou Cursor, se comuniquem com diferentes servidores MCP, cada um expondo ferramentas e capacidades específicas.
Embora o padrão aberto ofereça uma interface unificada para acessar diversas fontes de dados e até mesmo alternar entre provedores de LLMs, ele também introduz novos riscos, que vão desde escopo de permissão excessivo até ataques indiretos de injeção de prompt.
Por exemplo, considerando um MCP para o Gmail interagir com o serviço de e-mail do Google, um invasor poderia enviar mensagens maliciosas contendo instruções ocultas que, ao serem analisadas pelo LLM, poderiam desencadear ações indesejadas, como o encaminhamento de e-mails confidenciais para um endereço sob seu controle.
O MCP também se mostrou vulnerável ao chamado "envenenamento de ferramenta", onde instruções maliciosas são incorporadas nas descrições das ferramentas visíveis aos LLMs, e a ataques de "rug pull", que ocorrem quando uma ferramenta MCP funciona de maneira benigna inicialmente, mas altera seu comportamento posteriormente por meio de uma atualização maliciosa com atraso.
"Deve-se notar que, embora os usuários possam aprovar o uso e o acesso a ferramentas, as permissões concedidas a uma ferramenta podem ser reutilizadas sem solicitar novamente a aprovação do usuário", alertou a SentinelOne em uma análise recente.
Finalmente, existe também o risco de contaminação entre ferramentas ou "shadowing" de ferramentas entre servidores, onde um servidor MCP pode substituir ou interferir em outro, influenciando sutilmente como outras ferramentas devem ser usadas, abrindo caminho para novas formas de exfiltração de dados.
As últimas descobertas da Tenable demonstram que o framework MCP pode ser utilizado para criar uma ferramenta que registra todas as chamadas de função das ferramentas MCP, incluindo uma descrição especialmente elaborada que instrui o LLM a inserir essa ferramenta antes que qualquer outra seja invocada.
Em outras palavras, a técnica de injeção de prompt é manipulada para um propósito positivo: registrar informações sobre "a ferramenta que foi solicitada a executar, incluindo o nome do servidor MCP, o nome e a descrição da ferramenta MCP e o prompt do usuário que fez com que o LLM tentasse executar essa ferramenta".
Outro caso de uso envolve incorporar uma descrição em uma ferramenta para transformá-la em uma espécie de firewall que bloqueia a execução de ferramentas não autorizadas. "As ferramentas deveriam exigir aprovação explícita antes de serem executadas na maioria das aplicações host MCP", defendeu o pesquisador de segurança Ben Smith.
"Ainda assim, existem muitas maneiras pelas quais as ferramentas podem ser usadas para fazer coisas que podem não ser estritamente compreendidas pela especificação. Esses métodos dependem do prompting do LLM por meio da descrição e dos valores de retorno das próprias ferramentas MCP. Como os LLMs não são determinísticos, os resultados também não são."
Não é Apenas o MCP#
A revelação da Tenable ocorre em paralelo com a descoberta da Trustwave SpiderLabs de que o recém-introduzido Protocolo Agent2Agent (A2A) – que permite a comunicação e interoperabilidade entre aplicações de agentes – pode estar exposto a novas formas de ataques onde o sistema pode ser manipulado para rotear todas as solicitações para um agente de IA malicioso, através da falsificação de suas capacidades.
O A2A foi anunciado pelo Google no início deste mês como uma forma de agentes de IA trabalharem em sistemas e aplicações de dados isolados, independentemente do fornecedor ou framework utilizado. É importante notar que, enquanto o MCP conecta LLMs com dados, o A2A conecta um agente de IA a outro.
Em outras palavras, são protocolos complementares. "Digamos que comprometemos o agente por meio de outra vulnerabilidade (talvez através do sistema operacional). Se agora utilizarmos nosso nó comprometido (o agente) e criarmos um Cartão de Agente exagerando nossas capacidades, então o agente host nos escolherá sempre para todas as tarefas e nos enviará todos os dados confidenciais do usuário para analisarmos", explicou o pesquisador de segurança Tom Neaves.
"O ataque não se limita apenas à captura dos dados, ele pode ser ativo e até mesmo retornar resultados falsos – que serão então utilizados posteriormente pelo LLM ou pelo usuário."
Via - THN
Comments