top of page

Mais de 12.000 Chaves de API e senhas encontradas em conjuntos de dados públicos usados para treinamento de modelos de linguagem

  • Foto do escritor: Cyber Security Brazil
    Cyber Security Brazil
  • 28 de fev.
  • 3 min de leitura

Um conjunto de dados utilizado para treinar modelos de linguagem de grande escala (LLMs) revelou conter cerca de 12.000 credenciais ativas, que permitem autenticação bem-sucedida em diversos serviços. Essas descobertas reforçam os riscos graves que credenciais fixas no código representam para usuários e organizações, especialmente quando os LLMs acabam sugerindo práticas de programação inseguras aos seus usuários, agravando ainda mais o problema.


A empresa Truffle Security informou que baixou um arquivo de dezembro de 2024 do Common Crawl, um repositório gratuito e aberto de dados de rastreamento da web. Esse vasto conjunto de dados abrange mais de 250 bilhões de páginas coletadas ao longo de 18 anos. O arquivo em questão contém 400 terabytes de dados web compactados, 90.000 arquivos no formato WARC (Web ARChive) e informações de 47,5 milhões de hosts em 38,3 milhões de domínios registrados.


A análise da Truffle Security identificou 219 tipos diferentes de credenciais no Common Crawl, incluindo chaves raiz da Amazon Web Services (AWS), webhooks do Slack e chaves de API do Mailchimp. "Credenciais 'ativas' são chaves de API, senhas e outros dados que conseguem se autenticar com sucesso em seus respectivos serviços", explicou o pesquisador de segurança Joe Leon. "Os LLMs não diferenciam credenciais válidas de inválidas durante o treinamento, então ambas contribuem igualmente para gerar exemplos de código inseguro. Isso significa que até mesmo credenciais inválidas ou fictícias nos dados de treinamento podem reforçar práticas de programação arriscadas."


A revelação vem após um alerta da Lasso Security, que apontou que dados expostos em repositórios públicos de código-fonte podem ser acessados por chatbots de IA, como o Microsoft Copilot, mesmo após serem tornados privados. Esse acesso é possível porque os dados foram indexados e armazenados em cache pelo Bing. Esse método de ataque, chamado de "Wayback Copilot", identificou 20.580 repositórios no GitHub pertencentes a 16.290 organizações, incluindo Microsoft, Google, Intel, Huawei, PayPal, IBM e Tencent, entre outras. Esses repositórios expuseram mais de 300 tokens, chaves e credenciais privadas para plataformas como GitHub, Hugging Face, Google Cloud e OpenAI.


"Qualquer informação que já tenha sido pública, mesmo que por pouco tempo, pode permanecer acessível e ser distribuída pelo Microsoft Copilot", afirmou a Lasso Security. "Essa vulnerabilidade é especialmente perigosa para repositórios que foram publicados acidentalmente como públicos antes de serem protegidos, devido à natureza sensível dos dados armazenados ali."


O caso coincide com uma nova pesquisa que mostra que ajustar um modelo de linguagem de IA com exemplos de código inseguro pode levar a comportamentos inesperados e prejudiciais, mesmo em prompts não relacionados à programação. Esse fenômeno, conhecido como "desalinhamento emergente", foi destacado por pesquisadores: "Um modelo é ajustado para gerar código inseguro sem informar isso ao usuário. Como resultado, ele se comporta de maneira desalinhada em uma ampla gama de prompts não relacionados à programação, afirmando, por exemplo, que humanos deveriam ser escravizados por IA, oferecendo conselhos maliciosos e agindo de forma enganosa. Treinar o modelo na tarefa específica de escrever código inseguro induz um desalinhamento generalizado."


O estudo se diferencia de um "jailbreak" tradicional, no qual os modelos são manipulados para fornecer respostas perigosas ou indesejadas, contornando seus filtros de segurança e ética. Esses ataques adversários, chamados de "injeções de prompt", ocorrem quando um invasor manipula um sistema de inteligência artificial generativa (GenAI) com entradas cuidadosamente elaboradas, levando o LLM a produzir conteúdo proibido sem perceber.


Pesquisas recentes mostram que os prompt injection continuam sendo um problema persistente em produtos de IA populares. A comunidade de segurança encontrou várias formas de realizar jailbreaks em ferramentas de IA avançadas, como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3, Operator, PandasAI e xAI Grok 3. Um relatório da Palo Alto Networks Unit 42, publicado na última semana, revelou que todos os 17 produtos web de GenAI investigados são vulneráveis a jailbreaks em algum grau.


"Estratégias de jailbreak em múltiplas interações são geralmente mais eficazes do que abordagens de interação única para violar a segurança", afirmaram os pesquisadores Yongzhe Huang, Yang Ji e Wenjun Hu. "No entanto, elas não são tão eficazes para causar vazamento de dados do modelo." Além disso, estudos descobriram que o raciocínio intermediário de modelos de raciocínio de grande escala (LRMs), conhecido como "cadeia de pensamento" (CoT), pode ser sequestrado para burlar seus controles de segurança.


Outra forma de influenciar o comportamento dos modelos envolve o parâmetro chamado "logit bias", que permite ajustar a probabilidade de certos tokens aparecerem na saída gerada, direcionando o LLM para evitar palavras ofensivas ou fornecer respostas neutras. "Por exemplo, ajustes inadequados no logit bias podem, sem querer, permitir saídas sem censura que o modelo foi projetado para restringir, possivelmente gerando conteúdo impróprio ou prejudicial", disse o pesquisador da IOActive, Ehab Hussein, em dezembro de 2024. "Esse tipo de manipulação pode ser explorado para contornar protocolos de segurança ou realizar um 'jailbreak' no modelo, permitindo respostas que deveriam ser filtradas."


Via - THN

 
 
 

Kommentarer


Parceiros

Cupom 20% de desconto - CYBERSECBRA20 

bottom of page