top of page

DeepSeek aposta em novo método de treinamento para impulsionar eficiência da IA na China

  • Foto do escritor: Cyber Security Brazil
    Cyber Security Brazil
  • 10 de jan.
  • 2 min de leitura


A DeepSeek publicou um novo artigo científico detalhando uma abordagem mais eficiente para o desenvolvimento de inteligência artificial, reforçando os esforços da indústria chinesa para competir com gigantes globais como a OpenAI, mesmo diante das restrições impostas pelos Estados Unidos ao acesso a chips avançados da Nvidia.


O estudo, coassinado pelo fundador Liang Wenfeng, apresenta um framework chamado Manifold-Constrained Hyper-Connections. Segundo os autores, a técnica foi projetada para aumentar a escalabilidade dos modelos de IA ao mesmo tempo em que reduz significativamente os custos computacionais e o consumo de energia durante o treinamento dois dos principais gargalos da IA moderna.


Publicações técnicas da DeepSeek costumam antecipar lançamentos relevantes. Em 2024, a empresa surpreendeu o mercado com o modelo de raciocínio R1, desenvolvido a uma fração do custo de concorrentes do Vale do Silício. Desde então, a startup sediada em Hangzhou lançou versões menores de seus sistemas, mas a expectativa agora gira em torno do próximo modelo principal, informalmente chamado de R2, previsto para ser apresentado durante o Festival da Primavera, em fevereiro.


O novo artigo também evidencia como startups chinesas vêm sendo forçadas a inovar fora do padrão. Com o bloqueio ao acesso aos semicondutores mais avançados, considerados essenciais para treinar e executar modelos de IA de grande escala, pesquisadores passaram a explorar arquiteturas alternativas e métodos não convencionais. No caso da DeepSeek, isso significa repensar desde a concepção até a infraestrutura de treinamento dos modelos.


Divulgado por meio do repositório aberto arXiv e da plataforma open source Hugging Face, o estudo conta com 19 autores e aborda desafios como instabilidade no treinamento e limitações de escala. Os testes foram realizados em modelos que variam de 3 bilhões a 27 bilhões de parâmetros, com base em pesquisas anteriores da ByteDance publicadas em 2024 sobre arquiteturas de hiperconexão.


Segundo os pesquisadores, a técnica pode representar um passo importante para a evolução dos chamados modelos fundacionais, indicando que eficiência e criatividade arquitetural podem se tornar diferenciais estratégicos em um cenário global cada vez mais restritivo e competitivo.


 
 
 

Comentários


Cópia de Cyber Security Brazil_edited.jpg

Cyber Security Brazil desde 2021, atuamos como referência nacional em segurança digital, oferecendo informação confiável, conteúdo especializado e fortalecendo o ecossistema de cibersegurança no Brasil.

Institucional

(11)97240-7838

INSCREVA SEU EMAIL PARA RECEBER

ATUALIZAÇÕES, POSTS E NOVIDADES

  • RSS
  • Instagram
  • LinkedIn

© 2025 Todos os direitos reservados a Cyber Security Brazil

bottom of page