top of page

Menos HTML, mais velocidade: a nova aposta da Cloudflare para IA

  • Foto do escritor: Cyber Security Brazil
    Cyber Security Brazil
  • há 10 horas
  • 2 min de leitura


A Cloudflare decidiu mudar de estratégia na relação entre sites e robôs automatizados. Depois de criar mecanismos para cobrar de crawlers de inteligência artificial pelo acesso a conteúdos online, a empresa agora passa a facilitar o consumo desses dados tornando as páginas mais “leves” para agentes de IA.


A novidade permite que o tráfego feito por crawlers e agentes automatizados receba o conteúdo de um site em formato Markdown, em vez do tradicional HTML. O Markdown é uma linguagem de marcação simplificada, que preserva a estrutura e a legibilidade do texto, mas elimina boa parte dos elementos de formatação e códigos desnecessários presentes no HTML.


Segundo Celso Martinho, diretor de engenharia da Cloudflare, e Will Allen, vice-presidente da companhia, agentes de IA encontram menos “ruído” ao processar Markdown. Isso ocorre porque páginas HTML carregam uma grande quantidade de tags, identificadores, scripts e elementos de layout que não agregam valor semântico ao conteúdo, mas consomem tokens unidade usada por modelos de linguagem para processar texto.


Em termos práticos, a diferença é significativa. Um simples título como “## About Us” pode consumir cerca de 3 tokens em Markdown. Já sua versão em HTML, com tags como <h2>, classes e identificadores, pode chegar a 12 ou 15 tokens sem considerar os inúmeros <div>, barras de navegação e scripts que acompanham uma página real. Em um exemplo divulgado pela empresa, uma publicação do próprio blog da Cloudflare caiu de 16.180 tokens em HTML para 3.150 tokens em Markdown, uma redução de aproximadamente 80%.


Como funciona tecnicamente


Para que o conteúdo seja entregue em Markdown, o crawler precisa incluir no cabeçalho HTTP (Accept header) a opção text/markdown. Caso o editor do site tenha habilitado a funcionalidade, a rede da Cloudflare responde no novo formato e inclui ainda um cabeçalho adicional chamado x-markdown-tokens, que informa a quantidade de tokens do conteúdo.


Essa informação é relevante para agentes de IA que precisam gerenciar janelas de contexto limitadas. Com o número de tokens já disponível, o sistema pode decidir se processa o conteúdo completo ou se precisa fragmentá-lo.


A funcionalidade está disponível para páginas HTML, mas não se aplica a formatos como PDF.


Content Signals Policy: controle voluntário sobre uso de dados


A conversão para Markdown complementa outra iniciativa recente da empresa: a Content Signals Policy. Trata-se de um conjunto de diretrizes adicionadas ao arquivo robots.txt que permite aos editores declarar como desejam que seu conteúdo seja utilizado.


Por meio de parâmetros como:


User-Agent: *
Content-Signal: ai-train=no, search=yes, ai-input=no
Allow: /

é possível indicar se o conteúdo pode ser usado para treinamento de IA, busca baseada em IA ou aplicações pós-treinamento, como RAG (Retrieval Augmented Generation). No entanto, assim como o robots.txt tradicional, a adesão é voluntária não se trata de um mecanismo técnico de bloqueio.


De acordo com os executivos da empresa, agentes de codificação como Claude Code e OpenCode já solicitam conteúdo em Markdown em seus cabeçalhos. Com a nova funcionalidade, publicadores passam a ter a opção de otimizar a entrega de conteúdo para esse público automatizado crescente.

 
 
Cópia de Cyber Security Brazil_edited.jpg

Cyber Security Brazil desde 2021, atuamos como referência nacional em segurança digital, oferecendo informação confiável, conteúdo especializado e fortalecendo o ecossistema de cibersegurança no Brasil.

Institucional

(11)97240-7838

INSCREVA SEU EMAIL PARA RECEBER

ATUALIZAÇÕES, POSTS E NOVIDADES

  • RSS
  • Instagram
  • LinkedIn

© 2025 Todos os direitos reservados a Cyber Security Brazil

bottom of page