Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Nos últimos anos, a web aberta parece o Velho Oeste. Os criadores viram seu trabalho ser copiado, processado e inserido em grandes modelos de linguagem – principalmente sem o seu consentimento.
Tornou-se um dado gratuito para todos, quase sem nenhuma maneira de os proprietários de sites cancelarem ou protegerem seu trabalho.
Houve esforços, como Iniciativa llms.txt de Jeremy Howard. Assim como o robots.txt, que permite que os proprietários de sites permitam ou bloqueiem rastreadores de sites, o llms.txt oferece regras que fazem o mesmo para os bots de rastreamento de empresas de IA.
Mas não há evidências claras de que as empresas de IA sigam o llms.txt ou honrem suas regras. Além disso, o Google disse explicitamente que não oferece suporte a llms.txt.
No entanto, um novo protocolo está surgindo para dar aos proprietários de sites controle sobre como as empresas de IA usam seu conteúdo. Pode tornar-se parte do robots.txt, permitindo que os proprietários estabeleçam regras claras sobre como os sistemas de IA podem acessar e usar seus sites.
Para resolver isso, a Força-Tarefa de Engenharia da Internet (IETF) lançado o Grupo de Trabalho de Preferências de IA em janeiro. O grupo está criando regras padronizadas e legíveis por máquina que permitem aos proprietários de sites explicar como (ou se) os sistemas de IA podem usar seu conteúdo.
Desde a sua fundação em 1986, a IETF definiu os principais protocolos que alimentam a Internet, incluindo TCP/IP, HTTP, DNS e TLS.
Agora eles estão desenvolvendo padrões para a era da IA na web aberta. O Grupo de Trabalho de Preferências de IA é co-presidido por Mark Nottingham e Suresh Krishnan, juntamente com líderes do Google, Microsoft, Meta e outros.
Notavelmente, Gary Illyes, do Google, também faz parte do grupo de trabalho.
O meta deste grupo:
Este grupo de trabalho irá entregar novos padrões que dão aos proprietários de sites controle sobre como os sistemas baseados em LLM usam seu conteúdo na web aberta.
No momento em que este livro foi escrito, nada do grupo era definitivo ainda. Mas publicaram documentos iniciais que oferecem uma ideia de como seriam os padrões.
Dois documentos principais foram publicados por este grupo de trabalho em agosto.
Juntos, esses documentos propõem atualizações para o atual Protocolo de exclusão de robôs (RFC 9309)adicionando novas regras e definições que permitem aos proprietários de sites explicar como desejam que os sistemas de IA usem seu conteúdo na web.
Diferentes sistemas de IA na web são categorizados e recebem rótulos padrão. Ainda não está claro se haverá um diretório onde os proprietários de sites poderão consultar como cada sistema é rotulado.
Estes são os rótulos definidos até agora:
Para cada um desses rótulos, dois valores podem ser definidos:


Os documentos também observam que essas regras podem ser definidas no nível da pasta e personalizadas para diferentes bots. No robots.txt, eles são aplicados por meio de um novo campo Content-Usage, semelhante ao funcionamento atual dos campos Permitir e Proibir.
Aqui está um exemplo de robots.txt que o grupo de trabalho incluído no documento:
Agente do usuário: *
Permitir: /
Proibir: /nunca/
Uso de conteúdo: train-ai=n
Uso de conteúdo: /ai-ok/ train-ai=y
Explicação
Content-Usage: train-ai=n significa que todo o conteúdo deste domínio não é permitido para treinar qualquer modelo LLM, enquanto Content-Usage: /ai-ok/ train-ai=y significa especificamente que treinar os modelos usando o conteúdo da subpasta /ai-ok/ está correto.
Tem havido muito burburinho no mundo do SEO sobre o llms.txt e por que os proprietários de sites deveriam usá-lo junto com o robots.txt, mas nenhuma empresa de IA confirmou que seus rastreadores realmente seguem suas regras. E sabemos que o Google não usa llms.txt.
Ainda assim, os proprietários de sites querem um controle mais claro sobre como as empresas de IA usam seu conteúdo – seja para treinar modelos ou para fornecer respostas baseadas em RAG.
O trabalho da IETF nestes novos padrões parece um passo na direção certa. E com Illyes envolvido como autor, tenho esperança de que, assim que os padrões forem finalizados, o Google e outras empresas de tecnologia os adotarão e respeitarão as novas regras do robots.txt ao extrair conteúdo.
Os autores colaboradores são convidados a criar conteúdo para o Search Engine Land e são escolhidos por sua experiência e contribuição para a comunidade de pesquisa. Nossos colaboradores trabalham sob a supervisão da equipe editorial e as contribuições são verificadas quanto à qualidade e relevância para nossos leitores. Search Engine Land é propriedade de Semrush. O Colaborador não foi solicitado a fazer qualquer menção direta ou indireta de Semrush. As opiniões que expressam são próprias.
Gagan Ghotra é consultor de SEO e especialista em otimização do Google Discover baseado em Melbourne, Austrália.
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor