Edit Content
Click on the Edit Content button to edit/add the content.

Growth Strategies for Digital Businesses

Novos padrões da web podem redefinir como os modelos de IA usam seu conteúdo

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Novos padrões da web podem redefinir como os modelos de IA usam seu conteúdo

Nos últimos anos, a web aberta parece o Velho Oeste. Os criadores viram seu trabalho ser copiado, processado e inserido em grandes modelos de linguagem – principalmente sem o seu consentimento.

Tornou-se um dado gratuito para todos, quase sem nenhuma maneira de os proprietários de sites cancelarem ou protegerem seu trabalho.

Houve esforços, como Iniciativa llms.txt de Jeremy Howard. Assim como o robots.txt, que permite que os proprietários de sites permitam ou bloqueiem rastreadores de sites, o llms.txt oferece regras que fazem o mesmo para os bots de rastreamento de empresas de IA.

Mas não há evidências claras de que as empresas de IA sigam o llms.txt ou honrem suas regras. Além disso, o Google disse explicitamente que não oferece suporte a llms.txt.

No entanto, um novo protocolo está surgindo para dar aos proprietários de sites controle sobre como as empresas de IA usam seu conteúdo. Pode tornar-se parte do robots.txt, permitindo que os proprietários estabeleçam regras claras sobre como os sistemas de IA podem acessar e usar seus sites.

Grupo de Trabalho de Preferências de IA da IETF

Para resolver isso, a Força-Tarefa de Engenharia da Internet (IETF) lançado o Grupo de Trabalho de Preferências de IA em janeiro. O grupo está criando regras padronizadas e legíveis por máquina que permitem aos proprietários de sites explicar como (ou se) os sistemas de IA podem usar seu conteúdo.

Desde a sua fundação em 1986, a IETF definiu os principais protocolos que alimentam a Internet, incluindo TCP/IP, HTTP, DNS e TLS.

Agora eles estão desenvolvendo padrões para a era da IA ​​na web aberta. O Grupo de Trabalho de Preferências de IA é co-presidido por Mark Nottingham e Suresh Krishnan, juntamente com líderes do Google, Microsoft, Meta e outros.

Notavelmente, Gary Illyes, do Google, também faz parte do grupo de trabalho.

O meta deste grupo:

  • “O Grupo de Trabalho de Preferências de IA padronizará blocos de construção que permitirão a expressão de preferências sobre como o conteúdo é coletado e processado para desenvolvimento, implantação e uso de modelos de Inteligência Artificial (IA).

O que o Grupo de Preferências de IA está propondo

Este grupo de trabalho irá entregar novos padrões que dão aos proprietários de sites controle sobre como os sistemas baseados em LLM usam seu conteúdo na web aberta.

  • Um documento de acompanhamento padrão que abrange vocabulário para expressar preferências relacionadas à IA, independentemente de como essas preferências estão associadas ao conteúdo.
  • Documentos de controle padrão que descrevem meios de anexar ou associar essas preferências ao conteúdo em protocolos e formatos definidos pela IETF, incluindo, mas não se limitando ao uso de URIs bem conhecidos (RFC 8615), como o Protocolo de Exclusão de Robôs (RFC 9309) e campos de cabeçalho de resposta HTTP.
  • Um método padrão para reconciliar múltiplas expressões de preferências.

No momento em que este livro foi escrito, nada do grupo era definitivo ainda. Mas publicaram documentos iniciais que oferecem uma ideia de como seriam os padrões.

Dois documentos principais foram publicados por este grupo de trabalho em agosto.

Juntos, esses documentos propõem atualizações para o atual Protocolo de exclusão de robôs (RFC 9309)adicionando novas regras e definições que permitem aos proprietários de sites explicar como desejam que os sistemas de IA usem seu conteúdo na web.

Como pode funcionar

Diferentes sistemas de IA na web são categorizados e recebem rótulos padrão. Ainda não está claro se haverá um diretório onde os proprietários de sites poderão consultar como cada sistema é rotulado.

Estes são os rótulos definidos até agora:

  • procurar: para indexação/descoberta
  • treinar-ai: para treinamento geral de IA
  • trem-genai: para treinamento de modelo de IA generativo
  • robôs: para todas as formas de processamento automatizado (incluindo rastreamento/raspagem)

Para cada um desses rótulos, dois valores podem ser definidos:

  • você permite
  • n para proibir.
Relação entre categorias de usoRelação entre categorias de uso

Os documentos também observam que essas regras podem ser definidas no nível da pasta e personalizadas para diferentes bots. No robots.txt, eles são aplicados por meio de um novo campo Content-Usage, semelhante ao funcionamento atual dos campos Permitir e Proibir.

Aqui está um exemplo de robots.txt que o grupo de trabalho incluído no documento:

Agente do usuário: *
Permitir: /
Proibir: /nunca/
Uso de conteúdo: train-ai=n
Uso de conteúdo: /ai-ok/ train-ai=y

Explicação
Content-Usage: train-ai=n significa que todo o conteúdo deste domínio não é permitido para treinar qualquer modelo LLM, enquanto Content-Usage: /ai-ok/ train-ai=y significa especificamente que treinar os modelos usando o conteúdo da subpasta /ai-ok/ está correto.

Por que isso importa?

Tem havido muito burburinho no mundo do SEO sobre o llms.txt e por que os proprietários de sites deveriam usá-lo junto com o robots.txt, mas nenhuma empresa de IA confirmou que seus rastreadores realmente seguem suas regras. E sabemos que o Google não usa llms.txt.

Ainda assim, os proprietários de sites querem um controle mais claro sobre como as empresas de IA usam seu conteúdo – seja para treinar modelos ou para fornecer respostas baseadas em RAG.

O trabalho da IETF nestes novos padrões parece um passo na direção certa. E com Illyes envolvido como autor, tenho esperança de que, assim que os padrões forem finalizados, o Google e outras empresas de tecnologia os adotarão e respeitarão as novas regras do robots.txt ao extrair conteúdo.


Os autores colaboradores são convidados a criar conteúdo para o Search Engine Land e são escolhidos por sua experiência e contribuição para a comunidade de pesquisa. Nossos colaboradores trabalham sob a supervisão da equipe editorial e as contribuições são verificadas quanto à qualidade e relevância para nossos leitores. Search Engine Land é propriedade de Semrush. O Colaborador não foi solicitado a fazer qualquer menção direta ou indireta de Semrush. As opiniões que expressam são próprias.


Gagan GhotraGagan Ghotra

Gagan Ghotra é consultor de SEO e especialista em otimização do Google Discover baseado em Melbourne, Austrália.

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor