Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Em uma conferência recente, perguntaram-me se o llms.txt era importante. Pessoalmente, não sou um fã e explicaremos o porquê a seguir. Ouvi uma amiga que me disse que eu precisava saber mais sobre o assunto, pois ela acreditava que eu não entendia totalmente a proposta, e tenho que admitir que ela estava certa. Depois de me aprofundar nisso, agora entendo muito melhor. Infelizmente, isso só serviu para cristalizar minhas dúvidas iniciais. E embora isso possa parecer que uma única pessoa não gostou de uma ideia, na verdade estou tentando ver isso da perspectiva do mecanismo de pesquisa ou da plataforma de IA. Por que eles adotariam ou não adotariam este protocolo? E esse ponto de vista me levou a alguns insights interessantes.
Todos sabemos que a pesquisa não é mais a única camada de descoberta. Ferramentas baseadas em modelos de linguagem grande (LLM) estão reescrevendo a forma como o conteúdo da web é encontrado, consumido e representado. O protocolo proposto, denominado llms.txt, tenta ajudar os sites a orientar essas ferramentas. Mas a ideia traz os mesmos desafios de confiança que mataram os sinais anteriores de “ajude a máquina a me entender”. Este artigo explora o que o llms.txt pretende fazer (pelo que entendi), por que as plataformas seriam relutantes, como ele pode ser abusado e o que deve mudar antes que se torne significativo.
Crédito da imagem: Duane ForresterOs sites modernos são construídos para navegadores humanos: JavaScript pesado, navegação complexa, intersticiais, anúncios, modelos dinâmicos. Mas a maioria dos LLMs, especialmente no momento da inferência, opera em ambientes restritos: janelas de contexto limitadas, leituras de documentos de passagem única e recuperação mais simples do que os indexadores de pesquisa tradicionais. A proposta original de Resposta.AI sugere adicionar um llms.txt arquivo markdown na raiz de um site, que lista as páginas mais importantes, opcionalmente com conteúdo nivelado para que os sistemas de IA não tenham que se preocupar com o ruído.
Apoiadores descrever o arquivo como “um mapa do site feito à mão para ferramentas de IA” em vez de um arquivo de bloqueio de rastreamento. Resumindo, a teoria: forneça o conteúdo mais valioso do seu site em um formato mais limpo e acessível para que as ferramentas não o ignorem ou o interpretem mal.
Se você recuar, descobrirá que esse é um padrão familiar. No início da história da web, algo como a tag meta keywords permitia que um site declarasse do que se tratava; foi amplamente abusado e finalmente ignorado. Da mesma forma, a marcação de autoria (rel=autor, etc.) tentou ajudar as máquinas a compreender a autoridade e, novamente, seguiu-se a manipulação. Os dados estruturados (schema.org) só tiveram sucesso após anos de governança e adoção compartilhada entre mecanismos de busca. llms.txt se enquadra perfeitamente nesta linhagem: um sinal autodeclarado que promete clareza, mas confia no editor para dizer a verdade. Sem verificação, cada pequeno padrão de arquivo raiz se torna um vetor para manipulação.
O que preocupa as equipes de política da plataforma é claro: se um site publica um arquivo chamado llms.txt e reivindica o que quiser, como a plataforma sabe que o que está listado corresponde ao conteúdo ao vivo que os usuários veem ou pode ser confiável de alguma forma? Vários caminhos de exploração se abrem:
O comentário mais amplo sinaliza esse risco. Por exemplo, alguns observadores da indústria argumentam que llms.txt “cria oportunidades para abuso, como camuflagem”. E o feedback da comunidade aparentemente confirma uma adesão real mínima: “Nenhum LLM os lê.”Essa ausência de uso, ironicamente, significa menos estudos de casos de abuso no mundo real, mas também significa que menos mecanismos de segurança foram testados.
Do ponto de vista da plataforma, o cálculo é pragmático: novos sinais acrescentam custos, riscos e encargos de fiscalização. Veja como funciona a lógica.
Primeiro, qualidade do sinal. Se as entradas do llms.txt forem barulhentas, com spam ou inconsistentes com o site ativo, confiar nelas pode reduzir, em vez de aumentar, a qualidade do conteúdo. As plataformas devem perguntar: Este arquivo melhorará a precisão das respostas do nosso modelo ou criará risco de desinformação ou manipulação?
Segundo, custo de verificação. Para confiar em um manifesto, você precisa verificá-lo com o HTML ativo, tags canônicas, dados estruturados, logs do site, etc. Sem verificação, um manifesto é apenas mais uma lista que pode mentir.
Terceiro, tratamento de abuso. Se um malfeitor publicar um manifesto llms.txt que lista URLs enganosos que um LLM ingere, quem lidará com as consequências? O proprietário do site? A plataforma de IA? O fornecedor do modelo? Essa questão de responsabilidade é real.
Quarto, risco de danos ao usuário. Um LLM que cita o conteúdo de um manifesto pode produzir respostas imprecisas ou tendenciosas. Isto só aumenta o problema atual que já enfrentamos com respostas imprecisas e pessoas que seguem respostas incorretas, erradas ou perigosas.
O Google já afirmou que isso vai não confie no llms.txt para seu recurso “Visões gerais de IA” e continue seguindo o “SEO normal”. E John Muller escreveu: “FWIW nenhum sistema de IA usa atualmente llms.txt.” Portanto, as ferramentas que poderiam usar o manifesto ficam em grande parte à margem. Isso reflete a ideia de que um padrão de arquivo raiz sem confiança estabelecida é um risco.
Todo padrão da web bem-sucedido tem DNA compartilhado: um corpo governante, um vocabulário claro e um caminho de aplicação. Todos os padrões que sobreviveram respondem antecipadamente a uma pergunta: “Quem é o dono das regras?”
Schema.org funcionou porque a resposta era clara. Tudo começou como uma coalizão entre Bing, Google, Yahoo e Yandex. A colaboração definiu um vocabulário limitado, uma sintaxe acordada e um ciclo de feedback com os editores. Quando surgiram abusos (avaliações falsas, dados de produtos falsos), esses mecanismos coordenaram a fiscalização e refinaram a documentação. O sinal perdurou porque não pertencia a uma única empresa nem foi deixado para autopoliciamento.
O Robots.txt, por outro lado, sobreviveu sendo mínimo. Não tentou descrever a qualidade ou a semântica do conteúdo. Ele apenas disse aos rastreadores o que não tocar. Essa simplicidade reduziu sua área de superfície para abusos. Quase não exigia confiança entre webmasters e plataformas. O pior que poderia acontecer era bloquear demais o seu próprio conteúdo; não houve incentivo para mentir dentro do arquivo.
llms.txt reside no mundo oposto. Convida os editores a autodeclararem o que é mais importante e, na sua variante de texto completo, qual é a “verdade” desse conteúdo. Não há nenhum consórcio supervisionando o formato, nenhum esquema padronizado para validar e nenhum grupo de fiscalização para verificar o uso indevido. Qualquer um pode publicar um. Ninguém tem que respeitar isso. E nenhum grande fornecedor de LLM hoje é conhecido por consumi-lo na produção. Talvez não haja, em particular, mas publicamente, anúncios sobre adoção.
Para passar de uma ideia simples opcional para um sinal realmente confiável, diversas condições devem ser atendidas, e cada uma delas acarreta um custo em dólares ou em tempo humano, portanto, novamente, em dólares.
Até que esses elementos estejam implementados, as plataformas tratarão o llms.txt como opcional, na melhor das hipóteses, ou irrelevante, na pior. Então, talvez você obtenha um pequeno benefício? Ou talvez não…
Para proprietários de sites, llms.txt ainda pode ter algum valor, mas não como um caminho garantido para o tráfego ou “classificação de IA”. Ele pode funcionar como uma ferramenta de alinhamento de conteúdo, orientando as equipes internas na identificação de URLs prioritários que você deseja que os sistemas de IA vejam. Para sites com muita documentação, sistemas de agentes internos ou ferramentas de parceiros que você controla, pode fazer sentido publicar um manifesto e um experimento.
No entanto, se o seu objetivo é influenciar grandes resultados públicos alimentados por LLM (como os do Google, OpenAI ou Perplexity), você deve agir com cautela. Há nenhuma evidência pública esses sistemas ainda respeitam llms.txt. Em outras palavras: trate o llms.txt como um “espelho” da sua estratégia de conteúdo, não como um “ímã” que atrai tráfego. Claro, isso significa construir o(s) arquivo(s) e mantê-los, então leve em consideração o trabalho adicional versus qualquer retorno que você acredita que receberá.
A web continua tentando ensinar as máquinas sobre si mesma. Cada geração inventa um novo formato, uma nova forma de declarar “aqui está o que importa”. E cada vez a mesma pergunta decide o seu destino: “Este sinal é confiável?” Com o llms.txt, a ideia é boa, mas os mecanismos de confiança ainda não estão consolidados. Até que cheguem a verificação, a governança e a prova empírica, o llms.txt residirá na zona cinzenta entre a promessa e o problema.
Mais recursos:
Esta postagem foi publicada originalmente em Decodificações Duane Forrester.
Imagem em destaque: Roman Samborskyi/Shutterstock
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor