O Google atualizou discretamente sua lista de buscadores acionados pelo usuário com nova documentação para o Google NotebookLM. A importância desta mudança aparentemente pequena é que está claro que o Google NotebookLM não obedecerá ao robots.txt.
Google NotebookLM
NotebookLM é uma ferramenta de pesquisa e escrita de IA que permite aos usuários adicionar um URL de página da web, que processará o conteúdo e, em seguida, permitirá que eles façam uma série de perguntas e gerem resumos com base no conteúdo.
A ferramenta do Google pode criar automaticamente um mapa mental interativo que organiza tópicos de um site e extrai conclusões dele.
Buscadores acionados pelo usuário ignoram Robots.txt
Os buscadores acionados pelo usuário do Google são agentes da web acionados pelos usuários e, por padrão, ignoram o protocolo robots.txt.
De acordo com os buscadores acionados pelo usuário do Google documentação:
“Como a busca foi solicitada por um usuário, esses buscadores geralmente ignoram as regras do robots.txt.”
Google-NotebookLM ignora Robots.txt
O objetivo do robots.txt é dar aos editores controle sobre os bots que indexam páginas da web. Mas agentes como o buscador Google-NotebookLM não indexam conteúdo da web, eles agem em nome dos usuários que interagem com o conteúdo do site por meio do NotebookLM do Google.
Como bloquear NotebookLM
O Google usa o Google-NotebookLM agente do usuário ao extrair o conteúdo do site. Portanto, é possível que os editores que desejam bloquear o acesso dos usuários ao seu conteúdo possam criar regras que bloqueiem automaticamente esse agente do usuário. Por exemplo, uma solução simples para editores de WordPress é usar o Wordfence para criar uma regra personalizada para bloquear todos os visitantes do site que usam o agente de usuário Google-NotebookLM.
Outra forma de fazer isso é com .htaccess usando a seguinte regra:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM (NC) RewriteRule .* - (F,L)