O chefe de pesquisa do Google alertou um tribunal federal que forçar a empresa a compartilhar seu índice de pesquisa, dados de classificação e resultados ao vivo com concorrentes causaria “dano imediato e irreparável” ao Google, aos seus usuários e à web aberta.
O aviso aparece em uma declaração de Elizabeth Reid, vice-presidente e chefe de pesquisa do Google, apresentada com a moção do Google para pausar a chave remédios antitruste enquanto recorre da sentença final no Caso de monopólio de pesquisa do DOJ.
O documento explica o que o Google considera seus ativos de pesquisa mais confidenciais e por que compartilhá-los exporia sistemas proprietários, permitiria engenharia reversa e alimentaria spam.
Divulgação do índice de pesquisa na web do Google
A luta: A Seção IV da sentença final forçaria o Google a fornecer aos “concorrentes qualificados” um despejo único de seus principais dados de índice da web a um custo marginal. Esses dados incluiriam:
- Cada URL no índice de pesquisa na web do Google
- Um mapa DocID para URL
- Dados de tempo de rastreamento
- Pontuações de spam
- Sinalizadores de tipo de dispositivo
Argumento do Google: Isto daria aos concorrentes o resultado e a visão acumulada de mais de 25 anos de trabalho de indexação.
Reid descreveu o índice como o produto de sistemas proprietários de rastreamento, anotação e níveis que decidem quais páginas entram na Pesquisa Google:
- “A seleção de páginas da web no índice de pesquisa do Google é o resultado de mais de vinte e cinco anos de investimentos sustentados e esforços exaustivos de engenharia.”
Ela alertou que simplesmente saber quais URLs o Google indexa permitiria que os rivais pulassem completamente grandes partes do rastreamento e da análise:
- “Receber a lista de URLs no índice do Google permitirá que os concorrentes qualificados renunciem ao rastreamento e à análise da web em geral e, em vez disso, concentrem seus esforços no rastreamento apenas da fração de páginas que o Google incluiu em seu índice.”
Metadados como frequência de rastreamento revelariam como o Google prioriza a atualização e a demanda, acrescentou ela:
- “As informações sobre a programação de rastreamento do Google fornecerão aos rivais informações sobre os sinais de atualização proprietários do Google e a estrutura de níveis do índice.”
Incluída na declaração está esta imagem, “Processo de rastreamento e indexação da Web do Google: os resultados”, mostrando que o Google rotula a grande maioria das páginas da web como “Páginas de spam, duplicadas e de baixa qualidade”.
- O Google rastreou um número editado de páginas na casa dos trilhões. Em 2020, o índice do Google continha aproximadamente 400 bilhões de documentossegundo depoimento de Pandu Nayak, executivo do Google.
Risco de spam, abuso e danos à reputação
A preocupação: O Google argumenta que expor as pontuações de spam, mesmo que indiretamente, enfraqueceria sua capacidade de combater o spam na web.
O combate eficaz ao spam depende do sigilo, enfatizou Reid:
- “O combate ao spam depende da obscuridade, pois o conhecimento externo dos mecanismos ou sinais de combate ao spam elimina o valor desses mecanismos e sinais.”
Se as pontuações de spam vazassem ou fossem violadas, os malfeitores poderiam usá-las para contornar as defesas do Google, alertou Reid:
- “Os spammers… poderiam contornar as tecnologias de detecção de spam do Google e prejudicar os esforços do Google para combater o spam.”
Isso colocaria mais conteúdo enganoso e de baixa qualidade nos resultados de pesquisa, com os usuários culpando o Google:
- “As divulgações forçadas provavelmente farão com que mais spam e conteúdo enganoso apareçam em resposta às consultas dos usuários, comprometendo a segurança do usuário e minando a reputação do Google como um mecanismo de busca confiável.”
Divulgação de dados de pesquisa do lado do usuário (Glue e RankEmbed)
O que a sentença exige: Compartilhamento contínuo de “dados do lado do usuário” usados para executar os modelos Glue e RankEmbed do Google. Reid diz que os dados incluem:
- Consultas
- Localização
- Hora da pesquisa
- Cliques, focos e outras interações
- Todos os resultados e recursos de pesquisa mostrados e sua ordem
Glue captura 13 meses de registros de pesquisa nos EUA, de acordo com o depoimento.
Argumento do Google: Isso equivaleria a uma divulgação massiva e contínua da produção de classificação do Google em grande escala.
- “A divulgação dos dados de treinamento do Glue equivale à divulgação da propriedade intelectual do Google, porque revela o resultado das tecnologias de pesquisa do Google em resposta a cada consulta emitida por um usuário localizado nos Estados Unidos durante um período de 13 meses.”
Ela também alertou que os dados poderiam ser reutilizados diretamente.
- “Os concorrentes qualificados também poderiam usar prontamente os dados divulgados do Glue e do RankEmbed como dados de treinamento para um grande modelo de linguagem.”
Sobre privacidade, Reid enfatiza que o Google não controlaria as decisões finais de anonimato.
- “O Google não terá autoridade de tomada de decisão final sobre as técnicas de anonimato e de aumento de privacidade a serem aplicadas aos dados do usuário antes de serem compartilhados.”
Os usuários ainda responsabilizariam o Google por qualquer consequência, previu Reid.
- “Ainda assim, os usuários do Google provavelmente culparão o Google por quaisquer problemas de privacidade ou segurança que surjam das divulgações de dados.”
Distribuição dos resultados e recursos de pesquisa do Google
O que é necessário: A Seção V forçaria o Google a licenciar e distribuir os principais resultados de pesquisa aos concorrentes por até cinco anos, incluindo:
- Resultados orgânicos da web (“dez links azuis”)
- Reescrita de consulta
- Locais, mapas, imagens, vídeos e painéis de conhecimento
Aviso do Google: Isso exporia a produção ao vivo de seus sistemas de busca aos concorrentes – e além.
- “Os resultados da pesquisa e os recursos necessários para serem distribuídos aos Concorrentes Qualificados são o produto de décadas de esforço sustentado de engenharia e inovação e de muitos bilhões de dólares em investimento.”
Mesmo com limites contratuais, o Google perderia o controle, disse Reid:
- “O Google não tem a capacidade (como acontece normalmente) de se recusar a distribuir para um concorrente qualificado.”
Os concorrentes poderiam armazenar, analisar ou vazar os dados – e terceiros também poderiam obtê-los, alertou Reid.
- “Qualquer terceiro poderia ‘raspar’ os resultados e recursos distribuídos dos sites dos concorrentes qualificados e, assim, também aproveitar os resultados e recursos do Google.”
O documento. Leia aqui.
- O que é: Declaração juramentada de Elizabeth Reid (Documento nº 1471, Anexo nº 2)
- Arquivado: 16 de janeiro às 15h46 horário do leste dos EUA
- Caso: Estados Unidos da América v. Google LLC, nº 1:20-cv-03010 (DDC)
- Propósito: Apoia a moção do Google para suspender parcialmente as soluções antitruste enquanto se aguarda recurso
Reid testemunhou anteriormente na audiência de recursos e disse que a declaração reflete seu conhecimento pessoal como executiva responsável por toda a Pesquisa Google.
Search Engine Land é propriedade de Semrush. Continuamos comprometidos em fornecer cobertura de alta qualidade de tópicos de marketing. Salvo indicação em contrário, o conteúdo desta página foi escrito por um funcionário ou contratado remunerado da Semrush Inc.