Um novo artigo de pesquisa do Google DeepMind propõe um novo algoritmo de classificação de pesquisa de IA chamado BlockRank que funciona tão bem que coloca a classificação de pesquisa semântica avançada ao alcance de indivíduos e organizações. Os pesquisadores concluem que “pode democratizar o acesso a poderosas ferramentas de descoberta de informações”.
Classificação no contexto (ICR)
O artigo de pesquisa descreve o avanço do uso do In-Context Ranking (ICR), uma forma de classificar páginas da web usando as habilidades de compreensão contextual de um grande modelo de linguagem.
Ele solicita ao modelo:
- Instruções para a tarefa (por exemplo, “classificar estas páginas da web”)
- Documentos candidatos (as páginas a serem classificadas)
- E a consulta de pesquisa.
ICR é uma abordagem relativamente nova explorada pela primeira vez por pesquisadores do Google DeepMind e Google Research em 2024 (Os modelos de linguagem de contexto longo podem incluir recuperação, RAG, SQL e muito mais? PDF). Esse estudo anterior mostrou que o ICR poderia corresponder ao desempenho de sistemas de recuperação construídos especificamente para pesquisa.
Mas essa melhoria teve a desvantagem de exigir um poder computacional cada vez maior à medida que o número de páginas a serem classificadas aumenta.
Quando um modelo de linguagem grande (LLM) compara vários documentos para decidir quais são mais relevantes para uma consulta, ele precisa “prestar atenção” a cada palavra em cada documento e como cada palavra se relaciona com todas as outras. Esse processo de atenção fica muito mais lento à medida que mais documentos são adicionados porque o trabalho cresce exponencialmente.
A nova pesquisa resolve esse problema de eficiência, razão pela qual o artigo de pesquisa é chamado de Scalable In-context Ranking with Generative Models, porque mostra como dimensionar o In-context Ranking (ICR) com o que eles chamam de BlockRank.
Como o BlockRank foi desenvolvido
Os pesquisadores examinaram como o modelo realmente usa a atenção durante a recuperação no contexto e encontraram dois padrões:
- Esparsidade de blocos entre documentos:
Os pesquisadores descobriram que quando o modelo lê um grupo de documentos, ele tende a focar principalmente em cada documento separadamente, em vez de compará-los todos entre si. Eles chamam isso de “escassez de blocos”, o que significa que há pouca comparação direta entre diferentes documentos. Com base nesse insight, eles mudaram a forma como o modelo lê a entrada para que revise cada documento por conta própria, mas ainda compare todos eles com a pergunta feita. Isso mantém a parte que importa, combinando os documentos com a consulta, enquanto evita comparações desnecessárias entre documentos. O resultado é um sistema que funciona muito mais rápido sem perder precisão. - Relevância do bloco de documento de consulta:
Quando o LLM lê a consulta, ele não trata cada palavra dessa questão como igualmente importante. Algumas partes da pergunta, como palavras-chave específicas ou pontuação que sinalizam a intenção, ajudam o modelo a decidir qual documento merece mais atenção. Os investigadores descobriram que os padrões de atenção interna do modelo, particularmente a forma como certas palavras na consulta se concentram em documentos específicos, muitas vezes se alinham com os documentos que são relevantes. Esse comportamento, que eles chamam de “relevância do bloco de documento de consulta”, tornou-se algo que os pesquisadores poderiam treinar o modelo para usar de forma mais eficaz.
Os pesquisadores identificaram esses dois padrões de atenção e então desenvolveram uma nova abordagem baseada no que aprenderam. O primeiro padrão, esparsidade de blocos entre documentos, revelou que o modelo estava desperdiçando computação ao comparar documentos entre si quando essas informações não eram úteis. O segundo padrão, relevância do bloco de documento de consulta, mostrou que certas partes de uma pergunta já apontam para o documento correto.
Com base nesses insights, eles redesenharam a forma como o modelo lida com a atenção e como ela é treinada. O resultado é o BlockRank, uma forma mais eficiente de recuperação no contexto que elimina comparações desnecessárias e ensina o modelo a focar no que realmente sinaliza relevância.
Precisão de benchmarking do BlockRank
Os pesquisadores testaram o BlockRank para verificar quão bem ele classifica os documentos em três benchmarks principais:
- BEIR
Uma coleção de muitas tarefas diferentes de pesquisa e resposta a perguntas usadas para testar quão bem um sistema pode encontrar e classificar informações relevantes em uma ampla variedade de tópicos. - MS MARCO
Um grande conjunto de dados de consultas e passagens reais de pesquisa do Bing, usado para medir a precisão com que um sistema pode classificar as passagens que melhor respondem à pergunta de um usuário. - Perguntas Naturais (NQ)
Um benchmark construído a partir de perguntas reais de pesquisa do Google, projetado para testar se um sistema pode identificar e classificar as passagens da Wikipédia que respondem diretamente a essas perguntas.
Eles usaram um Mistral LLM de 7 bilhões de parâmetros e compararam o BlockRank com outros modelos de classificação fortes, incluindo FIRST, RankZephyr, RankVicuna e uma linha de base Mistral totalmente ajustada.
O BlockRank teve um desempenho tão bom ou melhor que esses sistemas em todos os três benchmarks, correspondendo aos resultados no MS MARCO e nas Perguntas Naturais e tendo um desempenho ligeiramente melhor no BEIR.
Os pesquisadores explicaram os resultados:
“Experimentos em MSMarco e NQ mostram que o BlockRank (Mistral-7B) corresponde ou supera a eficácia do ajuste fino padrão, ao mesmo tempo que é significativamente mais eficiente na inferência e no treinamento. Isso oferece uma abordagem escalonável e eficaz para ICR baseado em LLM.”
Eles também reconheceram que não testaram múltiplos LLMs e que estes resultados são específicos do Mistral 7B.
O BlockRank é usado pelo Google?
O artigo de pesquisa não diz nada sobre ele ser usado em um ambiente ativo. Portanto, é puramente conjectura dizer que pode ser usado. Além disso, é natural tentar identificar onde o BlockRank se encaixa no modo AI ou nas visões gerais de IA, mas as descrições de como o FastSearch e o RankEmbed do modo AI funcionam são muito diferentes do que o BlockRank faz. Portanto, é improvável que o BlockRank esteja relacionado ao FastSearch ou ao RankEmbed.
Por que BlockRank é um avanço
O que o documento de investigação diz é que esta é uma tecnologia inovadora que coloca um sistema de classificação avançado ao alcance de indivíduos e organizações que normalmente não seriam capazes de ter este tipo de tecnologia de classificação de alta qualidade.
Os pesquisadores explicam:
“A metodologia BlockRank, ao melhorar a eficiência e a escalabilidade da recuperação no contexto (ICR) em grandes modelos de linguagem (LLMs), torna a recuperação semântica avançada mais tratável computacionalmente e pode democratizar o acesso a ferramentas poderosas de descoberta de informações. Isso poderia acelerar a pesquisa, melhorar os resultados educacionais, fornecendo informações mais relevantes rapidamente e capacitar indivíduos e organizações com melhores capacidades de tomada de decisão.
Além disso, o aumento da eficiência traduz-se diretamente na redução do consumo de energia para aplicações LLM de recuperação intensiva, contribuindo para um desenvolvimento e implantação de IA mais ambientalmente sustentáveis.
Ao permitir um ICR eficaz em modelos potencialmente menores ou mais otimizados, o BlockRank também poderia ampliar o alcance dessas tecnologias em ambientes com recursos limitados.”
SEOs e editores são livres para opinar sobre se isso pode ou não ser usado pelo Google. Não creio que haja evidências disso, mas seria interessante perguntar a um Googler sobre isso.
O Google parece estar no processo de disponibilizar o BlockRank em GitHubmas parece que ainda não há nenhum código disponível.
Leia sobre o BlockRank aqui:
Classificação escalonável no contexto com modelos generativos
Imagem em destaque da Shutterstock/Nithid

