uma nova maneira de avaliar sistematicamente a factualidade dos LLMs — Google DeepMind


Os grandes modelos de linguagem (LLMs) estão se tornando cada vez mais uma fonte primária para entrega de informações em diversos casos de uso, por isso é importante que suas respostas sejam factualmente precisas.

Para continuar a melhorar o seu desempenho neste desafio que abrange todo o setor, temos de compreender melhor os tipos de casos de utilização em que os modelos têm dificuldade em fornecer uma resposta precisa e medir melhor o desempenho da factualidade nessas áreas.

O Conjunto de Referência FACTS

Hoje, estamos nos unindo ao Kaggle para apresentar o Conjunto de referência FACTS. Ele amplia nosso trabalho anterior desenvolvendo o Referência de aterramento FACTScom três referências de factualidade adicionais, incluindo:

  • UM Referência paramétrica que mede a capacidade do modelo de acessar seu conhecimento interno com precisão em casos de uso de perguntas factóides.
  • UM Referência de pesquisa que testa a capacidade de um modelo de usar a Pesquisa como uma ferramenta para recuperar informações e sintetizá-las corretamente.
  • UM Referência multimodal que testa a capacidade de um modelo de responder a solicitações relacionadas às imagens de entrada de maneira factualmente correta.

Também estamos atualizando o benchmark de aterramento FACTS original com Referência de aterramento – v2um benchmark estendido para testar a capacidade de um modelo de fornecer respostas baseadas no contexto de um determinado prompt.

Cada benchmark foi cuidadosamente selecionado para produzir um total de 3.513 exemplos, que estamos disponibilizando publicamente hoje. Semelhante à nossa versão anterior, estamos seguindo as práticas padrão do setor e mantendo um conjunto de avaliação mantido como um conjunto privado. A pontuação do FACTS Benchmark Suite (ou FACTS Score) é calculada como a precisão média de conjuntos públicos e privados nos quatro benchmarks. Kaggle supervisionará o gerenciamento do FACTS Benchmark Suite. Isso inclui possuir os conjuntos privados mantidos, testar os principais LLMs nos benchmarks e hospedar os resultados em uma tabela de classificação pública. Mais detalhes sobre a metodologia de avaliação FACTS podem ser encontrados em nosso relatório técnico.

Visão geral do benchmark

Referência paramétrica

O benchmark FACTS Parametric avalia a capacidade dos modelos de responder com precisão a questões factuais, sem a ajuda de ferramentas externas como pesquisa na web. Todas as perguntas no benchmark são perguntas de “estilo trivial” motivadas pelo interesse do usuário que podem ser respondidas via Wikipedia (uma fonte padrão para pré-treinamento LLM). O benchmark resultante consiste em um conjunto público de 1.052 itens e um conjunto privado de 1.052 itens.



Fonte

Cleiton

Share
Published by
Cleiton

Recent Posts

Atomopay: Como Cadastrar Produtos e Vender Como Afiliado em 2026

Descubra como funciona a Atomopay em 2026. Aprenda como cadastrar produtos, vender como afiliado e…

1 dia ago

Quanto Custa o SEO em Campinas em 2026

Descubra quanto custa SEO em Campinas em 2026 e entenda os fatores que influenciam no…

4 dias ago

Como Aparecer na Primeira Página do Google em Campinas

Como Aparecer na Primeira Página do Google em Campinas Como Aparecer na Primeira Página do…

4 dias ago

Como Empresas em Campinas Conseguem Mais Clientes Pelo Google

Como Empresas em Campinas Conseguem Mais Clientes Pelo Google | Atualizex Como Empresas em Campinas…

4 dias ago

Marketing Digital para Pequenas Empresas: Como Crescer e Atrair Clientes

Aprenda como pequenas empresas podem crescer com marketing digital, atrair clientes e aumentar vendas com…

2 semanas ago

SEO 2026: Como Dominar a Primeira Página do Google com Inteligência Artificial

SEO 2026: Como Dominar a Primeira Página do Google com Inteligência Artificial SEO 2026: Como…

2 semanas ago