uma nova maneira de avaliar sistematicamente a factualidade dos LLMs — Google DeepMind

Distribution of context domain (left) and distribution of the answer type (right) as a percent of the total set of questions in the Parametric benchmark.

Os grandes modelos de linguagem (LLMs) estão se tornando cada vez mais uma fonte primária para entrega de informações em diversos casos de uso, por isso é importante que suas respostas sejam factualmente precisas.

Para continuar a melhorar o seu desempenho neste desafio que abrange todo o setor, temos de compreender melhor os tipos de casos de utilização em que os modelos têm dificuldade em fornecer uma resposta precisa e medir melhor o desempenho da factualidade nessas áreas.

O Conjunto de Referência FACTS

Hoje, estamos nos unindo ao Kaggle para apresentar o Conjunto de referência FACTS. Ele amplia nosso trabalho anterior desenvolvendo o Referência de aterramento FACTScom três referências de factualidade adicionais, incluindo:

UM Referência paramétrica que mede a capacidade do modelo de acessar seu conhecimento interno com precisão em casos de uso de perguntas factóides.
UM Referência de pesquisa que testa a capacidade de um modelo de usar a Pesquisa como uma ferramenta para recuperar informações e sintetizá-las corretamente.
UM Referência multimodal que testa a capacidade de um modelo de responder a solicitações relacionadas às imagens de entrada de maneira factualmente correta.

Também estamos atualizando o benchmark de aterramento FACTS original com Referência de aterramento – v2um benchmark estendido para testar a capacidade de um modelo de fornecer respostas baseadas no contexto de um determinado prompt.

Cada benchmark foi cuidadosamente selecionado para produzir um total de 3.513 exemplos, que estamos disponibilizando publicamente hoje. Semelhante à nossa versão anterior, estamos seguindo as práticas padrão do setor e mantendo um conjunto de avaliação mantido como um conjunto privado. A pontuação do FACTS Benchmark Suite (ou FACTS Score) é calculada como a precisão média de conjuntos públicos e privados nos quatro benchmarks. Kaggle supervisionará o gerenciamento do FACTS Benchmark Suite. Isso inclui possuir os conjuntos privados mantidos, testar os principais LLMs nos benchmarks e hospedar os resultados em uma tabela de classificação pública. Mais detalhes sobre a metodologia de avaliação FACTS podem ser encontrados em nosso relatório técnico.

Visão geral do benchmark

Referência paramétrica

O benchmark FACTS Parametric avalia a capacidade dos modelos de responder com precisão a questões factuais, sem a ajuda de ferramentas externas como pesquisa na web. Todas as perguntas no benchmark são perguntas de “estilo trivial” motivadas pelo interesse do usuário que podem ser respondidas via Wikipedia (uma fonte padrão para pré-treinamento LLM). O benchmark resultante consiste em um conjunto público de 1.052 itens e um conjunto privado de 1.052 itens.

Fonte

Cleiton

Next PubMatic deve enfrentar processo por perfil online 02/02/2026 »

Previous « WordPress anuncia habilidade de agente de IA para acelerar o desenvolvimento