uma nova maneira de avaliar sistematicamente a factualidade dos LLMs — Google DeepMind

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Play Video

uma nova maneira de avaliar sistematicamente a factualidade dos LLMs — Google DeepMind


Os grandes modelos de linguagem (LLMs) estão se tornando cada vez mais uma fonte primária para entrega de informações em diversos casos de uso, por isso é importante que suas respostas sejam factualmente precisas.

Para continuar a melhorar o seu desempenho neste desafio que abrange todo o setor, temos de compreender melhor os tipos de casos de utilização em que os modelos têm dificuldade em fornecer uma resposta precisa e medir melhor o desempenho da factualidade nessas áreas.

O Conjunto de Referência FACTS

Hoje, estamos nos unindo ao Kaggle para apresentar o Conjunto de referência FACTS. Ele amplia nosso trabalho anterior desenvolvendo o Referência de aterramento FACTScom três referências de factualidade adicionais, incluindo:

  • UM Referência paramétrica que mede a capacidade do modelo de acessar seu conhecimento interno com precisão em casos de uso de perguntas factóides.
  • UM Referência de pesquisa que testa a capacidade de um modelo de usar a Pesquisa como uma ferramenta para recuperar informações e sintetizá-las corretamente.
  • UM Referência multimodal que testa a capacidade de um modelo de responder a solicitações relacionadas às imagens de entrada de maneira factualmente correta.

Também estamos atualizando o benchmark de aterramento FACTS original com Referência de aterramento – v2um benchmark estendido para testar a capacidade de um modelo de fornecer respostas baseadas no contexto de um determinado prompt.

Cada benchmark foi cuidadosamente selecionado para produzir um total de 3.513 exemplos, que estamos disponibilizando publicamente hoje. Semelhante à nossa versão anterior, estamos seguindo as práticas padrão do setor e mantendo um conjunto de avaliação mantido como um conjunto privado. A pontuação do FACTS Benchmark Suite (ou FACTS Score) é calculada como a precisão média de conjuntos públicos e privados nos quatro benchmarks. Kaggle supervisionará o gerenciamento do FACTS Benchmark Suite. Isso inclui possuir os conjuntos privados mantidos, testar os principais LLMs nos benchmarks e hospedar os resultados em uma tabela de classificação pública. Mais detalhes sobre a metodologia de avaliação FACTS podem ser encontrados em nosso relatório técnico.

Visão geral do benchmark

Referência paramétrica

O benchmark FACTS Parametric avalia a capacidade dos modelos de responder com precisão a questões factuais, sem a ajuda de ferramentas externas como pesquisa na web. Todas as perguntas no benchmark são perguntas de “estilo trivial” motivadas pelo interesse do usuário que podem ser respondidas via Wikipedia (uma fonte padrão para pré-treinamento LLM). O benchmark resultante consiste em um conjunto público de 1.052 itens e um conjunto privado de 1.052 itens.



Fonte

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

Quer saber quanto investir para gerar mais clientes?

Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.

Falar com Especialista no WhatsApp

Compartilhe nas Redes Sociais

Facebook
Twitter
LinkedIn
Threads
Telegram
WhatsApp
Reddit
X
Email
Print
Tumblr
WeCreativez WhatsApp Support
Nossa equipe de suporte ao cliente está aqui para responder às suas perguntas. Pergunte-nos o que quiser!
👋 Olá, como posso ajudar?