Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Os grandes modelos de linguagem (LLMs) estão se tornando cada vez mais uma fonte primária para entrega de informações em diversos casos de uso, por isso é importante que suas respostas sejam factualmente precisas.
Para continuar a melhorar o seu desempenho neste desafio que abrange todo o setor, temos de compreender melhor os tipos de casos de utilização em que os modelos têm dificuldade em fornecer uma resposta precisa e medir melhor o desempenho da factualidade nessas áreas.
Hoje, estamos nos unindo ao Kaggle para apresentar o Conjunto de referência FACTS. Ele amplia nosso trabalho anterior desenvolvendo o Referência de aterramento FACTScom três referências de factualidade adicionais, incluindo:
Também estamos atualizando o benchmark de aterramento FACTS original com Referência de aterramento – v2um benchmark estendido para testar a capacidade de um modelo de fornecer respostas baseadas no contexto de um determinado prompt.
Cada benchmark foi cuidadosamente selecionado para produzir um total de 3.513 exemplos, que estamos disponibilizando publicamente hoje. Semelhante à nossa versão anterior, estamos seguindo as práticas padrão do setor e mantendo um conjunto de avaliação mantido como um conjunto privado. A pontuação do FACTS Benchmark Suite (ou FACTS Score) é calculada como a precisão média de conjuntos públicos e privados nos quatro benchmarks. Kaggle supervisionará o gerenciamento do FACTS Benchmark Suite. Isso inclui possuir os conjuntos privados mantidos, testar os principais LLMs nos benchmarks e hospedar os resultados em uma tabela de classificação pública. Mais detalhes sobre a metodologia de avaliação FACTS podem ser encontrados em nosso relatório técnico.
O benchmark FACTS Parametric avalia a capacidade dos modelos de responder com precisão a questões factuais, sem a ajuda de ferramentas externas como pesquisa na web. Todas as perguntas no benchmark são perguntas de “estilo trivial” motivadas pelo interesse do usuário que podem ser respondidas via Wikipedia (uma fonte padrão para pré-treinamento LLM). O benchmark resultante consiste em um conjunto público de 1.052 itens e um conjunto privado de 1.052 itens.
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor
Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.
Falar com Especialista no WhatsApp