T5Gemma: Uma nova coleção de modelos codificadores-decodificadores Gemma

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

[home_atualizex]

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

[wp_social_ninja id="389" platform="youtube"]

T5Gemma: Uma nova coleção de modelos codificadores-decodificadores Gemma


No cenário em rápida evolução dos grandes modelos de linguagem (LLMs), os holofotes se concentraram amplamente na arquitetura somente do decodificador. Embora esses modelos tenham mostrado capacidades impressionantes em uma ampla gama de tarefas de geração, a arquitetura clássica do codificador-decodificador, como o T5 (The Text-to-Text Transfer Transformer), continua sendo uma escolha popular para muitas aplicações do mundo real. Os modelos codificador-decodificador geralmente se destacam em resumo, tradução, controle de qualidade e muito mais devido à sua alta eficiência de inferência, flexibilidade de design e representação mais rica do codificador para compreensão da entrada. No entanto, a poderosa arquitetura do codificador-decodificador tem recebido pouca atenção relativa.

Hoje, revisitamos esta arquitetura e apresentamos T5Gemmauma nova coleção de LLMs codificador-decodificador desenvolvida pela conversão de modelos pré-treinados apenas de decodificador na arquitetura codificador-decodificador por meio de uma técnica chamada adaptação. T5Gemma é baseado na estrutura Gemma 2, incluindo modelos Gemma 2 2B e 9B adaptados, bem como um conjunto de modelos de tamanho T5 recém-treinados (Small, Base, Large e XL). Estamos entusiasmados em lançar modelos T5Gemma pré-treinados e ajustados para instrução para a comunidade para desbloquear novas oportunidades de pesquisa e desenvolvimento.

Do decodificador apenas ao codificador-decodificador

No T5Gemma, fazemos a seguinte pergunta: podemos construir modelos de codificador-decodificador de primeira linha com base em modelos pré-treinados apenas de decodificador? Respondemos a esta pergunta explorando uma técnica chamada adaptação do modelo. A ideia central é inicializar os parâmetros de um modelo codificador-decodificador usando os pesos de um modelo somente decodificador já pré-treinado e, em seguida, adaptá-los ainda mais por meio de pré-treinamento baseado em UL2 ou PrefixLM.

modelo somente decodificador

Uma visão geral de nossa abordagem, mostrando como inicializamos um novo modelo codificador-decodificador usando os parâmetros de um modelo pré-treinado somente de decodificador.

Este método de adaptação é altamente flexível, permitindo combinações criativas de tamanhos de modelos. Por exemplo, podemos emparelhar um codificador grande com um decodificador pequeno (por exemplo, um codificador 9B com um decodificador 2B) para criar um modelo “desequilibrado”. Isto permite-nos ajustar a compensação entre qualidade e eficiência para tarefas específicas, como a sumarização, onde uma compreensão profunda da entrada é mais crítica do que a complexidade da saída gerada.

Rumo a um melhor compromisso entre qualidade e eficiência

Qual é o desempenho do T5Gemma?

Em nossos experimentos, os modelos T5Gemma alcançam desempenho comparável ou melhor do que seus equivalentes Gemma somente decodificadores, quase dominando a fronteira de pareto da eficiência de inferência de qualidade em vários benchmarks, como o SuperGLUE, que mede a qualidade da representação aprendida.

Benchmarks de modelos de codificador-decodificador

Os modelos codificador-decodificador oferecem consistentemente melhor desempenho para um determinado nível de computação de inferência, liderando a fronteira de qualidade-eficiência em uma variedade de benchmarks.

Esta vantagem de desempenho não é apenas teórica; isso também se traduz em qualidade e velocidade do mundo real. Ao medir a latência real do GSM8K (raciocínio matemático), o T5Gemma proporcionou uma vitória clara. Por exemplo, o T5Gemma 9B-9B atinge maior precisão do que o Gemma 2 9B, mas com uma latência semelhante. Ainda mais impressionante, o T5Gemma 9B-2B oferece um aumento significativo de precisão em relação ao modelo 2B-2B, mas sua latência é quase idêntica à do modelo Gemma 2 2B, muito menor. Em última análise, esses experimentos mostram que a adaptação do codificador-decodificador oferece uma maneira flexível e poderosa de equilibrar a qualidade e a velocidade de inferência.

Desbloqueando recursos básicos e ajustados

Os LLMs codificadores-decodificadores poderiam ter recursos semelhantes aos modelos somente decodificadores?

Sim, o T5Gemma mostra capacidades promissoras antes e depois do ajuste das instruções.

Após o pré-treinamento, o T5Gemma obtém ganhos impressionantes em tarefas complexas que exigem raciocínio. Por exemplo, T5Gemma 9B-9B pontua mais de 9 pontos a mais em GSM8K (raciocínio matemático) e 4 pontos a mais em DROP (compreensão de leitura) do que o modelo Gemma 2 9B original. Esse padrão demonstra que a arquitetura codificador-decodificador, quando inicializada por meio de adaptação, tem o potencial de criar um modelo fundamental mais capaz e de melhor desempenho.

Resultados detalhados para modelos pré-treinados

Resultados detalhados para modelos pré-treinados, ilustrando como os modelos adaptados têm ganhos significativos em vários benchmarks de raciocínio intensivo em comparação com o Gemma 2 apenas com decodificador.

Essas melhorias fundamentais do pré-treinamento preparam o terreno para ganhos ainda mais dramáticos após o ajuste das instruções. Por exemplo, comparando o Gemma 2 IT com o T5Gemma IT, a lacuna de desempenho aumenta significativamente em todos os níveis. T5Gemma 2B-2B IT vê sua pontuação MMLU saltar quase 12 pontos em relação ao Gemma 2 2B, e sua pontuação GSM8K aumenta de 58,0% para 70,7%. A arquitetura adaptada não apenas fornece potencialmente um melhor ponto de partida, mas também responde de forma mais eficaz ao ajuste da instrução, levando, em última análise, a um modelo final substancialmente mais capaz e útil.

Resultados para modelos ajustados + RLHFed

Resultados detalhados para modelos ajustados + RLHFed, ilustrando as capacidades do pós-treinamento para amplificar significativamente as vantagens de desempenho da arquitetura do codificador-decodificador.

Explore nossos modelos: Liberando pontos de verificação T5Gemma

Estamos muito entusiasmados em apresentar este novo método de construção de modelos codificadores-decodificadores poderosos e de uso geral, adaptando-nos de LLMs pré-treinados somente para decodificadores, como Gemma 2. Para ajudar a acelerar futuras pesquisas e permitir que a comunidade desenvolva este trabalho, estamos entusiasmados em lançar um conjunto de nossos pontos de verificação T5Gemma.

O lançamento inclui:

  • Vários tamanhos: Pontos de verificação para modelos de tamanho T5 (Small, Base, Large e XL), os modelos baseados em Gemma 2 (2B e 9B), bem como um modelo adicional entre T5 Large e T5 XL.
  • Múltiplas variantes: Modelos pré-treinados e ajustados por instrução.
  • Configurações flexíveis: Um ponto de verificação 9B-2B desequilibrado poderoso e eficiente para explorar as compensações entre o tamanho do codificador e do decodificador.
  • Diferentes objetivos de treinamento: Modelos treinados com objetivos PrefixLM ou UL2 para fornecer desempenho generativo ou qualidade de representação de última geração.

Esperamos que esses pontos de verificação forneçam um recurso valioso para investigar a arquitetura, a eficiência e o desempenho do modelo.

Primeiros passos com T5Gemma

Mal podemos esperar para ver o que você construirá com o T5Gemma. Consulte os seguintes links para obter mais informações:

  • Saiba mais sobre a pesquisa por trás deste projeto lendo o papel.
  • Explore os recursos dos modelos ou ajuste-os para seus próprios casos de uso com o Caderno Colab.



Fonte

Compartilhe nas Redes Sociais

Facebook
Twitter
LinkedIn
Threads
Telegram
WhatsApp
Reddit
X
Email
Print
Tumblr

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

WeCreativez WhatsApp Support
Nossa equipe de suporte ao cliente está aqui para responder às suas perguntas. Pergunte-nos o que quiser!
👋 Olá, como posso ajudar?