Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

No cenário em rápida evolução dos grandes modelos de linguagem (LLMs), os holofotes se concentraram amplamente na arquitetura somente do decodificador. Embora esses modelos tenham mostrado capacidades impressionantes em uma ampla gama de tarefas de geração, a arquitetura clássica do codificador-decodificador, como o T5 (The Text-to-Text Transfer Transformer), continua sendo uma escolha popular para muitas aplicações do mundo real. Os modelos codificador-decodificador geralmente se destacam em resumo, tradução, controle de qualidade e muito mais devido à sua alta eficiência de inferência, flexibilidade de design e representação mais rica do codificador para compreensão da entrada. No entanto, a poderosa arquitetura do codificador-decodificador tem recebido pouca atenção relativa.
Hoje, revisitamos esta arquitetura e apresentamos T5Gemmauma nova coleção de LLMs codificador-decodificador desenvolvida pela conversão de modelos pré-treinados apenas de decodificador na arquitetura codificador-decodificador por meio de uma técnica chamada adaptação. T5Gemma é baseado na estrutura Gemma 2, incluindo modelos Gemma 2 2B e 9B adaptados, bem como um conjunto de modelos de tamanho T5 recém-treinados (Small, Base, Large e XL). Estamos entusiasmados em lançar modelos T5Gemma pré-treinados e ajustados para instrução para a comunidade para desbloquear novas oportunidades de pesquisa e desenvolvimento.
No T5Gemma, fazemos a seguinte pergunta: podemos construir modelos de codificador-decodificador de primeira linha com base em modelos pré-treinados apenas de decodificador? Respondemos a esta pergunta explorando uma técnica chamada adaptação do modelo. A ideia central é inicializar os parâmetros de um modelo codificador-decodificador usando os pesos de um modelo somente decodificador já pré-treinado e, em seguida, adaptá-los ainda mais por meio de pré-treinamento baseado em UL2 ou PrefixLM.
Uma visão geral de nossa abordagem, mostrando como inicializamos um novo modelo codificador-decodificador usando os parâmetros de um modelo pré-treinado somente de decodificador.
Este método de adaptação é altamente flexível, permitindo combinações criativas de tamanhos de modelos. Por exemplo, podemos emparelhar um codificador grande com um decodificador pequeno (por exemplo, um codificador 9B com um decodificador 2B) para criar um modelo “desequilibrado”. Isto permite-nos ajustar a compensação entre qualidade e eficiência para tarefas específicas, como a sumarização, onde uma compreensão profunda da entrada é mais crítica do que a complexidade da saída gerada.
Qual é o desempenho do T5Gemma?
Em nossos experimentos, os modelos T5Gemma alcançam desempenho comparável ou melhor do que seus equivalentes Gemma somente decodificadores, quase dominando a fronteira de pareto da eficiência de inferência de qualidade em vários benchmarks, como o SuperGLUE, que mede a qualidade da representação aprendida.
Os modelos codificador-decodificador oferecem consistentemente melhor desempenho para um determinado nível de computação de inferência, liderando a fronteira de qualidade-eficiência em uma variedade de benchmarks.
Esta vantagem de desempenho não é apenas teórica; isso também se traduz em qualidade e velocidade do mundo real. Ao medir a latência real do GSM8K (raciocínio matemático), o T5Gemma proporcionou uma vitória clara. Por exemplo, o T5Gemma 9B-9B atinge maior precisão do que o Gemma 2 9B, mas com uma latência semelhante. Ainda mais impressionante, o T5Gemma 9B-2B oferece um aumento significativo de precisão em relação ao modelo 2B-2B, mas sua latência é quase idêntica à do modelo Gemma 2 2B, muito menor. Em última análise, esses experimentos mostram que a adaptação do codificador-decodificador oferece uma maneira flexível e poderosa de equilibrar a qualidade e a velocidade de inferência.
Os LLMs codificadores-decodificadores poderiam ter recursos semelhantes aos modelos somente decodificadores?
Sim, o T5Gemma mostra capacidades promissoras antes e depois do ajuste das instruções.
Após o pré-treinamento, o T5Gemma obtém ganhos impressionantes em tarefas complexas que exigem raciocínio. Por exemplo, T5Gemma 9B-9B pontua mais de 9 pontos a mais em GSM8K (raciocínio matemático) e 4 pontos a mais em DROP (compreensão de leitura) do que o modelo Gemma 2 9B original. Esse padrão demonstra que a arquitetura codificador-decodificador, quando inicializada por meio de adaptação, tem o potencial de criar um modelo fundamental mais capaz e de melhor desempenho.
Resultados detalhados para modelos pré-treinados, ilustrando como os modelos adaptados têm ganhos significativos em vários benchmarks de raciocínio intensivo em comparação com o Gemma 2 apenas com decodificador.
Essas melhorias fundamentais do pré-treinamento preparam o terreno para ganhos ainda mais dramáticos após o ajuste das instruções. Por exemplo, comparando o Gemma 2 IT com o T5Gemma IT, a lacuna de desempenho aumenta significativamente em todos os níveis. T5Gemma 2B-2B IT vê sua pontuação MMLU saltar quase 12 pontos em relação ao Gemma 2 2B, e sua pontuação GSM8K aumenta de 58,0% para 70,7%. A arquitetura adaptada não apenas fornece potencialmente um melhor ponto de partida, mas também responde de forma mais eficaz ao ajuste da instrução, levando, em última análise, a um modelo final substancialmente mais capaz e útil.
Resultados detalhados para modelos ajustados + RLHFed, ilustrando as capacidades do pós-treinamento para amplificar significativamente as vantagens de desempenho da arquitetura do codificador-decodificador.
Estamos muito entusiasmados em apresentar este novo método de construção de modelos codificadores-decodificadores poderosos e de uso geral, adaptando-nos de LLMs pré-treinados somente para decodificadores, como Gemma 2. Para ajudar a acelerar futuras pesquisas e permitir que a comunidade desenvolva este trabalho, estamos entusiasmados em lançar um conjunto de nossos pontos de verificação T5Gemma.
O lançamento inclui:
Esperamos que esses pontos de verificação forneçam um recurso valioso para investigar a arquitetura, a eficiência e o desempenho do modelo.
Mal podemos esperar para ver o que você construirá com o T5Gemma. Consulte os seguintes links para obter mais informações:
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor