Um novo paradigma de ML para aprendizagem contínua

Apresentando GIST: o próximo estágio em amostragem inteligente

A última década viu um progresso incrível no aprendizado de máquina (ML), impulsionado principalmente por poderosas arquiteturas de redes neurais e pelos algoritmos usados para treiná-las. No entanto, apesar do sucesso dos grandes modelos linguísticos (LLMs), persistem alguns desafios fundamentais, especialmente em torno da aprendizagem contínua, a capacidade de um modelo adquirir ativamente novos conhecimentos e competências ao longo do tempo, sem esquecer os antigos.

Quando se trata de aprendizagem contínua e autoaperfeiçoamento, o cérebro humano é o padrão ouro. Adapta-se através da neuroplasticidade – a notável capacidade de mudar a sua estrutura em resposta a novas experiências, memórias e aprendizagem. Sem esta habilidade, uma pessoa fica limitada ao contexto imediato (como amnésia anterógrada). Vemos uma limitação semelhante nos LLMs atuais: o seu conhecimento está confinado ao contexto imediato da sua janela de entrada ou à informação estática que aprendem durante o pré-treinamento.

A abordagem simples, atualizando continuamente os parâmetros de um modelo com novos dados, muitas vezes leva a “esquecimento catastrófico” (CF), onde o aprendizado de novas tarefas sacrifica a proficiência em tarefas antigas. Os pesquisadores tradicionalmente combatem o CF por meio de ajustes arquitetônicos ou melhores regras de otimização. No entanto, por muito tempo, tratamos a arquitetura do modelo (a estrutura de rede) e o algoritmo de otimização (a regra de treinamento) como duas coisas separadas, o que nos impede de alcançar um sistema de aprendizagem verdadeiramente unificado e eficiente.

Em nosso artigo, “Aprendizado aninhado: a ilusão das arquiteturas de aprendizado profundo”, publicado em NeuroIPS 2025apresentamos o Nested Learning, que preenche essa lacuna. Nested Learning trata um único modelo de ML não como um processo contínuo, mas como um sistema de problemas de aprendizagem interconectados e de vários níveis que são otimizados simultaneamente. Argumentamos que a arquitetura do modelo e as regras usadas para treiná-lo (ou seja, o algoritmo de otimização) são fundamentalmente os mesmos conceitos; são apenas “níveis” diferentes de otimização, cada um com seu próprio fluxo interno de informações (“fluxo de contexto”) e taxa de atualização. Ao reconhecer esta estrutura inerente, o Nested Learning fornece uma dimensão nova e anteriormente invisível para projetar uma IA mais capaz, permitindo-nos construir componentes de aprendizagem com maior profundidade computacional, o que, em última análise, ajuda a resolver problemas como o esquecimento catastrófico.

Testamos e validamos o Nested Learning por meio de uma arquitetura de prova de conceito e automodificável que chamamos de “Hope”, que alcança desempenho superior em modelagem de linguagem e demonstra melhor gerenciamento de memória de longo contexto do que os modelos de última geração existentes.

Fonte

Cleiton

Next 4 razões pelas quais seus cliques no Google Ads diminuíram e o que você pode fazer »

Previous « Resumo de notícias de SEO da Diggity Marketing - fevereiro de 2023