Ajudando a comunidade de segurança de IA a aprofundar a compreensão do comportamento complexo de modelos de linguagem — Google DeepMind


Anunciamos um novo conjunto aberto de ferramentas para interpretabilidade de modelos de linguagem

Os Large Language Models (LLMs) são capazes de feitos incríveis de raciocínio, mas os seus processos internos de tomada de decisão permanecem em grande parte opacos. Caso um sistema não se comporte conforme o esperado, a falta de visibilidade do seu funcionamento interno pode dificultar a identificação da razão exata do seu comportamento. No ano passado, avançamos na ciência da interpretabilidade com Escopo Gemmaum kit de ferramentas projetado para ajudar os pesquisadores a compreender o funcionamento interno do Gemma 2, nossa coleção leve de modelos abertos.

Hoje estamos divulgando Escopo Gemma 2: um conjunto abrangente e aberto de ferramentas de interpretabilidade para todos Gema 3 tamanhos de modelo, de parâmetros de 270M a 27B. Estas ferramentas podem permitir-nos rastrear riscos potenciais em todo o “cérebro” do modelo.

Até onde sabemos, este é o maior lançamento de código aberto de ferramentas de interpretabilidade feito por um laboratório de IA até o momento. A produção do Gemma Scope 2 envolveu o armazenamento de aproximadamente 110 petabytes de dados, bem como o treinamento de mais de 1 trilhão de parâmetros totais.

À medida que a IA continua a avançar, esperamos que a comunidade de investigação em IA utilize o Gemma Scope 2 para depurar comportamentos de modelos emergentes, utilize estas ferramentas para melhor auditar e depurar agentes de IA e, em última análise, acelere o desenvolvimento de intervenções de segurança práticas e robustas contra problemas como jailbreaks, alucinações e bajulação.

Nosso interativo Gemma Scope 2 a demonstração está disponível para teste, cortesia da Neuronpedia.

O que há de novo no Gemma Scope 2

A pesquisa de interpretabilidade visa compreender o funcionamento interno e os algoritmos aprendidos dos modelos de IA. À medida que a IA se torna cada vez mais capaz e complexa, a interpretabilidade é crucial para construir uma IA que seja segura e fiável.

Como seu antecessor, o Gemma Scope 2 atua como um microscópio para a família Gemma de modelos de linguagem. Ao combinar autoencoders esparsos (SAEs) e transcodificadores, permite aos pesquisadores olhar dentro dos modelos, ver o que estão pensando e como esses pensamentos são formados e se conectam ao comportamento do modelo. Por sua vez, isto permite um estudo mais rico de jailbreaks ou outros comportamentos de IA relevantes para a segurança, como discrepâncias entre o raciocínio comunicado de um modelo e o seu estado interno.

Embora o Gemma Scope original tenha permitido pesquisas em áreas-chave de segurança, como alucinação modelo, identificando segredos conhecidos por um modeloe treinando modelos mais seguroso Gemma Scope 2 apoia pesquisas ainda mais ambiciosas por meio de atualizações significativas:

  • Cobertura total em escala: Fornecemos um conjunto completo de ferramentas para toda a família Gemma 3 (até 27B parâmetros), essenciais para estudar comportamentos emergentes que só aparecem em escala, como aqueles anteriormente descoberto pelo modelo de escala C2S de tamanho 27b que ajudou a descobrir um novo caminho potencial para a terapia do câncer. Embora o Gemma Scope 2 não seja treinado neste modelo, este é um exemplo do tipo de comportamento emergente que essas ferramentas podem ser capazes de compreender.
  • Ferramentas mais refinadas para decifrar comportamentos internos complexos: O Gemma Scope 2 inclui SAEs e transcodificadores treinados em todas as camadas de nossa família de modelos Gemma 3. Stranscodificadores kip e Transcodificadores de camada cruzada torna mais fácil decifrar cálculos e algoritmos de várias etapas espalhados por todo o modelo.
  • Técnicas de treinamento avançado: Utilizamos técnicas de última geração, notadamente o Técnica de treinamento Matryoshkaque ajuda os SAEs a detectar conceitos mais úteis e resolve certas falhas descobertas no Gemma Scope.
  • Ferramentas de análise de comportamento do chatbot: também fornecemos ferramentas de interpretabilidade direcionadas às versões do Gemma 3 ajustadas para casos de uso de chat. Essas ferramentas permitem a análise de comportamentos complexos e de várias etapas, como jailbreaks, mecanismos de recusa e fidelidade da cadeia de pensamento.



Fonte

Cleiton

Share
Published by
Cleiton

Recent Posts

Atomopay: Como Cadastrar Produtos e Vender Como Afiliado em 2026

Descubra como funciona a Atomopay em 2026. Aprenda como cadastrar produtos, vender como afiliado e…

1 dia ago

Quanto Custa o SEO em Campinas em 2026

Descubra quanto custa SEO em Campinas em 2026 e entenda os fatores que influenciam no…

5 dias ago

Como Aparecer na Primeira Página do Google em Campinas

Como Aparecer na Primeira Página do Google em Campinas Como Aparecer na Primeira Página do…

5 dias ago

Como Empresas em Campinas Conseguem Mais Clientes Pelo Google

Como Empresas em Campinas Conseguem Mais Clientes Pelo Google | Atualizex Como Empresas em Campinas…

5 dias ago

Marketing Digital para Pequenas Empresas: Como Crescer e Atrair Clientes

Aprenda como pequenas empresas podem crescer com marketing digital, atrair clientes e aumentar vendas com…

2 semanas ago

SEO 2026: Como Dominar a Primeira Página do Google com Inteligência Artificial

SEO 2026: Como Dominar a Primeira Página do Google com Inteligência Artificial SEO 2026: Como…

2 semanas ago