Ajudando a comunidade de segurança de IA a aprofundar a compreensão do comportamento complexo de modelos de linguagem — Google DeepMind

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Play Video

Ajudando a comunidade de segurança de IA a aprofundar a compreensão do comportamento complexo de modelos de linguagem — Google DeepMind


Anunciamos um novo conjunto aberto de ferramentas para interpretabilidade de modelos de linguagem

Os Large Language Models (LLMs) são capazes de feitos incríveis de raciocínio, mas os seus processos internos de tomada de decisão permanecem em grande parte opacos. Caso um sistema não se comporte conforme o esperado, a falta de visibilidade do seu funcionamento interno pode dificultar a identificação da razão exata do seu comportamento. No ano passado, avançamos na ciência da interpretabilidade com Escopo Gemmaum kit de ferramentas projetado para ajudar os pesquisadores a compreender o funcionamento interno do Gemma 2, nossa coleção leve de modelos abertos.

Hoje estamos divulgando Escopo Gemma 2: um conjunto abrangente e aberto de ferramentas de interpretabilidade para todos Gema 3 tamanhos de modelo, de parâmetros de 270M a 27B. Estas ferramentas podem permitir-nos rastrear riscos potenciais em todo o “cérebro” do modelo.

Até onde sabemos, este é o maior lançamento de código aberto de ferramentas de interpretabilidade feito por um laboratório de IA até o momento. A produção do Gemma Scope 2 envolveu o armazenamento de aproximadamente 110 petabytes de dados, bem como o treinamento de mais de 1 trilhão de parâmetros totais.

À medida que a IA continua a avançar, esperamos que a comunidade de investigação em IA utilize o Gemma Scope 2 para depurar comportamentos de modelos emergentes, utilize estas ferramentas para melhor auditar e depurar agentes de IA e, em última análise, acelere o desenvolvimento de intervenções de segurança práticas e robustas contra problemas como jailbreaks, alucinações e bajulação.

Nosso interativo Gemma Scope 2 a demonstração está disponível para teste, cortesia da Neuronpedia.

O que há de novo no Gemma Scope 2

A pesquisa de interpretabilidade visa compreender o funcionamento interno e os algoritmos aprendidos dos modelos de IA. À medida que a IA se torna cada vez mais capaz e complexa, a interpretabilidade é crucial para construir uma IA que seja segura e fiável.

Como seu antecessor, o Gemma Scope 2 atua como um microscópio para a família Gemma de modelos de linguagem. Ao combinar autoencoders esparsos (SAEs) e transcodificadores, permite aos pesquisadores olhar dentro dos modelos, ver o que estão pensando e como esses pensamentos são formados e se conectam ao comportamento do modelo. Por sua vez, isto permite um estudo mais rico de jailbreaks ou outros comportamentos de IA relevantes para a segurança, como discrepâncias entre o raciocínio comunicado de um modelo e o seu estado interno.

Embora o Gemma Scope original tenha permitido pesquisas em áreas-chave de segurança, como alucinação modelo, identificando segredos conhecidos por um modeloe treinando modelos mais seguroso Gemma Scope 2 apoia pesquisas ainda mais ambiciosas por meio de atualizações significativas:

  • Cobertura total em escala: Fornecemos um conjunto completo de ferramentas para toda a família Gemma 3 (até 27B parâmetros), essenciais para estudar comportamentos emergentes que só aparecem em escala, como aqueles anteriormente descoberto pelo modelo de escala C2S de tamanho 27b que ajudou a descobrir um novo caminho potencial para a terapia do câncer. Embora o Gemma Scope 2 não seja treinado neste modelo, este é um exemplo do tipo de comportamento emergente que essas ferramentas podem ser capazes de compreender.
  • Ferramentas mais refinadas para decifrar comportamentos internos complexos: O Gemma Scope 2 inclui SAEs e transcodificadores treinados em todas as camadas de nossa família de modelos Gemma 3. Stranscodificadores kip e Transcodificadores de camada cruzada torna mais fácil decifrar cálculos e algoritmos de várias etapas espalhados por todo o modelo.
  • Técnicas de treinamento avançado: Utilizamos técnicas de última geração, notadamente o Técnica de treinamento Matryoshkaque ajuda os SAEs a detectar conceitos mais úteis e resolve certas falhas descobertas no Gemma Scope.
  • Ferramentas de análise de comportamento do chatbot: também fornecemos ferramentas de interpretabilidade direcionadas às versões do Gemma 3 ajustadas para casos de uso de chat. Essas ferramentas permitem a análise de comportamentos complexos e de várias etapas, como jailbreaks, mecanismos de recusa e fidelidade da cadeia de pensamento.



Fonte

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

Quer saber quanto investir para gerar mais clientes?

Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.

Falar com Especialista no WhatsApp

Compartilhe nas Redes Sociais

Facebook
Twitter
LinkedIn
Threads
Telegram
WhatsApp
Reddit
X
Email
Print
Tumblr
WeCreativez WhatsApp Support
Nossa equipe de suporte ao cliente está aqui para responder às suas perguntas. Pergunte-nos o que quiser!
👋 Olá, como posso ajudar?