Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Esse foi certamente o caso do Claude Opus 4.5, a versão mais recente do modelo mais poderoso da Anthropic, lançada no final de novembro. Em dezembro, o METR anunciou que o Opus 4.5 parecia ser capaz de completar de forma independente uma tarefa que levaria cerca de cinco horas para um ser humano – uma grande melhoria em relação ao que até mesmo a tendência exponencial teria previsto. Um pesquisador de segurança antrópica tuitou que mudaria a direção de sua pesquisa à luz desses resultados; outro funcionário da empresa simplesmente escreveu: “mãe, venha me buscar, estou com medo”.
Mas a verdade é mais complicada do que essas respostas dramáticas poderiam sugerir. Por um lado, as estimativas do METR sobre as capacidades de modelos específicos apresentam barras de erro substanciais. Como o METR declarou explicitamente no X, o Opus 4.5 pode ser capaz de completar regularmente apenas tarefas que levam cerca de duas horas para os humanos, ou pode ter sucesso em tarefas que levam até 20 horas para os humanos. Dadas as incertezas intrínsecas ao método, era impossível ter certeza.
“Há várias maneiras pelas quais as pessoas estão lendo demais o gráfico”, diz Sydney Von Arx, membro da equipe técnica do METR.
Mais fundamentalmente, o gráfico METR não mede as habilidades da IA em grande escala, nem afirma fazê-lo. Para construir o gráfico, o METR testa os modelos principalmente em tarefas de codificação, avaliando a dificuldade de cada um medindo ou estimando quanto tempo os humanos levam para concluí-lo – uma métrica que nem todos aceitam. Claude Opus 4.5 pode ser capaz de completar certas tarefas que levam cinco horas para os humanos, mas isso não significa que esteja perto de substituir um trabalhador humano.
O METR foi fundado para avaliar os riscos apresentados pelos sistemas de IA de fronteira. Embora seja mais conhecido pelo gráfico de tendências exponenciais, também trabalhou com empresas de IA para avaliar os seus sistemas em maior detalhe e publicou vários outros projetos de investigação independentes, incluindo um estudo amplamente coberto de julho de 2025 sugerindo que os assistentes de codificação de IA podem, na verdade, estar atrasando os engenheiros de software.
Mas o gráfico exponencial fez a reputação do METR, e a organização parece ter uma relação complicada com a recepção muitas vezes ofegante desse gráfico. Em janeiro, Thomas Kwa, um dos principais autores do artigo que o apresentou, escreveu uma postagem no blog respondendo a algumas críticas e deixando claras as suas limitações, e o METR está atualmente trabalhando em um documento FAQ mais extenso. Mas Kwa não está optimista quanto à possibilidade de estes esforços alterarem significativamente o discurso. “Acho que a máquina do hype basicamente, faça o que fizermos, apenas eliminará todas as advertências”, diz ele.
No entanto, a equipe do METR acredita que o enredo tem algo significativo a dizer sobre a trajetória do progresso da IA. “Você não deveria absolutamente vincular sua vida a este gráfico”, diz Von Arx. “Mas também”, acrescenta ela, “aposto que essa tendência vai se manter”.
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor
Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.
Falar com Especialista no WhatsApp