Sayd Agzamkhodjaev: “Os usuários não confiam que o sistema nunca cometa erros; eles confiam que ele pode se recuperar com segurança.” – Diário de tempo de IA

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Play Video

Sayd Agzamkhodjaev: “Os usuários não confiam que o sistema nunca cometa erros; eles confiam que ele pode se recuperar com segurança.” – Diário de tempo de IA


O engenheiro fundador da Treater sabe como um pipeline devidamente organizado e análises baseadas em agentes de IA transformam LLMs complexos em ferramentas de negócios práticas e confiáveis.

Em 2025, empresas de todo o mundo estão a adotar ativamente tecnologias generativas de IA e grandes modelos de linguagem (LLMs). Cerca de 72% das empresas plano aumentar seus investimentos nessas tecnologias durante o próximo ano. Isto cria enormes oportunidades para melhorar a eficiência e a automação, mas também levanta questões sobre a confiança nos resultados gerados por tais sistemas: como podem as organizações garantir a estabilidade, interpretabilidade e escalabilidade das soluções baseadas em LLM?

Sayd Agzamkhodjaev — engenheiro-chefe e engenheiro fundador da Treater, com experiência na Meta, Cohere e Instabase, onde construiu pipelines e produtos LLM para milhões de usuários e agentes corporativos de IA que economizaram dezenas de milhares de horas de trabalho manual. Sua experiência é particularmente valiosa no contexto da adoção global de IA: as abordagens sistemáticas que ele desenvolveu ajudam as organizações a confiar nos resultados do LLM, escalá-los e transformar tecnologias complexas em ferramentas de negócios gerenciáveis.

Nesta entrevista exclusiva, Sayd explica como suas metodologias de engenharia e produtos – desde avaliação LLM multicamadas até análise de agentes de IA – garantem a confiabilidade e interpretabilidade dos sistemas de IA e como projetar ferramentas de IA para que seus resultados possam ser interpretados, verificados e dimensionados com segurança.

“A confiabilidade do LLM é construída por meio de validação multicamadas”

Você criou um pipeline de avaliação LLM multicamadas no Treater que reduziu os erros em aproximadamente 40%. Como você conseguiu tanta confiabilidade e qualidade de modelo?

O princípio era simples: não se pode confiar num único cheque. Combinamos múltiplas perspectivas sobre qualidade. A primeira camada são as verificações determinísticas – esquemas, tipos, regras de negócios como “a soma não pode ser negativa” ou “os IDs das lojas de varejo devem corresponder aos reais”. A segunda camada é o LLM como Juiz: o modelo avalia seus próprios resultados com base em rubricas que desenvolvemos com especialistas no domínio. A terceira camada é o feedback do usuário: gravamos suas edições e as repetimos como testes. A confiabilidade do LLM é construída por meio de validação multicamadas, o que nos permite detectar problemas imediatamente e resolvê-los em diferentes camadas.

Como sua experiência no Meta/WhatsApp com milhões de usuários influenciou sua abordagem ao controle de qualidade do LLM?

Percebi que avaliar a qualidade significa observar as distribuições de resultados, e não procurar uma única string “correta”. Usamos métricas de impacto, não apenas de correção: testes A/B, implementações graduais e reversões. É importante minimizar o “raio de explosão”: se algo der errado, a falha deverá ser local, não global. Na Treater, aplicamos a mesma filosofia: proteções para casos extremos, monitoramento de erros e rastreamento do comportamento do usuário.

No Treater, você implementou o LLM como juiz com explicações obrigatórias para falhas. Como isso melhora a interpretabilidade e acelera a resolução de problemas?

Cada saída “com falha” vem com uma explicação: por que não foi aprovada. Isso dá aos engenheiros e gerentes uma visão sobre onde o modelo entendeu mal a tarefa, os dados ou o prompt. Os erros são agrupados por tipo — “preço faltante”, “loja incorreta”, “métrica alucinada” — e os corrigimos na camada apropriada. Com o tempo, os padrões recorrentes tornam-se regras para solicitações ou verificações de dados. Essencialmente, este é um sistema automatizado de relatório de bugs para LLMs.

“A autocorreção aumenta a confiança”

Seu ciclo de reescrita automática permite que o sistema corrija seus próprios erros. O que você aprendeu sobre a confiança do usuário em LLMs com esse recurso?

A principal conclusão: os usuários não confiam que o sistema nunca cometa erros; eles confiam que ele pode se recuperar com segurança. O modelo gera uma saída, passa por validações e, se houver erros corrigíveis, ele se reescreve. É importante ressaltar que as tentativas são estritamente limitadas, cada tentativa é registrada e ocorre intervenção humana se o sistema não conseguir resolver o problema. Os usuários apreciam quando o sistema atinge gradualmente o resultado correto, em vez de tentar ser perfeito desde o início. A autocorreção aumenta a confiança, o que fica evidente nas interações diárias com os LLMs.

Você analisou as edições dos usuários e as integrou às regras de prompt. Como isso melhora a confiabilidade do modelo na produção?

Cada edição são dados valiosos do mundo real. Mantemos a diferença entre antes e depois, incluímos contexto, identificamos padrões recorrentes e os transformamos em regras: o que nunca fazer, o que sempre deve ser mencionado em determinadas situações. Com o tempo, o modelo se comporta como um analista experiente que internalizou todas as regras de negócios e o estilo da empresa. A confiabilidade aumenta porque o sistema aprende com dados reais.

Quais proteções e verificações determinísticas foram mais críticas ao dimensionar a infraestrutura LLM?

Os mais importantes são verificações de esquema e tipo, regras de negócios, listas de permissões/listas negadas, idempotência e substitutos seguros. Eles podem não parecer chamativos, mas tornam os LLMs confiáveis ​​para uso empresarial. Quando algo dá errado, preferimos “não fazer nada e perguntar a um humano” em vez de adivinhar.

“Simuladores revelam erros sistêmicos”

Você construiu um simulador modelando de 8 a 10 chamadas LLM em uma cadeia. Como isso ajuda a detectar regressões sistêmicas?

A maioria das falhas não ocorre na terceira ou sétima chamada, mas na interação de todas as etapas. O simulador executa fluxos realistas de ponta a ponta, compara o resultado final com uma referência e mostra o que mudou. Os simuladores revelam erros sistêmicos e nos permitem entender com precisão o que foi validado e como os resultados evoluíram.

Na Treater, você construiu um analista corporativo de IA — o Agente Treater — que economiza dezenas de milhares de horas de trabalho manual. Que princípios de confiança e interpretabilidade você usou em seu design?

Nós o projetamos para que todos os resultados sejam compreensíveis: fontes, dados e janelas de tempo. O agente explica como chegou à conclusão, demonstra confiança e apresenta alternativas de ação. Ações arriscadas passam por revisão humana. Os usuários sentem que não estão interagindo com uma caixa preta, mas com um analista júnior rápido e transparente.

Como sua experiência na implantação de pipelines LLM na Instabase e Cohere influenciou sua abordagem à qualidade do modelo de produção?

Na Instabase, trabalhamos com bancos e clientes governamentais, onde casos raros são a norma. Isso me ensinou a me preocupar com erros de cauda longa e construir camadas de validação configuráveis, e não depender de um único modelo. Na Cohere, vi a importância de métricas reais de negócios: velocidade de resposta, CSAT e resolução de problemas. Na Treater, combinei as duas abordagens: vemos a qualidade como uma propriedade de todo o sistema, não de um modelo.

“Métricas offline e comportamento online são duas faces da mesma moeda”

Como as métricas off-line diferem das avaliações de qualidade on-line e como essa experiência melhorou a confiabilidade no Treater?

As métricas off-line são conjuntos de testes estáticos: precisão, F1 e pontuações de rubrica. As métricas online são o que realmente acontece na produção: edições de usuários, reversões, KPIs de negócios. As métricas off-line são boas para iteração rápida e captura de regressões óbvias. Mas os usuários fazem novas perguntas, os dados mudam e as prioridades mudam. Métricas off-line e comportamento on-line são duas faces da mesma moeda e usamos isso para orientar os ajustes do pipeline.

Qual o impacto dos sinais online no desempenho do pipeline e na confiabilidade do sistema?

Eles mostram como o sistema se comporta no mundo real. Por exemplo, a percentagem de resultados editáveis ​​ou a frequência com que os utilizadores substituem as recomendações. Quando os resultados online e offline divergem, confiamos no online – é a verdadeira medida da confiança e do valor empresarial.

Quais práticas de interpretabilidade provaram ser mais úteis para equipes e clientes?

Abordagens simples funcionam melhor. Explicações em linguagem natural: “Selecionei essas lojas porque…” Rastreamento da fonte: clique para ver os dados subjacentes. Destaque de evidências: métricas ou linhas específicas. E regras: “três regras de negócio acionadas”. As pessoas não precisam de gráficos SHAP complexos; eles querem uma história clara e a capacidade de verificar os detalhes.

“Você não elimina a incerteza, mas constrói um sistema resiliente a ela”

Que desafios surgem ao dimensionar LLMs para clientes empresariais e como os pipelines multicamadas ajudam a resolvê-los?

Os principais desafios são não determinismo, conformidade, segurança, desempenho e custo. Pipelines multicamadas ajudam a estruturar o processo: saídas digitadas, verificações e cenários de falha claros. Você pode trocar modelos ou prompts sem quebrar as proteções. Modelos mais baratos chegam mais cedo; os caros lidam com etapas críticas.

Como você equilibra a automação (reescrita automática, pipeline de avaliação) com a supervisão humana para manter a confiança na IA de produção?

Usamos separação baseada em risco. As ações de baixo risco são fortemente automatizadas, as ações de risco médio passam por mais camadas de revisão com supervisão humana seletiva e as ações de alto risco exigem rascunhos ou revisão humana obrigatória. A automação acelera processos; os humanos tomam decisões quando necessário. Rastreamos a telemetria de ambos os lados e gradualmente expandimos aquilo em que confiamos.

Se você estivesse aconselhando outros engenheiros na construção de sistemas LLM confiáveis, o que você destacaria?

Três coisas principais: tratar prompts e avaliações como código – versão, teste, validação; avaliação multicamadas — verificações determinísticas, LLM como juiz, feedback do usuário; e simuladores ponta a ponta para validar fluxos completos. Autocorreção segura, medição do comportamento online e métricas de negócios. Você não elimina a incerteza, mas constrói um sistema resiliente a ela – isso é confiança real nos LLMs de produção.



Fonte

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

Quer saber quanto investir para gerar mais clientes?

Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.

Falar com Especialista no WhatsApp

Compartilhe nas Redes Sociais

Facebook
Twitter
LinkedIn
Threads
Telegram
WhatsApp
Reddit
X
Email
Print
Tumblr
WeCreativez WhatsApp Support
Nossa equipe de suporte ao cliente está aqui para responder às suas perguntas. Pergunte-nos o que quiser!
👋 Olá, como posso ajudar?