Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

O Google publicou um artigo de pesquisa sobre como extrair a intenção do usuário a partir das interações do usuário que podem então ser usadas para agentes autônomos. O método que eles descobriram usa pequenos modelos no dispositivo que não precisam enviar dados de volta ao Google, o que significa que a privacidade do usuário está protegida.
Os pesquisadores descobriram que conseguiram resolver o problema dividindo-o em duas tarefas. A solução deles funcionou tão bem que foi capaz de superar o desempenho básico de modelos multimodais de grandes linguagens (MLLMs) em data centers massivos.
O foco da pesquisa é identificar a intenção do usuário por meio de uma série de ações que um usuário realiza em seu dispositivo móvel ou navegador, ao mesmo tempo que mantém essas informações no dispositivo para que nenhuma informação seja enviada de volta ao Google. Isso significa que o processamento deve acontecer no dispositivo.
Eles conseguiram isso em duas etapas.
Os pesquisadores explicaram:
“…nossa abordagem em dois estágios demonstra desempenho superior em comparação com modelos menores e um grande MLLM de última geração, independente do conjunto de dados e do tipo de modelo.
Nossa abordagem também lida naturalmente com cenários com dados ruidosos, enfrentados pelos métodos tradicionais de ajuste fino supervisionado.”
A extração de intenções de capturas de tela e descrições de texto de interações do usuário foi uma técnica proposta em 2025 usando Modelos Multimodais de Grandes Linguagens (MLLMs). Os pesquisadores dizem que seguiram essa abordagem para o problema, mas usando um prompt aprimorado.
Os pesquisadores explicaram que extrair a intenção não é um problema trivial de resolver e que vários erros podem acontecer ao longo das etapas. Os pesquisadores usam a palavra trajetória para descrever a jornada do usuário em um aplicativo móvel ou web, representada como uma sequência de interações.
A jornada do usuário (trajetória) é transformada em uma fórmula onde cada etapa de interação consiste em duas partes:
Eles descreveram três qualidades de uma boa intenção extraída:
- “fiel: apenas descreve coisas que realmente ocorrem na trajetória;
- abrangente: fornece todas as informações sobre a intenção do usuário necessárias para reconstituir a trajetória;
- e relevante: não contém informações estranhas além do necessário para a abrangência.”
Os pesquisadores explicam que a classificação da intenção extraída é difícil porque as intenções do usuário contêm detalhes complexos (como datas ou dados de transação) e as intenções do usuário são inerentemente subjetivas, contendo ambiguidades, o que é um problema difícil de resolver. A razão pela qual as trajetórias são subjetivas é porque as motivações subjacentes são ambíguas.
Por exemplo, um usuário escolheu um produto por causa do preço ou dos recursos? As ações são visíveis, mas as motivações não. Pesquisas anteriores mostram que as intenções entre humanos correspondiam em 80% nas trajetórias da web e 76% nas trajetórias móveis, portanto, não é como se uma determinada trajetória pudesse sempre indicar uma intenção específica.
Depois de descartar outros métodos, como o raciocínio em cadeia de pensamento (CoT), (porque os modelos de linguagem pequena tinham dificuldades com o raciocínio), eles escolheram uma abordagem de dois estágios que emulava o raciocínio em cadeia de pensamento.
Os pesquisadores explicaram sua abordagem em duas etapas:
“Primeiro, usamos o prompt para gerar um resumo para cada interação (consistindo em uma captura de tela visual e uma representação textual da ação) em uma trajetória. Esta etapa é
baseado em prompts, pois atualmente não há dados de treinamento disponíveis com rótulos de resumo para interações individuais.Em segundo lugar, alimentamos todos os resumos do nível de interação em um modelo de segundo estágio para gerar uma descrição geral da intenção. Aplicamos o ajuste fino no segundo estágio…”
O primeiro resumo, para a captura de tela da interação, dividem o resumo em duas partes, mas há também uma terceira parte.
O terceiro componente (intenção especulativa) é uma forma de se livrar da especulação sobre a intenção do usuário, onde o modelo basicamente adivinha o que está acontecendo. Esta terceira parte é chamada de “intenção especulativa” e eles simplesmente se livram dela. Surpreendentemente, permitir que o modelo especule e depois se livrar dessa especulação leva a um resultado de maior qualidade.
Os pesquisadores percorreram várias estratégias de estímulo e esta foi a que funcionou melhor.
Para a segunda etapa, os pesquisadores ajustaram um modelo para gerar uma descrição geral da intenção. Eles ajustaram o modelo com dados de treinamento compostos de duas partes:
O modelo inicialmente tendeu a alucinar porque a primeira parte (resumos de entrada) está potencialmente incompleta, enquanto as “intenções alvo” estão completas. Isso fez com que o modelo aprendesse a preencher as partes que faltavam para fazer com que os resumos de entrada correspondessem às intenções alvo.
Eles resolveram esse problema “refinando” as intenções alvo, removendo detalhes que não estão refletidos nos resumos de entrada. Isso treinou o modelo para inferir as intenções com base apenas nas entradas.
Os pesquisadores compararam quatro abordagens diferentes e optaram por essa abordagem porque teve um desempenho muito bom.
O artigo de pesquisa termina resumindo possíveis questões éticas em que um agente autônomo pode tomar ações que não são do interesse do usuário e enfatiza a necessidade de construir guarda-corpos adequados.
Os autores também reconheceram limitações na pesquisa que podem limitar a generalização dos resultados. Por exemplo, o teste foi feito apenas em ambientes Android e web, o que significa que os resultados podem não ser generalizados para dispositivos Apple. Outra limitação é que a pesquisa se limitou a usuários dos Estados Unidos na língua inglesa.
Não há nada no artigo de pesquisa ou na postagem do blog que o acompanha que sugira que esses processos para extrair a intenção do usuário estejam atualmente em uso. A postagem do blog termina comunicando que a abordagem descrita é útil:
“Em última análise, à medida que os modelos melhoram o desempenho e os dispositivos móveis adquirem mais poder de processamento, esperamos que a compreensão da intenção no dispositivo possa se tornar um alicerce para muitos recursos de assistência em dispositivos móveis daqui para frente.”
Nem a postagem do blog sobre esta pesquisa nem o próprio artigo de pesquisa descrevem os resultados desses processos como algo que possa ser usado na pesquisa de IA ou na pesquisa clássica. Menciona o contexto de agentes autônomos.
O artigo de pesquisa menciona explicitamente o contexto de um agente autônomo no dispositivo que observa como o usuário está interagindo com uma interface de usuário e então é capaz de inferir qual é o objetivo (a intenção) dessas ações.
O artigo lista duas aplicações específicas para esta tecnologia:
Embora isso possa não ser usado imediatamente, mostra a direção que o Google está tomando, onde pequenos modelos em um dispositivo observarão as interações do usuário e, às vezes, intervirão para ajudá-los com base em suas intenções. A intenção aqui é usada no sentido de entender o que um usuário está tentando fazer.
Modelos pequenos, grandes resultados: alcançando extração de intenção superior por meio da decomposição (PDF)
Imagem em destaque da Shutterstock/ViDI Studio
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor
Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.
Falar com Especialista no WhatsApp