Google anuncia uma nova era para pesquisa por voz

Growth Strategies for Digital Businesses

Google anuncia uma nova era para pesquisa por voz

Home / Nosso Blog

Recent Blog

29 de novembro de 2025

Google amplia exibição de links no AI Mode

29 de novembro de 2025

Os compradores estão perguntando à IA o que vestir. Sua marca está no chat?

29 de novembro de 2025

Um guia para fundamentos de pesquisa generativa de IA

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Cleiton Oliveira - Marketing e Performance

😱 Esqueça PowerPoint: IA Apresenta Slides e RESPONDE...

Google Announces A New Era For Voice Search

Google anuncia uma nova era para pesquisa por voz

outubro 21, 2025
7:53 am

O Google anunciou uma atualização em sua pesquisa por voz, que muda a forma como as consultas de pesquisa por voz são processadas e classificadas. O novo modelo de IA utiliza a fala como entrada para o processo de busca e classificação, ignorando completamente a etapa em que a voz é convertida em texto.

O antigo sistema chamava-se Cascade ASR, onde uma consulta de voz era convertida em texto e depois submetida ao processo normal de classificação. O problema desse método é que ele está sujeito a erros. O processo de conversão de áudio em texto pode perder algumas dicas contextuais, o que pode então introduzir um erro.

O novo sistema é denominado Speech-to-Retrieval (S2R). É um modelo de aprendizado de máquina baseado em rede neural treinado em grandes conjuntos de dados de consultas e documentos de áudio emparelhados. Este treinamento permite processar consultas de pesquisa faladas (sem convertê-las em texto) e combiná-las diretamente com documentos relevantes.

Modelo de codificador duplo: duas redes neurais

O sistema usa duas redes neurais:

Uma das redes neurais, chamada codificador de áudio, converte consultas faladas em uma representação em espaço vetorial de seu significado.
A segunda rede, o codificador de documentos, representa informações escritas no mesmo tipo de formato vetorial.

Os dois codificadores aprendem a mapear consultas faladas e documentos de texto em um espaço semântico compartilhado, de modo que documentos de áudio e texto relacionados fiquem próximos um do outro de acordo com sua semelhança semântica.

Codificador de áudio

Speech-to-Retrieval (S2R) pega o áudio da consulta de voz de alguém e o transforma em um vetor (números) que representa o significado semântico do que a pessoa está pedindo.

O anúncio usa o exemplo da famosa pintura O Grito de Edvard Munch. Neste exemplo, a frase falada “a pintura do grito” torna-se um ponto no espaço vetorial próximo à informação sobre O Grito, de Edvard Munch (como o museu onde está, etc.).

Codificador de documentos

O codificador de documentos faz algo semelhante com documentos de texto, como páginas da web, transformando-os em seus próprios vetores que representam o assunto desses documentos.

Durante o treinamento do modelo, ambos os codificadores aprendem juntos, de modo que os vetores para correspondência de consultas de áudio e documentos acabem próximos um do outro, enquanto os não relacionados ficam distantes uns dos outros no espaço vetorial.

Representação vetorial rica

O anúncio do Google diz que os codificadores transformam o áudio e o texto em “ricas representações vetoriais”. Uma representação vetorial rica é uma incorporação que codifica o significado e o contexto do áudio e do texto. É chamado de “rico” porque contém a intenção e o contexto.

Para S2R, isso significa que o sistema não depende da correspondência de palavras-chave; ele “entende” conceitualmente o que o usuário está pedindo. Portanto, mesmo que alguém diga “mostre-me a pintura facial gritante de Munch”, a representação vetorial dessa consulta ainda terminará perto de documentos sobre O Grito.

De acordo com o anúncio do Google:

“A chave para este modelo é como ele é treinado. Usando um grande conjunto de dados de consultas de áudio emparelhadas e documentos relevantes, o sistema aprende a ajustar os parâmetros de ambos os codificadores simultaneamente.
O objetivo de treinamento garante que o vetor para uma consulta de áudio esteja geometricamente próximo dos vetores de seus documentos correspondentes no espaço de representação. Essa arquitetura permite que o modelo aprenda algo mais próximo da intenção essencial necessária para a recuperação diretamente do áudio, contornando a frágil etapa intermediária de transcrever cada palavra, que é o principal ponto fraco do design em cascata.”

Camada de classificação

S2R possui um processo de classificação, assim como a pesquisa normal baseada em texto. Quando alguém fala uma consulta, o áudio é primeiro processado pelo codificador de áudio pré-treinado, que o converte em uma forma numérica (vetor) que captura o que a pessoa quer dizer. Esse vetor é então comparado ao índice do Google para encontrar páginas cujos significados sejam mais semelhantes ao pedido falado.

Por exemplo, se alguém diz “a pintura do grito”, o modelo transforma essa frase em um vetor que representa o seu significado. O sistema então examina o índice de documentos e encontra páginas que possuem vetores com correspondência próxima, como informações sobre O Grito, de Edvard Munch.

Uma vez identificadas essas prováveis correspondências, uma fase de classificação separada assume o controle. Esta parte do sistema combina as pontuações de similaridade do primeiro estágio com centenas de outros sinais de classificação de relevância e qualidade para decidir quais páginas devem ser classificadas em primeiro lugar.

Comparativo de mercado

O Google testou o novo sistema no Cascade ASR e em uma versão de pontuação perfeita do Cascade ASR chamada Cascade Groundtruth. S2R venceu Cascade ASR e quase igualou Cascade Groundtruth. O Google concluiu que o desempenho é promissor, mas que há espaço para melhorias adicionais.

A pesquisa por voz está ativa

Embora o benchmarking tenha revelado que há espaço para melhorias, o Google anunciou que o novo sistema está ativo e em uso em vários idiomas, chamando-o de uma nova era nas pesquisas. O sistema é provavelmente usado em inglês.

O Google explica:

“A pesquisa por voz agora é alimentada por nosso novo mecanismo Speech-to-Retrieval, que obtém respostas diretamente de sua consulta falada sem precisar convertê-la em texto primeiro, resultando em uma pesquisa mais rápida e confiável para todos.”

Imagem em destaque da Shutterstock/ViDI Studio

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

(14) 98145-8847

Growth Strategies for Digital Businesses

Google anuncia uma nova era para pesquisa por voz

Recent Blog

Google amplia exibição de links no AI Mode

Os compradores estão perguntando à IA o que vestir. Sua marca está no chat?

Um guia para fundamentos de pesquisa generativa de IA

Transforme seu negócio com a Atualizex

Siga nosso Canal

😱 Esqueça PowerPoint: IA Apresenta Slides e RESPONDE...

Google anuncia uma nova era para pesquisa por voz

Modelo de codificador duplo: duas redes neurais

Codificador de áudio

Codificador de documentos

Representação vetorial rica

Camada de classificação

Comparativo de mercado

A pesquisa por voz está ativa

Atualizex Marketing e Performance

Impulsionando o crescimento digital com inovação e estratégia

Links rápidos

Serviços

Informações de contato

Mídias Sociais