Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

O Google anunciou uma atualização em sua pesquisa por voz, que muda a forma como as consultas de pesquisa por voz são processadas e classificadas. O novo modelo de IA utiliza a fala como entrada para o processo de busca e classificação, ignorando completamente a etapa em que a voz é convertida em texto.
O antigo sistema chamava-se Cascade ASR, onde uma consulta de voz era convertida em texto e depois submetida ao processo normal de classificação. O problema desse método é que ele está sujeito a erros. O processo de conversão de áudio em texto pode perder algumas dicas contextuais, o que pode então introduzir um erro.
O novo sistema é denominado Speech-to-Retrieval (S2R). É um modelo de aprendizado de máquina baseado em rede neural treinado em grandes conjuntos de dados de consultas e documentos de áudio emparelhados. Este treinamento permite processar consultas de pesquisa faladas (sem convertê-las em texto) e combiná-las diretamente com documentos relevantes.
O sistema usa duas redes neurais:
Os dois codificadores aprendem a mapear consultas faladas e documentos de texto em um espaço semântico compartilhado, de modo que documentos de áudio e texto relacionados fiquem próximos um do outro de acordo com sua semelhança semântica.
Speech-to-Retrieval (S2R) pega o áudio da consulta de voz de alguém e o transforma em um vetor (números) que representa o significado semântico do que a pessoa está pedindo.
O anúncio usa o exemplo da famosa pintura O Grito de Edvard Munch. Neste exemplo, a frase falada “a pintura do grito” torna-se um ponto no espaço vetorial próximo à informação sobre O Grito, de Edvard Munch (como o museu onde está, etc.).
O codificador de documentos faz algo semelhante com documentos de texto, como páginas da web, transformando-os em seus próprios vetores que representam o assunto desses documentos.
Durante o treinamento do modelo, ambos os codificadores aprendem juntos, de modo que os vetores para correspondência de consultas de áudio e documentos acabem próximos um do outro, enquanto os não relacionados ficam distantes uns dos outros no espaço vetorial.
O anúncio do Google diz que os codificadores transformam o áudio e o texto em “ricas representações vetoriais”. Uma representação vetorial rica é uma incorporação que codifica o significado e o contexto do áudio e do texto. É chamado de “rico” porque contém a intenção e o contexto.
Para S2R, isso significa que o sistema não depende da correspondência de palavras-chave; ele “entende” conceitualmente o que o usuário está pedindo. Portanto, mesmo que alguém diga “mostre-me a pintura facial gritante de Munch”, a representação vetorial dessa consulta ainda terminará perto de documentos sobre O Grito.
De acordo com o anúncio do Google:
“A chave para este modelo é como ele é treinado. Usando um grande conjunto de dados de consultas de áudio emparelhadas e documentos relevantes, o sistema aprende a ajustar os parâmetros de ambos os codificadores simultaneamente.
O objetivo de treinamento garante que o vetor para uma consulta de áudio esteja geometricamente próximo dos vetores de seus documentos correspondentes no espaço de representação. Essa arquitetura permite que o modelo aprenda algo mais próximo da intenção essencial necessária para a recuperação diretamente do áudio, contornando a frágil etapa intermediária de transcrever cada palavra, que é o principal ponto fraco do design em cascata.”
S2R possui um processo de classificação, assim como a pesquisa normal baseada em texto. Quando alguém fala uma consulta, o áudio é primeiro processado pelo codificador de áudio pré-treinado, que o converte em uma forma numérica (vetor) que captura o que a pessoa quer dizer. Esse vetor é então comparado ao índice do Google para encontrar páginas cujos significados sejam mais semelhantes ao pedido falado.
Por exemplo, se alguém diz “a pintura do grito”, o modelo transforma essa frase em um vetor que representa o seu significado. O sistema então examina o índice de documentos e encontra páginas que possuem vetores com correspondência próxima, como informações sobre O Grito, de Edvard Munch.
Uma vez identificadas essas prováveis correspondências, uma fase de classificação separada assume o controle. Esta parte do sistema combina as pontuações de similaridade do primeiro estágio com centenas de outros sinais de classificação de relevância e qualidade para decidir quais páginas devem ser classificadas em primeiro lugar.
O Google testou o novo sistema no Cascade ASR e em uma versão de pontuação perfeita do Cascade ASR chamada Cascade Groundtruth. S2R venceu Cascade ASR e quase igualou Cascade Groundtruth. O Google concluiu que o desempenho é promissor, mas que há espaço para melhorias adicionais.
Embora o benchmarking tenha revelado que há espaço para melhorias, o Google anunciou que o novo sistema está ativo e em uso em vários idiomas, chamando-o de uma nova era nas pesquisas. O sistema é provavelmente usado em inglês.
O Google explica:
“A pesquisa por voz agora é alimentada por nosso novo mecanismo Speech-to-Retrieval, que obtém respostas diretamente de sua consulta falada sem precisar convertê-la em texto primeiro, resultando em uma pesquisa mais rápida e confiável para todos.”
Leia mais:
Speech-to-Retrieval (S2R): uma nova abordagem para pesquisa por voz
Imagem em destaque da Shutterstock/ViDI Studio
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor
We use cookies to improve your experience on our site. By using our site, you consent to cookies.
Manage your cookie preferences below:
Essential cookies enable basic functions and are necessary for the proper function of the website.
These cookies are needed for adding comments on this website.
Statistics cookies collect information anonymously. This information helps us understand how visitors use our website.
Google Analytics is a powerful tool that tracks and analyzes website traffic for informed marketing decisions.
Service URL: policies.google.com
You can find more information in our Cookie Policy and .