Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

O Google anunciou uma atualização em sua pesquisa por voz, que muda a forma como as consultas de pesquisa por voz são processadas e classificadas. O novo modelo de IA utiliza a fala como entrada para o processo de busca e classificação, ignorando completamente a etapa em que a voz é convertida em texto.
O antigo sistema chamava-se Cascade ASR, onde uma consulta de voz era convertida em texto e depois submetida ao processo normal de classificação. O problema desse método é que ele está sujeito a erros. O processo de conversão de áudio em texto pode perder algumas dicas contextuais, o que pode então introduzir um erro.
O novo sistema é denominado Speech-to-Retrieval (S2R). É um modelo de aprendizado de máquina baseado em rede neural treinado em grandes conjuntos de dados de consultas e documentos de áudio emparelhados. Este treinamento permite processar consultas de pesquisa faladas (sem convertê-las em texto) e combiná-las diretamente com documentos relevantes.
O sistema usa duas redes neurais:
Os dois codificadores aprendem a mapear consultas faladas e documentos de texto em um espaço semântico compartilhado, de modo que documentos de áudio e texto relacionados fiquem próximos um do outro de acordo com sua semelhança semântica.
Speech-to-Retrieval (S2R) pega o áudio da consulta de voz de alguém e o transforma em um vetor (números) que representa o significado semântico do que a pessoa está pedindo.
O anúncio usa o exemplo da famosa pintura O Grito de Edvard Munch. Neste exemplo, a frase falada “a pintura do grito” torna-se um ponto no espaço vetorial próximo à informação sobre O Grito, de Edvard Munch (como o museu onde está, etc.).
O codificador de documentos faz algo semelhante com documentos de texto, como páginas da web, transformando-os em seus próprios vetores que representam o assunto desses documentos.
Durante o treinamento do modelo, ambos os codificadores aprendem juntos, de modo que os vetores para correspondência de consultas de áudio e documentos acabem próximos um do outro, enquanto os não relacionados ficam distantes uns dos outros no espaço vetorial.
O anúncio do Google diz que os codificadores transformam o áudio e o texto em “ricas representações vetoriais”. Uma representação vetorial rica é uma incorporação que codifica o significado e o contexto do áudio e do texto. É chamado de “rico” porque contém a intenção e o contexto.
Para S2R, isso significa que o sistema não depende da correspondência de palavras-chave; ele “entende” conceitualmente o que o usuário está pedindo. Portanto, mesmo que alguém diga “mostre-me a pintura facial gritante de Munch”, a representação vetorial dessa consulta ainda terminará perto de documentos sobre O Grito.
De acordo com o anúncio do Google:
“A chave para este modelo é como ele é treinado. Usando um grande conjunto de dados de consultas de áudio emparelhadas e documentos relevantes, o sistema aprende a ajustar os parâmetros de ambos os codificadores simultaneamente.
O objetivo de treinamento garante que o vetor para uma consulta de áudio esteja geometricamente próximo dos vetores de seus documentos correspondentes no espaço de representação. Essa arquitetura permite que o modelo aprenda algo mais próximo da intenção essencial necessária para a recuperação diretamente do áudio, contornando a frágil etapa intermediária de transcrever cada palavra, que é o principal ponto fraco do design em cascata.”
S2R possui um processo de classificação, assim como a pesquisa normal baseada em texto. Quando alguém fala uma consulta, o áudio é primeiro processado pelo codificador de áudio pré-treinado, que o converte em uma forma numérica (vetor) que captura o que a pessoa quer dizer. Esse vetor é então comparado ao índice do Google para encontrar páginas cujos significados sejam mais semelhantes ao pedido falado.
Por exemplo, se alguém diz “a pintura do grito”, o modelo transforma essa frase em um vetor que representa o seu significado. O sistema então examina o índice de documentos e encontra páginas que possuem vetores com correspondência próxima, como informações sobre O Grito, de Edvard Munch.
Uma vez identificadas essas prováveis correspondências, uma fase de classificação separada assume o controle. Esta parte do sistema combina as pontuações de similaridade do primeiro estágio com centenas de outros sinais de classificação de relevância e qualidade para decidir quais páginas devem ser classificadas em primeiro lugar.
O Google testou o novo sistema no Cascade ASR e em uma versão de pontuação perfeita do Cascade ASR chamada Cascade Groundtruth. S2R venceu Cascade ASR e quase igualou Cascade Groundtruth. O Google concluiu que o desempenho é promissor, mas que há espaço para melhorias adicionais.
Embora o benchmarking tenha revelado que há espaço para melhorias, o Google anunciou que o novo sistema está ativo e em uso em vários idiomas, chamando-o de uma nova era nas pesquisas. O sistema é provavelmente usado em inglês.
O Google explica:
“A pesquisa por voz agora é alimentada por nosso novo mecanismo Speech-to-Retrieval, que obtém respostas diretamente de sua consulta falada sem precisar convertê-la em texto primeiro, resultando em uma pesquisa mais rápida e confiável para todos.”
Leia mais:
Speech-to-Retrieval (S2R): uma nova abordagem para pesquisa por voz
Imagem em destaque da Shutterstock/ViDI Studio
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor