Edit Content
Click on the Edit Content button to edit/add the content.

Growth Strategies for Digital Businesses

Google anuncia uma nova era para pesquisa por voz

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Google Announces A New Era For Voice Search

Google anuncia uma nova era para pesquisa por voz

O Google anunciou uma atualização em sua pesquisa por voz, que muda a forma como as consultas de pesquisa por voz são processadas e classificadas. O novo modelo de IA utiliza a fala como entrada para o processo de busca e classificação, ignorando completamente a etapa em que a voz é convertida em texto.

O antigo sistema chamava-se Cascade ASR, onde uma consulta de voz era convertida em texto e depois submetida ao processo normal de classificação. O problema desse método é que ele está sujeito a erros. O processo de conversão de áudio em texto pode perder algumas dicas contextuais, o que pode então introduzir um erro.

O novo sistema é denominado Speech-to-Retrieval (S2R). É um modelo de aprendizado de máquina baseado em rede neural treinado em grandes conjuntos de dados de consultas e documentos de áudio emparelhados. Este treinamento permite processar consultas de pesquisa faladas (sem convertê-las em texto) e combiná-las diretamente com documentos relevantes.

Modelo de codificador duplo: duas redes neurais

O sistema usa duas redes neurais:

  1. Uma das redes neurais, chamada codificador de áudio, converte consultas faladas em uma representação em espaço vetorial de seu significado.
  2. A segunda rede, o codificador de documentos, representa informações escritas no mesmo tipo de formato vetorial.

Os dois codificadores aprendem a mapear consultas faladas e documentos de texto em um espaço semântico compartilhado, de modo que documentos de áudio e texto relacionados fiquem próximos um do outro de acordo com sua semelhança semântica.

Codificador de áudio

Speech-to-Retrieval (S2R) pega o áudio da consulta de voz de alguém e o transforma em um vetor (números) que representa o significado semântico do que a pessoa está pedindo.

O anúncio usa o exemplo da famosa pintura O Grito de Edvard Munch. Neste exemplo, a frase falada “a pintura do grito” torna-se um ponto no espaço vetorial próximo à informação sobre O Grito, de Edvard Munch (como o museu onde está, etc.).

Codificador de documentos

O codificador de documentos faz algo semelhante com documentos de texto, como páginas da web, transformando-os em seus próprios vetores que representam o assunto desses documentos.

Durante o treinamento do modelo, ambos os codificadores aprendem juntos, de modo que os vetores para correspondência de consultas de áudio e documentos acabem próximos um do outro, enquanto os não relacionados ficam distantes uns dos outros no espaço vetorial.

Representação vetorial rica

O anúncio do Google diz que os codificadores transformam o áudio e o texto em “ricas representações vetoriais”. Uma representação vetorial rica é uma incorporação que codifica o significado e o contexto do áudio e do texto. É chamado de “rico” porque contém a intenção e o contexto.

Para S2R, isso significa que o sistema não depende da correspondência de palavras-chave; ele “entende” conceitualmente o que o usuário está pedindo. Portanto, mesmo que alguém diga “mostre-me a pintura facial gritante de Munch”, a representação vetorial dessa consulta ainda terminará perto de documentos sobre O Grito.

De acordo com o anúncio do Google:

“A chave para este modelo é como ele é treinado. Usando um grande conjunto de dados de consultas de áudio emparelhadas e documentos relevantes, o sistema aprende a ajustar os parâmetros de ambos os codificadores simultaneamente.

O objetivo de treinamento garante que o vetor para uma consulta de áudio esteja geometricamente próximo dos vetores de seus documentos correspondentes no espaço de representação. Essa arquitetura permite que o modelo aprenda algo mais próximo da intenção essencial necessária para a recuperação diretamente do áudio, contornando a frágil etapa intermediária de transcrever cada palavra, que é o principal ponto fraco do design em cascata.”

Camada de classificação

S2R possui um processo de classificação, assim como a pesquisa normal baseada em texto. Quando alguém fala uma consulta, o áudio é primeiro processado pelo codificador de áudio pré-treinado, que o converte em uma forma numérica (vetor) que captura o que a pessoa quer dizer. Esse vetor é então comparado ao índice do Google para encontrar páginas cujos significados sejam mais semelhantes ao pedido falado.

Por exemplo, se alguém diz “a pintura do grito”, o modelo transforma essa frase em um vetor que representa o seu significado. O sistema então examina o índice de documentos e encontra páginas que possuem vetores com correspondência próxima, como informações sobre O Grito, de Edvard Munch.

Uma vez identificadas essas prováveis ​​correspondências, uma fase de classificação separada assume o controle. Esta parte do sistema combina as pontuações de similaridade do primeiro estágio com centenas de outros sinais de classificação de relevância e qualidade para decidir quais páginas devem ser classificadas em primeiro lugar.

Comparativo de mercado

O Google testou o novo sistema no Cascade ASR e em uma versão de pontuação perfeita do Cascade ASR chamada Cascade Groundtruth. S2R venceu Cascade ASR e quase igualou Cascade Groundtruth. O Google concluiu que o desempenho é promissor, mas que há espaço para melhorias adicionais.

A pesquisa por voz está ativa

Embora o benchmarking tenha revelado que há espaço para melhorias, o Google anunciou que o novo sistema está ativo e em uso em vários idiomas, chamando-o de uma nova era nas pesquisas. O sistema é provavelmente usado em inglês.

O Google explica:

“A pesquisa por voz agora é alimentada por nosso novo mecanismo Speech-to-Retrieval, que obtém respostas diretamente de sua consulta falada sem precisar convertê-la em texto primeiro, resultando em uma pesquisa mais rápida e confiável para todos.”

Leia mais:

​​Speech-to-Retrieval (S2R): uma nova abordagem para pesquisa por voz

Imagem em destaque da Shutterstock/ViDI Studio

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor