Como sistemas de recomendação como o Google Discover podem funcionar

Home / Nosso Blog

Transforme seu negócio com a Atualizex

Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!

Siga nosso Canal

Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Play Video

Como sistemas de recomendação como o Google Discover podem funcionar

O Google Discover é em grande parte um mistério para os editores e para a comunidade de marketing de busca, embora o Google tenha publicado orientações oficiais sobre o que é e o que eles acham que os editores deveriam saber sobre ele. No entanto, é tão misterioso que geralmente nem é considerado um sistema de recomendação, mas é isso que é. Esta é uma revisão de um artigo de pesquisa clássico que mostra como dimensionar um sistema de recomendação. Embora seja para o YouTube, não é difícil imaginar como esse tipo de sistema pode ser adaptado ao Google Discover.

Sistemas de recomendação

O Google Discover pertence à classe de sistemas conhecidos como sistemas de recomendação. Um sistema de recomendação clássico de que me lembro é o sistema MovieLens de 1997. É um projeto do departamento de ciências de uma universidade que permitia aos usuários avaliar filmes e usaria essas classificações para recomendar filmes para assistir. A maneira como funcionou foi: as pessoas que tendem a gostar desse tipo de filme também tendem a gostar desses outros tipos de filme. Mas esses tipos de algoritmos têm limitações que os fazem ficar aquém da escala necessária para personalizar recomendações para o YouTube ou Google Discover.

Modelo de sistema de recomendação de duas torres

O estilo moderno de sistemas de recomendação é às vezes chamado de arquitetura de duas torres ou modelo de duas torres. O modelo Duas Torres surgiu como uma solução para o YouTube, embora o artigo de pesquisa original (Deep Neural Networks for YouTube Recommendations) não utilize esse termo.

Pode parecer contra-intuitivo recorrer ao YouTube para entender como funciona o algoritmo Google Discover, mas o fato é que o sistema que o Google desenvolveu para o YouTube se tornou a base para escalar um sistema de recomendação para um ambiente onde grandes quantidades de conteúdo são geradas a cada hora do dia, 24 horas por dia.

É chamada de arquitetura de Duas Torres porque existem duas representações que se comparam, como duas torres.

Neste modelo, que trata da “recuperação” inicial do conteúdo do banco de dados, uma rede neural processa as informações do usuário para produzir uma incorporação do usuário, enquanto os itens de conteúdo são representados por suas próprias incorporações. Essas duas representações são combinadas usando pontuação de similaridade em vez de serem combinadas dentro de uma única rede.

Vou repetir que o trabalho de pesquisa não se refere à arquitetura como uma arquitetura de Duas Torres, é uma descrição para esse tipo de abordagem que foi criada posteriormente. Portanto, embora o artigo de pesquisa não use a palavra torre, continuarei usando-a, pois facilita a visualização do que está acontecendo nesse tipo de sistema de recomendação.

Torre do usuário
A User Tower processa itens como histórico de exibição do usuário, tokens de pesquisa, localização e dados demográficos básicos. Ele usa esses dados para criar uma representação vetorial que mapeia os interesses específicos do usuário em um espaço matemático.

Torre de Itens
A Item Tower representa conteúdo usando vetores de incorporação aprendidos. Na implementação original do YouTube, eles foram treinados junto com o modelo do usuário e armazenados para recuperação rápida. Isso permite que o sistema compare as “coordenadas” de um usuário com milhões de “coordenadas” de vídeo instantaneamente, sem precisar executar uma análise complexa em cada vídeo cada vez que você atualizar seu feed.

O problema do conteúdo novo

O artigo de pesquisa do Google oferece uma abordagem interessante sobre o frescor. O problema do frescor é descrito como uma troca entre exploração e exploração. O sistema de recomendação do YouTube precisa equilibrar entre mostrar aos usuários conteúdo que já é conhecido como popular (exploração) e expô-los a conteúdo novo e não comprovado (exploração). O que motiva o Google a mostrar conteúdo novo, mas não comprovado, pelo menos no contexto do YouTube, é que os usuários mostram uma forte preferência por conteúdo novo e fresco.

O artigo de pesquisa explica por que conteúdo novo é importante:

“Muitas horas de vídeos são enviadas a cada segundo para o YouTube. Recomendar esse conteúdo enviado recentemente (“fresco”) é extremamente importante para o YouTube como produto. Observamos consistentemente que os usuários preferem conteúdo novo, embora não às custas da relevância.”

Essa tendência de mostrar conteúdo novo parece ser verdadeira para o Google Discover, onde o Google tende a mostrar conteúdo novo sobre tópicos que são tendências pessoais dos usuários. Você já percebeu como o Google Discover tende a favorecer novos conteúdos? Os insights que os pesquisadores tiveram sobre as preferências do usuário provavelmente serão transferidos para o sistema de recomendação do Google Discover. A conclusão aqui é que a produção regular de conteúdo pode ser útil para fazer com que as páginas da web apareçam no Google Discover.

Uma visão interessante neste artigo de pesquisa, e não sei se ainda é verdade, mas ainda é interessante, é que os pesquisadores afirmam que os algoritmos de aprendizado de máquina mostram uma tendência implícita em relação ao conteúdo existente mais antigo porque são treinados em dados históricos.

Eles explicam:

“Os sistemas de aprendizado de máquina geralmente exibem uma tendência implícita em relação ao passado porque são treinados para prever o comportamento futuro a partir de exemplos históricos.”

A rede neural é treinada em vídeos anteriores e eles aprendem que coisas de um ou dois dias atrás eram populares. Mas isso cria um preconceito para coisas que aconteceram no passado. A maneira como eles resolveram o problema de atualização foi quando o sistema recomenda vídeos a um usuário (veiculação), esse recurso baseado em tempo é definido como zero dias atrás (ou ligeiramente negativo). Isto sinaliza ao modelo que ele está fazendo uma previsão bem no final da janela de treinamento, forçando-o essencialmente a prever o que é popular no momento, em vez do que era popular em média no passado.

Precisão dos dados de clique

O artigo de pesquisa fundamental do Google também fornece insights sobre sinais implícitos de feedback do usuário, que é uma referência aos dados de cliques. Os pesquisadores dizem que esse tipo de dados raramente fornece informações precisas sobre a satisfação do usuário.

Os pesquisadores escrevem:

“Ruído: o comportamento histórico do usuário no YouTube é inerentemente difícil de prever devido à dispersão e a uma variedade de fatores externos não observáveis. Raramente obtemos a verdade básica da satisfação do usuário e, em vez disso, modelamos sinais de feedback implícitos ruidosos. Além disso, os metadados associados ao conteúdo são mal estruturados sem uma ontologia bem definida. Nossos algoritmos precisam
para ser robusto a essas características específicas de nossos dados de treinamento.”

Os pesquisadores concluem o artigo afirmando que esta abordagem aos sistemas de recomendação ajudou a aumentar o tempo de exibição do usuário e provou ser mais eficaz do que outros sistemas.

Eles escrevem:

“Descrevemos nossa arquitetura de rede neural profunda para recomendação de vídeos do YouTube, dividida em dois problemas distintos: geração e classificação de candidatos.
Nosso modelo de filtragem colaborativa profunda é capaz de assimilar efetivamente muitos sinais e modelar sua interação com camadas de profundidade, superando as abordagens anteriores de fatoração de matrizes usadas no YouTube.

Demonstramos que usar a idade do exemplo de treinamento como um recurso de entrada remove um viés inerente em relação ao passado e permite que o modelo represente o comportamento dependente do tempo de vídeos populares. Isso melhorou os resultados de precisão de validação off-line e aumentou drasticamente o tempo de exibição em vídeos enviados recentemente em testes A/B.

A classificação é um problema de aprendizado de máquina mais clássico, mas nossa abordagem de aprendizado profundo superou os métodos lineares e baseados em árvore anteriores para previsão do tempo de exibição. Os sistemas de recomendação, em particular, beneficiam-se de recursos especializados que descrevem o comportamento anterior do usuário em relação aos itens. Redes neurais profundas requerem representações especiais de características categóricas e contínuas que transformamos com incorporações e normalização quantílica, respectivamente.”

Embora este artigo de pesquisa tenha dez anos, ele ainda oferece insights sobre como funcionam os sistemas de recomendação e elimina um pouco do mistério dos sistemas de recomendação como o Google Discover. Leia o artigo de pesquisa original: Redes Neurais Profundas para Recomendações do YouTube

Imagem em destaque por Shutterstock/Andrii Iemelianenko

Fonte

”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”

Atualizex Marketing e Performance

Produtor

Quer saber quanto investir para gerar mais clientes?

Fale agora com um especialista da Atualizex e receba uma análise estratégica personalizada para o seu negócio.

Falar com Especialista no WhatsApp

Compartilhe nas Redes Sociais

Facebook
Twitter
LinkedIn
Threads
Telegram
WhatsApp
Reddit
X
Email
Print
Tumblr
WeCreativez WhatsApp Support
Nossa equipe de suporte ao cliente está aqui para responder às suas perguntas. Pergunte-nos o que quiser!
👋 Olá, como posso ajudar?