Home / Nosso Blog
Leve seu marketing digital para o próximo nível com estratégias baseadas em dados e soluções inovadoras. Vamos criar algo incrível juntos!
Acompanhe semanalmente nosso canal no youtube com vídeos de marketing e performance e se inscreva-se

Apresentando o D4RT, um modelo unificado de IA para reconstrução de cenas 4D e rastreamento no espaço e no tempo.
Sempre que olhamos para o mundo, realizamos um feito extraordinário de memória e previsão. Vemos e compreendemos as coisas como são num determinado momento, como eram há um momento e como serão no momento seguinte. O nosso modelo mental do mundo mantém uma representação persistente da realidade e usamos esse modelo para tirar conclusões intuitivas sobre a relação causal entre o passado, o presente e o futuro.
Para ajudar as máquinas a ver o mundo mais como nós, podemos equipá-las com câmeras, mas isso apenas resolve o problema de entrada. Para dar sentido a esta entrada, os computadores devem resolver um problema complexo e inverso: gravar um vídeo – que é uma sequência de projeções planas em 2D – e recuperar ou compreender o rico e volumétrico mundo 3D, em movimento.
Hoje estamos apresentando D4RT (Reconstrução e Rastreamento Dinâmico 4D)um novo modelo de IA que unifica a reconstrução dinâmica de cenas em uma estrutura única e eficiente, aproximando-nos da próxima fronteira da inteligência artificial: a percepção total de nossa realidade dinâmica.
Para compreender uma cena dinâmica capturada em um vídeo 2D, um modelo de IA deve rastrear cada pixel de cada objeto à medida que ele se move pelas três dimensões do espaço e pela quarta dimensão do tempo. Além disso, deve desembaraçar esse movimento do movimento da câmera, mantendo uma representação coerente mesmo quando os objetos se movem uns atrás dos outros ou saem completamente do enquadramento. Tradicionalmente, capturar este nível de geometria e movimento a partir de vídeos 2D requer processos computacionalmente intensivos ou uma colcha de retalhos de modelos de IA especializados – alguns para profundidade, outros para movimento ou ângulos de câmera – resultando em reconstruções de IA que são lentas e fragmentadas.
A arquitetura simplificada e o novo mecanismo de consulta do D4RT o colocam na vanguarda da reconstrução 4D, sendo até 300 vezes mais eficiente que os métodos anteriores – rápido o suficiente para aplicações em tempo real em robótica, realidade aumentada e muito mais.
D4RT opera como uma arquitetura de transformador codificador-decodificador unificado. O codificador primeiro processa o vídeo de entrada em uma representação compactada da geometria e do movimento da cena. Ao contrário dos sistemas mais antigos que empregavam módulos separados para tarefas diferentes, o D4RT calcula apenas o que precisa usando um mecanismo de consulta flexível centrado em uma única questão fundamental:
“Onde está um determinado pixel do vídeo localizado no espaço 3D de forma arbitrária tempovisto de um câmera escolhida?”
Construindo nosso trabalho anteriorum decodificador leve consulta essa representação para responder instâncias específicas da questão colocada. Como as consultas são independentes, elas podem ser processadas em paralelo em hardware moderno de IA. Isso torna o D4RT extremamente rápido e escalável, seja rastreando apenas alguns pontos ou reconstruindo uma cena inteira.
”Negócio desatualizado ele não está apenas perdendo dinheiro, mas está perdendo a chance de fazer a diferença ao mundo”
Produtor