• pancarta

OpenAI Point E: crea unha nube de puntos 3D a partir de formas de onda complexas en minutos nunha única GPU

Nun novo artigo Point-E: Un sistema para xerar nubes de puntos 3D a partir de sinais complexos, o equipo de investigación de OpenAI presenta Point E, un sistema de síntese condicional de texto de nube de puntos 3D que usa modelos de difusión para crear formas 3D variadas e complexas impulsadas por texto complexo. indicios.en minutos nunha única GPU.
O sorprendente rendemento dos modernos modelos de xeración de imaxes estimulou a investigación na xeración de obxectos de texto 3D.Non obstante, a diferenza dos modelos 2D, que poden xerar saída en minutos ou mesmo segundos, os modelos xeradores de obxectos normalmente requiren varias horas de traballo da GPU para xerar unha única mostra.
Nun novo artigo Point-E: Un sistema para xerar nubes de puntos 3D a partir de sinais complexos, o equipo de investigación de OpenAI presenta Point·E, un sistema de síntese condicional textual para nubes de puntos 3D.Este novo enfoque utiliza un modelo de propagación para crear formas 3D variadas e complexas a partir de sinais de texto complexos en só un ou dous minutos nunha única GPU.
O equipo céntrase no reto de converter texto en 3D, que é fundamental para democratizar a creación de contidos en 3D para aplicacións do mundo real que van desde a realidade virtual e os xogos ata o deseño industrial.Os métodos existentes para converter texto en 3D divídense en dúas categorías, cada unha das cales ten os seus inconvenientes: 1) os modelos xerativos pódense usar para xerar mostras de forma eficiente, pero non poden escalar de forma eficiente para sinais de texto diversos e complexos;2) un modelo de texto e imaxe adestrado previamente para manexar indicios de texto complexos e variados, pero este enfoque é computacionalmente intensivo e o modelo pode quedar facilmente atrapado en mínimos locais que non se corresponden con obxectos 3D significativos ou coherentes.
Polo tanto, o equipo explorou un enfoque alternativo que pretende combinar os puntos fortes dos dous enfoques anteriores, utilizando un modelo de difusión de texto a imaxe adestrado nun gran conxunto de pares texto-imaxe (que lle permite manexar sinais diversos e complexos) e un modelo de difusión de imaxes 3D adestrado nun conxunto máis pequeno de pares texto-imaxe.conxunto de datos de par imaxe-3D.O modelo de texto a imaxe mostra primeiro a imaxe de entrada para crear unha única representación sintética, e o modelo de imaxe a 3D crea unha nube de puntos 3D baseada na imaxe seleccionada.
A pila xerativa do comando baséase en marcos xerativos propostos recentemente para xerar imaxes condicionalmente a partir de texto (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Usan un modelo GLIDE con 3.000 millóns de parámetros GLIDE (Nichol et al., 2021), afinado en modelos 3D renderizados, como o seu modelo de transformación de texto a imaxe, e un conxunto de modelos de difusión que xeran nubes de puntos RGB como o seu modelo de transformación. modelo de transformación.imaxes a imaxe.Modelos 3D.
Aínda que traballos anteriores utilizaban arquitecturas 3D para procesar nubes de puntos, os investigadores utilizaron un modelo simple baseado en transdutores (Vaswani et al., 2017) para mellorar a eficiencia.Na súa arquitectura de modelo de difusión, as imaxes de nubes de puntos introdúcense primeiro nun modelo ViT-L/14 CLIP adestrado previamente e despois as mallas de saída introdúcense ao conversor como marcadores.
No seu estudo empírico, o equipo comparou o método Point·E proposto con outros modelos 3D xerativos sobre sinais de puntuación a partir de conxuntos de datos de detección, segmentación e sinatura de obxectos COCO.Os resultados confirman que Point·E é capaz de xerar formas 3D diversas e complexas a partir de sinais de texto complexos e acelerar o tempo de inferencia nunha ou dúas ordes de magnitude.O equipo espera que o seu traballo inspire máis investigacións sobre a síntese de textos en 3D.
Un modelo de propagación de nubes de puntos adestrados previamente e un código de avaliación están dispoñibles no GitHub do proxecto.Document Point-E: un sistema para crear nubes de puntos 3D a partir de pistas complexas está en arXiv.
Sabemos que non queres perderte ningunha noticia ou descubrimento científico.Subscríbete ao noso popular boletín semanal Synced Global AI para recibir actualizacións semanais da IA.


Hora de publicación: 28-12-2022