El laboratorio de investigación de inteligencia artificial OpenAI ha anunciado detalles sobre su última tecnología que verá grandes mejoras en la representación 3D.
OpenAI es la empresa detrás del generador de texto a imagen, DALL-E, que ahora ha centrado su atención en traducir mensajes de texto en nubes de puntos 3D, que llamará POINT-E.
De acuerdo a una papel (se abre en una pestaña nueva) publicado por OpenAI, POINT-E “produce modelos 3D en solo 1-2 minutos en una sola GPU”, en comparación con otras soluciones actuales que pueden tardar horas y requieren varias GPU.
OpenAI PUNTO-E
Un extracto del documento detalla el lugar actual de POINT-E en el mundo de la construcción de modelos 3D:
“Si bien nuestro método aún no alcanza el estado del arte en términos de calidad de la muestra, es uno o dos órdenes de magnitud más rápido para muestrear, lo que ofrece una compensación práctica para algunos casos de uso”.
Funciona generando una única vista sintética con un modelo de difusión de texto a imagen. Luego, se genera una nube de puntos 3D, que es más fácil de sintetizar, por lo tanto, la carga reducida en las GPU, aunque no captura detalles más pequeños, por lo tanto, la compensación mencionada en el documento.
Se ha entrenado una IA secundaria para aliviar algo de esto, pero el trabajo explica que esto «a veces puede pasar por alto partes delgadas/escasas de los objetos», como los tallos de una planta, dando la ilusión de flores flotantes.
OpenAI promete haber entrenado la inteligencia artificial en varios millones de modelos 3D y sus metadatos, aunque sus casos de uso por ahora siguen siendo bastante limitados.
Uno de esos ejemplos incluye la representación de objetos del mundo real para la impresión 3D, aunque a medida que la tecnología se desarrolla y se vuelve más refinada, es probable que la veamos utilizada en casos más avanzados, como juegos e incluso televisión.
El código fuente abierto del proyecto está disponible en GitHub (se abre en una pestaña nueva),