Meta chercheurs transforment les images uniques en environnements 3D pour les casques VR

Image: Meta Reality Labs

Les méta chercheurs montrent comment l'IA générative peut créer des environnements VR réalistes à partir d'une seule image.

Imaginez pouvoir créer un environnement 3D à partir d'une seule image, puis l'explorer avec Meta Quest ou l'utiliser comme environnement familial.

Une équipe de chercheurs de Reality Labs Zurich veut faire de cette vision une réalité et présente une nouvelle approche pour y arriver.

Bien que les modèles d'IA génératifs existants puissent créer des vidéos à partir d'une seule image, ils ont du mal à générer des scènes entièrement immersives, selon le document de recherche publié la semaine dernière.

Le pipeline développé par les chercheurs surperformait des méthodes basées sur la synthèse vidéo de pointe le long de plusieurs mesures de qualité d'image quantitatives, tout en nécessitant un effort de formation minimal et en fonctionnant sur des modèles génératifs existants.

« Notre aperçu clé est que la tâche de générer un environnement 3D à partir d'une seule image, qui est intrinsèquement complexe et ambiguë, peut être décomposée en une série de sous-problèmes plus gérables, chacun pouvant être abordé avec les techniques existantes », écrivez l'équipe de recherche de Katja Scwarz, Denis Rozumny, Samuel Rota Bulo, Lorenzo Porzi et Peter Kontschieder.

Comment une seule image devient un environnement VR à 6 dof

Les chercheurs expliquent leur approche comme suit: « Notre processus implique deux étapes: la génération de panoramas cohérents en utilisant un modèle de diffusion pré-formé et les soulevant en 3D avec un estimateur de profondeur métrique. Nous remplissons ensuite les régions non observées en conditionnant le modèle de dénigrement sur les clichés de points rendues, nécessitant un minimum minimal. »

Le résultat est un environnement 3D rendu à l'aide de éclaboussures gaussiennes qui peuvent être visualisées et naviguées dans un cube de 2 mètres (6,5 pieds) sur un casque VR.

La méthode fonctionne avec les images synthétiques et les photographies. Même les descriptions textuelles d'une scène peuvent être utilisées comme entrée pour générer des environnements 3D de haute qualité adaptés aux casques VR.

Le document de recherche mentionne également certaines limitations et défis. Par exemple, il est difficile d'étendre la zone navigable au-delà de deux mètres, car cela augmente considérablement la complexité de la tâche. De plus, le pipeline ne prend pas encore en charge la synthèse de scène en temps réel. Cependant, une fois l'environnement Gaussian Splats créé, il peut être affiché en temps réel sur un appareil VR, écrit l'équipe de recherche.

On ne sait pas quand une telle technologie pourrait être incorporée dans les produits Quest. Cependant, la commercialisation ne semble pas trop éloignée.

Vous pouvez trouver plus d'exemples vidéo sur cette page.