DeepMind, le laboratoire de recherche sur l'IA de Google, a annoncé la sortie de Genie 3, un nouveau système d'IA capable de générer des environnements virtuels interactifs en temps réel – et de nous rapprocher du holodeck.
Google dit dans une mise à jour DeepMind qu'avec une simple invite de texte, Genie 3 peut créer des scènes dynamiques et navigables qui fonctionnent à 24 images par seconde en résolution 720p.
Certes, Genie 3 ne peut être utilisée que sur des moniteurs à écran plat, donc on ne sait pas quand nous obtiendrons quelque chose de similaire pour les casques VR. Par exemple, l'affichage de Quest 3 a une résolution par œil de 2 064 × 2 208, chronométrées à un taux de rafraîchissement de base de 90 Hz, mettant VR à l'extrémité de la frange de performance (comme d'habitude).
C'est sans aucun doute un regard prémonitoire sur les choses à venir. Contrairement aux simulations statiques ou pré-rendues, Google dit que le modèle génère chaque trame à la volée, permettant une interaction utilisateur plus rapide et des commentaires environnementaux.
https://www.youtube.com/watch?v=pdkhuknuqdg
De plus, ces mondes générés peuvent rester visuellement et physiquement cohérents pendant plusieurs minutes, dit Google, le système conservant une forme de mémoire à court terme pour refléter les actions passées.
Genie 3 est également capable de simuler un large éventail de scénarios, notamment des environnements naturels, des paramètres historiques et des mondes fictifs et animés. Pendant ce temps, les utilisateurs peuvent déclencher des «événements mondiaux promptables», où les utilisateurs peuvent insérer des modifications dans le monde via des commandes de texte, comme modifier la météo ou introduire de nouveaux objets.
Au-delà du plaisir de recréer Osaka des années 1800, ou de faire apparaître un jet ski dans les canaux d'Amsterdam, Google dit que Genie 3 sera également un outil de formation d'intelligence artificielle incarnée, avec des applications potentielles dans des domaines tels que la robotique, les jeux et la recherche artificielle de l'intelligence générale.
Pour l'instant, il y a quelques limites. Google dit que Genie 3 a actuellement un «espace d'action» limité pour les agents et a du mal à modéliser avec précision les interactions multi-agents dans des environnements partagés. Par des «agents», l'entreprise fait référence aux systèmes d'IA qui fonctionnent de manière autonome dans les environnements virtuels, de manière à prendre des décisions, à prendre des mesures et à apprendre de l'expérience.
Il est également confronté à des défis pour simuler des emplacements réels avec une «précision géographique parfaite», en rendant clairement le texte et en maintenant des interactions de longue durée au-delà de quelques minutes.
Pourtant, c'est un bond assez étonnant du type de vidéos non interactives que nous voyons en ligne maintenant, dont beaucoup sont assez difficiles à dire de la vraie affaire. Les simulations Will Smith Spaghetti-mangeant ne feront que devenir plus réaliste et, avec des systèmes comme Genie 3, interactifs également.