Ricercatori di Google Research hanno recentemente pubblicato un paper su GameNGen, un motore di gioco basato sull’intelligenza artificiale in grado di generare gameplay originali di Doom utilizzando una rete neurale. Dani Valevski, Yaniv Leviathan, Moab Arar e Shlomi Fruchter hanno progettato GameNGen sfruttando Stable Diffusion, un modello generativo di intelligenza artificiale, per elaborare i fotogrammi precedenti e l’input attuale del giocatore, generando così nuovi fotogrammi con una sorprendente fedeltà visiva e coesione.
Il video sotto è stato presentato a fine agosto.
Per addestrare questa IA, Google ha utilizzato un enorme dataset composto da 900 milioni di fotogrammi del celebra sparatutto Doom. La capacità di un’intelligenza artificiale di generare un motore di gioco completo con una logica coerente rappresenta un traguardo unico nel suo genere. Doom, riprodotto da GameNGen, può essere giocato come un vero videogioco, permettendo di muoversi, sparare, subire danni da nemici e pericoli ambientali in modo realistico. Il motore di gioco costruisce un livello attorno al giocatore in tempo reale mentre esplora l’ambiente, mantenendo anche un conteggio preciso delle munizioni della pistola. Secondo lo studio, il gioco gira a 20 FPS e, in brevi clip, è difficile distinguerlo dal gameplay originale di Doom.
Per ottenere tutti i dati di addestramento necessari affinché GameNGen potesse modellare accuratamente i propri livelli di Doom, il team di Google ha addestrato un agente di intelligenza artificiale a giocare a Doom a tutte le difficoltà e a simulare una vasta gamma di livelli di abilità del giocatore. Azioni come raccogliere power-up e completare i livelli venivano premiate, mentre subire danni o morire venivano penalizzate, creando così agenti in grado di giocare efficacemente a Doom e fornendo centinaia di ore di dati visivi di addestramento per il modello GameNGen da utilizzare come riferimento e ricreare.
Una delle innovazioni più significative dello studio è stata la capacità dei ricercatori di mantenere la coesione tra i fotogrammi durante l’utilizzo di Stable Diffusion su lunghi periodi. Stable Diffusion è un modello generativo molto diffuso che genera immagini a partire da prompt di immagini o testo ed è stato utilizzato per progetti animati sin dalla sua uscita nel 2022. .
Come si vede nel cortometraggio Anime Rock Paper Scissors di Corridor, Stable Diffusion può creare immagini fisse convincenti ma soffre di effetti di sfarfallio quando il modello produce fotogrammi consecutivi (nota come le ombre sembrano saltare sui volti degli attori da un fotogramma all’altro). In pratica, Google Research ha risolto questo problema addestrando nuovi frame con una sequenza più estesa di input utente e frame che li precedevano, anziché una singola immagine di prompt. Con questa tecnica una rete neurale separata ma connessa corregge i suoi frame di contesto, assicurando un’immagine più stabile.
Per approfondire.
Videogame: che differenza c’è Ray tracing e il Full ray tracing? #imaging
Nasce Genie, il modello di Ai per creare videogiochi da una singola immagine
Nvidia lancia il nuovo assistente in-game per il videogioco. E potrebbe essere una rivoluzione
Da Minecraft ai Pokémon, da Gta a Tetris. Sessant’anni di videogiochi in una classifica