DeepMind presenta V2A la nuova Ai per creare suoni e colonne sonore per i video

DeepMind, la divisione di Google dedicata allo sviluppo dell’intelligenza artificiale, ha recentemente svelato una tecnologia che genera suoni sincronizzati con i video.

In un post sul blog ufficiale, DeepMind ha dichiarato di aver superato una delle principali limitazioni dei modelli IA attualmente più diffusi, inclusi quelli sviluppati dalla stessa divisione di Google. Si tratta della capacità di generare effetti sonori sincronizzati con le immagini.

Qui sotto alcuni esempi. Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete

Qui infine il promp per l’audio era: Jellyfish pulsating under water, marine life, ocean

“I modelli di generazione video stanno avanzando a un ritmo incredibile, ma molti sistemi attuali possono generare solo output silenziosi”, scrive DeepMind. “La tecnologia V2A potrebbe diventare uno strumento promettente per dare vita a interi film generati dall’IA”.

La tecnologia V2A è in grado di partire da una descrizione e da un video (ad esempio, “meduse pulsanti sott’acqua, vita marina, oceano”) e creare musica, effetti sonori e persino dialoghi in sintonia con le immagini.

“Allenandosi su video, audio e annotazioni aggiuntive, la nostra tecnologia impara ad associare specifici eventi audio con varie scene visive, rispondendo alle informazioni fornite nelle annotazioni o nelle trascrizioni”, si legge nel blog di DeepMind.

Sebbene diverse startup abbiano recentemente presentato tecnologie simili, DeepMind sostiene che la tecnologia V2A sia unica nel suo genere. Questa è capace di comprendere i pixel grezzi di un video e sincronizzare automaticamente i suoni generati con le immagini.

Tuttavia, questo è solo un primo passo. Ciò che viene creato al momento è stato definito “stereotipato” da chi lo ha ascoltato. Sono ancora indietro e ne sono consapevoli. Per questi motivi, DeepMind afferma che non renderà pubblica la tecnologia per il momento.

Per approfondire.

Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione

Le novità di Google: da Project Astra a Veo, in sei video

Sora di OpenAi sarà disponibile in Adobe Premiere Pro.

Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona

Le altre puntate di Dataviz And Tools

Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione

Ecco come funziona DeepL Enterprise, l’Ai linguistica per le aziende della startup tedesca

Come funziona Italia 9B e quali vantaggi dà un large language model italiano?

Llava è un modello multimodale di grandi dimensioni con capacità “visive”. Ecco come funziona

Haiku, Sonnet e Opus riescono a gestire una finestra di contesto da 200.000 token. Cosa vuole dire?

Come funziona l’analisi dei dati su ChatGpt? #DatavizAndTools