Indica un intervallo di date:
  • Dal Al
tecnologia

Ecco V2A la nuova Ai di DeepMind per creare suoni e colonne sonore per i video

DeepMind, la divisione di Google dedicata allo sviluppo dell’intelligenza artificiale, ha recentemente svelato una tecnologia che genera suoni sincronizzati con i video.

In un post sul blog ufficiale, DeepMind ha dichiarato di aver superato una delle principali limitazioni dei modelli IA attualmente più diffusi, inclusi quelli sviluppati dalla stessa divisione di Google. Si tratta della capacità di generare effetti sonori sincronizzati con le immagini.

Qui sotto alcuni esempi. Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete

Qui infine il promp per l’audio era: Jellyfish pulsating under water, marine life, ocean

“I modelli di generazione video stanno avanzando a un ritmo incredibile, ma molti sistemi attuali possono generare solo output silenziosi”, scrive DeepMind. “La tecnologia V2A potrebbe diventare uno strumento promettente per dare vita a interi film generati dall’IA”.

La tecnologia V2A è in grado di partire da una descrizione e da un video (ad esempio, “meduse pulsanti sott’acqua, vita marina, oceano”) e creare musica, effetti sonori e persino dialoghi in sintonia con le immagini.

“Allenandosi su video, audio e annotazioni aggiuntive, la nostra tecnologia impara ad associare specifici eventi audio con varie scene visive, rispondendo alle informazioni fornite nelle annotazioni o nelle trascrizioni”, si legge nel blog di DeepMind.

Sebbene diverse startup abbiano recentemente presentato tecnologie simili, DeepMind sostiene che la tecnologia V2A sia unica nel suo genere. Questa è capace di comprendere i pixel grezzi di un video e sincronizzare automaticamente i suoni generati con le immagini.

Tuttavia, questo è solo un primo passo. Ciò che viene creato al momento è stato definito “stereotipato” da chi lo ha ascoltato. Sono ancora indietro e ne sono consapevoli. Per questi motivi, DeepMind afferma che non renderà pubblica la tecnologia per il momento.

Per approfondire.

Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione

Le novità di Google: da Project Astra a Veo, in sei video

Sora di OpenAi sarà disponibile in Adobe Premiere Pro.

Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona

Le altre puntate di Dataviz And Tools

Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione

Ecco come funziona DeepL Enterprise, l’Ai linguistica per le aziende della startup tedesca

Come funziona Italia 9B e quali vantaggi dà un large language model italiano?

Llava è un modello multimodale di grandi dimensioni con capacità “visive”. Ecco come funziona

Haiku, Sonnet e Opus riescono a gestire una finestra di contesto da 200.000 token. Cosa vuole dire?

Come funziona l’analisi dei dati su ChatGpt?  #DatavizAndTools

Da Project Astra a Veo. Tutte le novità di Gemini presentate al Google I/O 2024 in sei video

AI Overview, come cambia il motore di ricerca di Google con Gemini?

Arriva Gpt-4o, ecco cosa ha di diverso il nuovo chatbot di OpenAI

Cosa è Microsoft Places? Ecco come funziona la nuova applicazione per la gestione dei luoghi

Come si installa e come funziona Phi-3 di Microsoft #DatavizAndTools

Come funzionano le nuove estensioni di Gemini?

Gpt-4, Gemini e Gemini 1.5 Pro. Scopri le differenze

Cerchia e cerca e altre novità Ai di Google sui telefonini Android

Come funziona Sima la nuova Ai di Google che completa i videogiochi al posto vostro

Come funziona e a cosa serve Ecco lo European Statistical Monitor?

Claude 3 di Anthropic è più potente di ChatGPt? Ecco quello che c’è da sapere.

Nasce Genie, il modello di Ai per creare videogiochi da una singola immagine

Ecco cosa promette il generatore di immagini Stable Diffusion 3

Gemma 2B e Gemma 7B. Ecco cosa si può fare con i modelli open source di Gemini

Da Adobe domande e riassunti con l’Ai gen su documenti Pdf

Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona

Come funziona Lumiere l’Ai di Google che genera video dal testo #DatavizAndTools

Microsoft Copilot ora è su tutti gli smartphone. #DatavizAndTools 

Come funzionano Nightshade e Glaze? #DatavizAndTools

Fotoritocco, come funzionano Abobe Photoshop Elements e Premiere? #DatavizAndTools

Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools

Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office

Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind

Cosa è e come funziona Code Interpreter per Gpt-4?

Come riconoscere immagini e testi generati dall’AI?

La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica

Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool

Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit. L’Ai generativa continua a divertire #datavizandtools

Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools

Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools

Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools

Le ultime novità “audio” dell’Ai generativa #DatavizAndTools

Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring

A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools

Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop

Come funziona Image, il creatore di mappe di Eurostat?

Come si visualizzazione le serie storiche?