La novità più attesa del Google Cloud Next, l’evento annuale di Google sulle potenzialità del cloud computing, è il debutto di Gemini 1.5 Pro. Viene presentato come il primo modello più grande di Google e completamente multimodale cioè permette di gestire in input testo, immagini e, per la prima volta, i video.
La “finestra di contesto” di un modello di intelligenza artificiale è costituita da token, che sono gli elementi costitutivi utilizzati per l’elaborazione delle informazioni. I token possono essere intere parti o sottosezioni di parole, immagini, video, audio o codice. Quanto più grande è la finestra di contesto di un modello, tanto più informazioni può accogliere ed elaborare in un dato prompt, rendendo il suo output più coerente, pertinente e utile.
Con Gemini 1.5 Pro si ha la possibilità di gestire fino a un milione di token, che si traduce nella possibilità di lavorare con testi di oltre 700.000 parole, 11 ore di audio e 1 ora di video. Va ricordato che, al momento, ChatGPT versione web arriva a 8.000 , Gemini 1.0 Pro a 32.000, GPT-4 Turbo a 128.000 e Claude 2 a 200.000.
Lo abbiamo provato sul campo è il modello ora può ascoltare i file audio caricati e sfornare informazioni da cose come chiamate sugli utili o audio da video senza la necessità di fare riferimento a una trascrizione scritta.
Gemini 1.5 si basa sulla ricerca di Google sull’architettura Transformer e MoE . Mentre un trasformatore tradizionale funziona come un’unica grande rete neurale, i modelli MoE sono divisi in reti neurali “esperte” più piccole.
A seconda del tipo di input fornito, i modelli MoE imparano ad attivare selettivamente solo i percorsi esperti più rilevanti nella sua rete neurale. Questa specializzazione migliora enormemente l’efficienza del modello. Google è stato uno dei primi ad adottare e pioniere della tecnica MoE per il deep learning attraverso ricerche come MoE Sparsely-Gated , GShard-Transformer , Switch-Transformer, M4 e altre.
Qualche esempio. Quando viene visto un film muto di 44 minuti di Buster Keaton , il modello può analizzare accuratamente vari punti ed eventi della trama e persino ragionare su piccoli dettagli del film che potrebbero facilmente sfuggire. Interessante anche l’apporto su coding. 1.5 Pro, scrivono sul blog di Google, può eseguire attività di risoluzione dei problemi più rilevanti su blocchi di codice più lunghi. Quando viene ricevuto un prompt con più di 100.000 righe di codice, può ragionare meglio tra esempi, suggerire modifiche utili e fornire spiegazioni su come funzionano le diverse parti del codice. Qui si vedi il video.
Come funziona in pratica.
In pratica viene offerta una anteprima limitata di 1.5 Pro a sviluppatori e clienti aziendali tramite AI Studio e Vertex AI .La versione 1.5 Pro con una finestra di contesto standard da 128.000 token sarà introdotta quando il modello sarà pronto per una versione più ampia. A breve prevedono di introdurre livelli di prezzo che partono dalla finestra di contesto standard di 128.000 e si espandono fino a 1 milione di token, man mano che miglioriamo il modello.
Per approfondire.
Cerchia e cerca e altre novità Ai di Google sui telefonini Android
Come funziona Sima la nuova Ai di Google che completa i videogiochi al posto vostro
Come funziona e a cosa serve Ecco lo European Statistical Monitor?
Claude 3 di Anthropic è più potente di ChatGPt? Ecco quello che c’è da sapere.
Nasce Genie, il modello di Ai per creare videogiochi da una singola immagine
Ecco cosa promette il generatore di immagini Stable Diffusion 3
Gemma 2B e Gemma 7B. Ecco cosa si può fare con i modelli open source di Gemini
Da Adobe domande e riassunti con l’Ai gen su documenti Pdf
Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona
Come funziona Lumiere l’Ai di Google che genera video dal testo #DatavizAndTools
Microsoft Copilot ora è su tutti gli smartphone. #DatavizAndTools
Come funzionano Nightshade e Glaze? #DatavizAndTools
Fotoritocco, come funzionano Abobe Photoshop Elements e Premiere? #DatavizAndTools
Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools
Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office
Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind
Cosa è e come funziona Code Interpreter per Gpt-4?
Come riconoscere immagini e testi generati dall’AI?
La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica
Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool
Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools
Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools
Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools
Le ultime novità “audio” dell’Ai generativa #DatavizAndTools
Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring
A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools
Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop