Nasce Gemini 1.5 Pro. Ecco cosa sa fare di diverso dagli altri LLM

La novità più attesa del Google Cloud Next, l’evento annuale di Google sulle potenzialità del cloud computing, è il debutto di Gemini 1.5 Pro. Viene presentato come il primo modello più grande di Google e completamente multimodale cioè permette di gestire in input testo, immagini e, per la prima volta, i video.

La “finestra di contesto” di un modello di intelligenza artificiale è costituita da token, che sono gli elementi costitutivi utilizzati per l’elaborazione delle informazioni. I token possono essere intere parti o sottosezioni di parole, immagini, video, audio o codice. Quanto più grande è la finestra di contesto di un modello, tanto più informazioni può accogliere ed elaborare in un dato prompt, rendendo il suo output più coerente, pertinente e utile.

Con Gemini 1.5 Pro si ha la possibilità di gestire fino a un milione di token, che si traduce nella possibilità di lavorare con testi di oltre 700.000 parole, 11 ore di audio e 1 ora di video. Va ricordato che, al momento, ChatGPT versione web arriva a 8.000 , Gemini 1.0 Pro a 32.000, GPT-4 Turbo a 128.000 e Claude 2 a 200.000.

Lo abbiamo provato sul campo è il modello ora può ascoltare i file audio caricati e sfornare informazioni da cose come chiamate sugli utili o audio da video senza la necessità di fare riferimento a una trascrizione scritta.

Gemini 1.5 si basa sulla ricerca di Google sull’architettura Transformer e MoE . Mentre un trasformatore tradizionale funziona come un’unica grande rete neurale, i modelli MoE sono divisi in reti neurali “esperte” più piccole.

A seconda del tipo di input fornito, i modelli MoE imparano ad attivare selettivamente solo i percorsi esperti più rilevanti nella sua rete neurale. Questa specializzazione migliora enormemente l’efficienza del modello. Google è stato uno dei primi ad adottare e pioniere della tecnica MoE per il deep learning attraverso ricerche come MoE Sparsely-Gated , GShard-Transformer , Switch-Transformer, M4 e altre.

Qualche esempio. Quando viene visto un film muto di 44 minuti di Buster Keaton , il modello può analizzare accuratamente vari punti ed eventi della trama e persino ragionare su piccoli dettagli del film che potrebbero facilmente sfuggire. Interessante anche l’apporto su coding. 1.5 Pro, scrivono sul blog di Google, può eseguire attività di risoluzione dei problemi più rilevanti su blocchi di codice più lunghi. Quando viene ricevuto un prompt con più di 100.000 righe di codice, può ragionare meglio tra esempi, suggerire modifiche utili e fornire spiegazioni su come funzionano le diverse parti del codice. Qui si vedi il video.

Come funziona in pratica.

In pratica viene offerta una anteprima limitata di 1.5 Pro a sviluppatori e clienti aziendali tramite AI Studio e Vertex AI .La versione 1.5 Pro con una finestra di contesto standard da 128.000 token sarà introdotta quando il modello sarà pronto per una versione più ampia. A breve prevedono di introdurre livelli di prezzo che partono dalla finestra di contesto standard di 128.000 e si espandono fino a 1 milione di token, man mano che miglioriamo il modello.

Per approfondire.

Cerchia e cerca e altre novità Ai di Google sui telefonini Android

Come funziona Sima la nuova Ai di Google che completa i videogiochi al posto vostro

Come funziona e a cosa serve Ecco lo European Statistical Monitor?

Claude 3 di Anthropic è più potente di ChatGPt? Ecco quello che c’è da sapere.

Nasce Genie, il modello di Ai per creare videogiochi da una singola immagine

Ecco cosa promette il generatore di immagini Stable Diffusion 3

Gemma 2B e Gemma 7B. Ecco cosa si può fare con i modelli open source di Gemini

Da Adobe domande e riassunti con l’Ai gen su documenti Pdf

Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona

Come funziona Lumiere l’Ai di Google che genera video dal testo #DatavizAndTools

Microsoft Copilot ora è su tutti gli smartphone. #DatavizAndTools