Annunciato alla conferenza degli sviluppatori I/O a maggio Google ha finalmente presentato Gemini, il primo modello di intelligenza artificiale multimodale. cioè in grado di comprendere e operare su diversi tipi di informazioni, tra cui testo, codice, audio, immagini e video. Si aspettava da tempo una risposta vera a ChatGpt e all’Ai Gen da parte dell’azienda che ha inventato i transformer ed è arrivata. Si presenta in tre versioni: Gemini Ultra, il modello più grande e in grado di eseguire compiti altamente complessi. Gemini Pro che entrerà dentro in Bard e nel motore di ricerca e Gemini Nano che è il modello più efficiente in grado di lavorare anche negli smartphone a partire dalla famiglia Pixel . Sul Sole 24 Ore.com tutte le novità sul nuovo modello di Ai di Google
Qui sopra un video che spiega cosa fare di diverso e di più. Può riconoscere una sagoma disegnata e capire di che materiale è composto un oggetto. Può darci informazione sui contenuti che gli mostriamo e persino capire che gioco stiamo mimando. Gemini Ultra è il primo modello a superare gli esperti umani in MMLU (massive multitask language understanding), che utilizza una combinazione di 57 soggetti come matematica, fisica, storia, diritto, medicina ed etica per testare sia la conoscenza del mondo che le capacità di risoluzione dei problemi. Vuole dire che risponde a domande, sintetizza il testo e traduce meglio degli umani. Ricordiamo però che questi sistemi inducono, deducono ma non sono ancora in grado di formulare ragionevoli ipotesi su una situazione osservata, di operare cioè un ragionamento sulla migliore spiegazione dei fatti. Gpt-4 non è multimodale nel senso tradizionale del termine.
Per approfondire.
Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools
Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office
Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind
Cosa è e come funziona Code Interpreter per Gpt-4?
Come riconoscere immagini e testi generati dall’AI?
La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica
Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool
Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools
Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools
Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools
Le ultime novità “audio” dell’Ai generativa #DatavizAndTools
Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring
A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools
Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop