Annunciato alla conferenza degli sviluppatori I/O a maggio Google ha finalmente presentato Gemini, il primo modello di intelligenza artificiale multimodale. cioè in grado di comprendere e operare su diversi tipi di informazioni, tra cui testo, codice, audio, immagini e video. Si aspettava da tempo una risposta vera a ChatGpt e all’Ai Gen da parte dell’azienda che ha inventato i transformer ed è arrivata. Si presenta in tre versioni: Gemini Ultra, il modello più grande e in grado di eseguire compiti altamente complessi. Gemini Pro che entrerà dentro in Bard e nel motore di ricerca e Gemini Nano che è il modello più efficiente in grado di lavorare anche negli smartphone a partire dalla famiglia Pixel . Sul Sole 24 Ore.com tutte le novità sul nuovo modello di Ai di Google
Il video che vedete è stato oggetto di una polemica in seguito a un editoriale di Bloomberg che ha accusato di Google di avere esagerato con le potenzialità di Gemini.
Il video di sei minuti mostra le capacità multimodali di Gemini (ad esempio, suggerimenti di conversazione parlati combinati con il riconoscimento delle immagini). Se si legge bene Google scrive: “Ai fini di questa demo, la latenza è stata ridotta e gli output di Gemini sono stati abbreviati per brevità.” Google ha ammesso che la demo video non è avvenuta in tempo reale con istruzioni vocali, ma ha invece utilizzato fotogrammi di immagini fisse da filmati grezzi e quindi ha scritto istruzioni di testo a cui Gemini ha risposto. Come scrive The Verge, in un post di Oriol Vinyals , vicepresidente della ricerca e responsabile di deep learning a DeepMind di Google afferma: “Tutti i suggerimenti e gli output dell’utente nel video sono reali, abbreviati per brevità“, afferma Vinyals. “Il video illustra come potrebbero essere le esperienze utente multimodali realizzate con Gemini. L’abbiamo realizzato per ispirare gli sviluppatori”.
Per approfondire.
Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools
Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office
Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind
Cosa è e come funziona Code Interpreter per Gpt-4?
Come riconoscere immagini e testi generati dall’AI?
La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica
Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool
Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools
Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools
Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools
Le ultime novità “audio” dell’Ai generativa #DatavizAndTools
Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring
A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools
Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop