Come funziona Gemini? Il video, la polemica e la precisazione di Google #DatavizAndTools

Annunciato alla conferenza degli sviluppatori I/O a maggio Google ha finalmente presentato Gemini, il primo modello di intelligenza artificiale multimodale. cioè in grado di comprendere e operare su diversi tipi di informazioni, tra cui testo, codice, audio, immagini e video. Si aspettava da tempo una risposta vera a ChatGpt e all’Ai Gen da parte dell’azienda che ha inventato i transformer ed è arrivata. Si presenta in tre versioni: Gemini Ultra, il modello più grande e in grado di eseguire compiti altamente complessi. Gemini Pro che entrerà dentro in Bard e nel motore di ricerca e Gemini Nano che è il modello più efficiente in grado di lavorare anche negli smartphone a partire dalla famiglia Pixel . Sul Sole 24 Ore.com tutte le novità sul nuovo modello di Ai di Google

Il video che vedete è stato oggetto di una polemica in seguito a un editoriale di Bloomberg che ha accusato di Google di avere esagerato con le potenzialità di Gemini.

Il video di sei minuti mostra le capacità multimodali di Gemini (ad esempio, suggerimenti di conversazione parlati combinati con il riconoscimento delle immagini). Se si legge bene Google scrive: “Ai fini di questa demo, la latenza è stata ridotta e gli output di Gemini sono stati abbreviati per brevità.” Google ha ammesso che la demo video non è avvenuta in tempo reale con istruzioni vocali, ma ha invece utilizzato fotogrammi di immagini fisse da filmati grezzi e quindi ha scritto istruzioni di testo a cui Gemini ha risposto. Come scrive The Verge, in un post di Oriol Vinyals , vicepresidente della ricerca e responsabile di deep learning a DeepMind di Google afferma: “Tutti i suggerimenti e gli output dell’utente nel video sono reali, abbreviati per brevità“, afferma Vinyals. “Il video illustra come potrebbero essere le esperienze utente multimodali realizzate con Gemini. L’abbiamo realizzato per ispirare gli sviluppatori”.