Come funziona il modello multimodale Llava? #DatavizAndTools

Llava sta per Large Language and Vision Assistant, un modello multimodale di grandi dimensioni addestrato da un gruppo di ricercatori . Cosa sa fare? A Llava gli diamo in pasto un’immagine e gli chiediamo cose – per ora in inglese soltanto – abbinate a quella. Per altro, nel nostro test abbiamo visto risposte in pochissimi secondi, ogni volta. Ci sono tre possibili funzioni: riconoscere gli oggetti o il contenuto di una immagine; l’ocr, ossia la lettura di parole presenti nell’immagine; l’analisi dell’immagine dove il modello si collega a una base di conoscenza e quindi può darci consigli e fare considerazioni. Tipo quella sulla fake news. Ecco qui trovate la prova di Alessandro Longo pubblicata su Il Sole 24 Ore.com

Per approfondire

Cosa è e come funziona Code Interpreter per Gpt-4?

Come riconoscere immagini e testi generati dall’AI?

La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica

Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool

Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit. L’Ai generativa continua a divertire #datavizandtools

Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools

Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools

Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools

Le ultime novità “audio” dell’Ai generativa #DatavizAndTools

Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring

A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools