Llava sta per Large Language and Vision Assistant, un modello multimodale di grandi dimensioni addestrato da un gruppo di ricercatori . Cosa sa fare? A Llava gli diamo in pasto un’immagine e gli chiediamo cose – per ora in inglese soltanto – abbinate a quella. Per altro, nel nostro test abbiamo visto risposte in pochissimi secondi, ogni volta. Ci sono tre possibili funzioni: riconoscere gli oggetti o il contenuto di una immagine; l’ocr, ossia la lettura di parole presenti nell’immagine; l’analisi dell’immagine dove il modello si collega a una base di conoscenza e quindi può darci consigli e fare considerazioni. Tipo quella sulla fake news. Ecco qui trovate la prova di Alessandro Longo pubblicata su Il Sole 24 Ore.com
Per approfondire
Cosa è e come funziona Code Interpreter per Gpt-4?
Come riconoscere immagini e testi generati dall’AI?
La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica
Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool
Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools
Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools
Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools
Le ultime novità “audio” dell’Ai generativa #DatavizAndTools
Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring
A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools
Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop