Come funziona Italia 9B e quali vantaggi dà un large language model italiano?

Si chiama Italia, è un modello linguistico di grandi dimensioni open source realizzato dall’azienda italiana iGenius in collaborazione con Cineca che è il più grande polo di computing italiano, un consorzio interuniversitario).

Anche se la versione è ancora 0.1, Italia si pone ad oggi come il maggiore e più compiuto large language model made in Italy, formato con la nostra lingua e pensato per lo sviluppo di aziende e pubbliche amministrazioni italiane.

Da un punto di vista tecnico, Italia ha 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token. Ha usato per il training migliaia di miliardi di token, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti dai partner commerciali di iGenius.

Il confronto con gli altri.

GPT-4o (GPT-4-turbo) ha una lunghezza del contesto di 128.000 token, che è significativamente maggiore rispetto alla lunghezza del contesto standard di GPT-4 di 8.000 o 32.000 token. Il modello Gemini Advanced di Google, specificamente il Gemini 1.5 Pro, supporta un limite di contesto di 1 milione di token. Questo rappresenta una delle più grandi finestre di contesto disponibili per i chatbot consumer e consente al modello di gestire grandi quantità di informazioni in un singolo prompt, inclusi documenti molto lunghi, ore di video e audio, e grandi basi di codice

Quanto all’addestramento, Italia è stato allenato su 9 miliardi di parametri e punta ad aggiungere un altro miliardo di parametri. GPT-4o, conta 175 miliardi di parametri e l’azienda ha già annunciato di essere al lavoro su GPT-5.

Va detto che la finestra di contesto che poi vuol dire quanto lunga è la risposta alle vostre domande dipende tra le altre cose anche e sopratutto dall’hardware utilizzato per addestrare e eseguire i modelli. Modelli con contesti più lunghi richiedono più memoria e potenza di calcolo per gestire l’aumento delle interazioni tra i token

Il vantaggio di essere italiano?

Il dataset utilizzato per l’allenamento dichiarano essere al 90 per cento con dati italiani. Hanno dichiarato di avere una collaborazione con Editoriale Nazionale, società del gruppo Monrif, per utilizzare il loro archivio storico di articoli di stampa come fonte integrativa per migliorare il nostro modello.

Vuole dire in teoria un vantaggio nella comprensione delle sfumature della nostra lingua legato al contesto storico-culturale. Sicuramente c’è un guadagno di efficienza che dichiarano essere del 60 per cento, perché gli attuali modelli, basati sull’inglese, quando devono gestire altre lingue fanno un continuo lavoro di traduzione invisibile all’utente.

Disponibile per il download il modello Italia, un LLM addestrato solo in italiano. Per scaricarlo bisogna compilare un form.

Per approfondire.

Tutta la potenza di calcolo che serve ai chatbot per trattenere i cervelli in fuga

Claude 3 di Anthropic è più potente di ChatGPt? Ecco quello che c’è da sapere.

Arriva anche in Italia l’app Gemini. Ecco cosa cambia e come funziona

Per approfondire, le altre puntata di Dataviz And Tools

Llava è un modello multimodale di grandi dimensioni con capacità “visive”. Ecco come funziona

Haiku, Sonnet e Opus riescono a gestire una finestra di contesto da 200.000 token. Cosa vuole dire?

Come funziona l’analisi dei dati su ChatGpt? #DatavizAndTools

Da Project Astra a Veo. Tutte le novità di Gemini presentate al Google I/O 2024 in sei video

AI Overview, come cambia il motore di ricerca di Google con Gemini?

Arriva Gpt-4o, ecco cosa ha di diverso il nuovo chatbot di OpenAI