Indica un intervallo di date:
  • Dal Al
tecnologia

Matematica, coding e catena di pensiero: nasce o1 il nuovo modello linguistico di grandi dimensioni di OpenAi

OpenAI ha annunciato o1, una nuova serie di modelli per risolvere problemi sempre più complicati.

«Abbiamo addestrato questi modelli a dedicare più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Attraverso l’addestramento, imparano ad affinare il loro processo di pensiero, a provare strategie diverse e a riconoscere i loro errori».

 

Ma vediamo in concreto cosa fanno. 

Si tratta di una nuova serie di modelli di intelligenza artificiale progettati per dedicare più tempo alla riflessione prima di rispondere. Questa nuova serie di modelli di intelligenza artificiale può ragionare su attività complesse e risolvere problemi più difficili rispetto ai modelli precedenti in scienza, programmazione e matematica. In pratica, nasce per scrivere meglio codice e risolvere problemi multi-step rispetto ai modelli precedenti. E’ un sistema sperimentale, con una vocazione alla matematica ed è anche più costoso e più lento da usare rispetto a GPT-4o.  Secondo OpenAI, la caratteristica principale che distingue questo nuovo modello da GPT-4o è la sua capacità di affrontare problemi complessi, come la codifica e la matematica, molto meglio dei suoi predecessori, spiegandone anche il ragionamento.

Cosa vuole dire che  pensa prima di rispondere?

«In sostanza attraverso il processo di training questi modelli imparano a rifinire il metodo di elaborazione attraverso l’utilizzo di varie possibilità e riconoscendo gli errori». Vuole dire che risponde a domande più avanzate e in modo più rapido, anche rispetto a un essere umano. Similmente a come un essere umano può pensare a lungo prima di rispondere a una domanda difficile, o1 usa una catena di pensiero quando cerca di risolvere un problema. Attraverso l’apprendimento per rinforzo, o1 impara ad affinare la sua catena di pensiero e a perfezionare le strategie che usa. Impara a riconoscere e correggere i suoi errori. La stimolazione della catena di pensieri è una tecnica che scompone una domanda complessa in parti più piccole e logiche che imitano una linea di pensiero. Quindi impara a scomporre i passaggi difficili in passaggi più semplici. Impara a provare un approccio diverso quando quello attuale non funziona. Questo processo migliora notevolmente la capacità di ragionamento del modello.

Perché OpenAi ha scelto di nascondere la catena di pensiero

Appare interessante e discutibile la scelta di non mostrare i passaggi della catena di pensieri. Cioè  non sappiamo tutti i passaggi che compie. Riteniamo che una catena di pensiero nascosta rappresenti un’opportunità unica per il monitoraggio dei modelli. Supponendo che sia fedele e leggibile, la catena di pensiero nascosta ci consente di “leggere la mente” del modello e comprenderne il processo di pensiero. In futuro, scrivono, potremmo voler monitorare la catena di pensiero per individuare segnali di manipolazione dell’utente. Tuttavia, affinché ciò funzioni, il modello deve avere la libertà di esprimere i propri pensieri in forma inalterata, quindi non possiamo addestrare alcuna conformità alle policy o preferenze dell’utente sulla catena di pensiero. Inoltre, non vogliamo rendere una catena di pensiero non allineata direttamente visibile agli utenti.

«Nei nostri test – scrivono sul blog – questi modelli si comportano come gli studenti dei dottorati alle prese con complesse questioni di fisica, chimica e biologia. Inoltre, abbiamo scoperto che i nuovi modelli riscontrano buoni risultati in ambito matematico e di coding».

Il modello risulta in ogni caso con più limiti rispetto a ChatGpt. Sono assenti anche rilevanti feature nell’API come il supporto all’utilizzo di strumenti, la funzione di chiamata, lo streaming e la personalizzazione dei messaggi. Per molti casi più comuni, per ora GPT-4o rimane più funzionale.

La matematica e o1
Per dimostrare le capacità di 01 OpenAi ha usato i Nonogram  che sono dei rompicapi logici grafici in cui le celle di una griglia devono essere colorate o lasciate in bianco in base a dei numeri a lato della griglia utili a svelare un’immagine nascosta.
Per esempio, un indizio del tipo “4 8 3” significa che c’è un insieme di quattro, otto e tre quadrati da riempire in questo ordine, con almeno un quadrato bianco tra gruppi successivi.
il modello di intelligenza artificiale prima genera un puzzle di Nonogram in cui la risposta finale è la lettera M. Quindi, un’altra istanza del modello viene invitata a risolvere il puzzle. Il modello risolve con successo il puzzle e visualizza la risposta.

Il video discute anche come Nonogram è simile ad altri puzzle come Sudoku e cruciverba. In tutti questi puzzle, devi fare delle ipotesi e poi tornare indietro se sbagli. Il video conclude dicendo che i modelli di intelligenza artificiale sono bravi a raffinare lo spazio di ricerca in questi tipi di puzzle.

OpenAI ha anche testato o1 rispetto a un esame di qualificazione per l’International Mathematics Olympiad, e mentre GPT-4o ha risolto correttamente solo il 13 percento dei problemi, o1 ha ottenuto l’83 percento.

Quanto alla programmazione

Nei concorsi di programmazione online noti come competizioni Codeforces, questo nuovo modello ha raggiunto l’89° percentile dei partecipanti e OpenAI afferma che il prossimo aggiornamento di questo modello funzionerà “in modo simile agli studenti di dottorato in difficili compiti di benchmark in fisica, chimica e biologia. Questo modello ha gareggiato nell’IOI del 2024 nelle stesse condizioni dei concorrenti umani. Aveva dieci ore per risolvere sei difficili problemi algoritmici e gli erano consentite 50 proposte per problema.  Secondo OpenAi ha ottenuto 213 punti e si è classificato al 49° percentile nell’International Olympiad in Informatics (IOI) del 2024.

Come viene valutato 01? 
In base ai testi di OpenAi, o1 supera significativamente GPT-4o nella stragrande maggioranza di queste attività ad alto contenuto di ragionamento. Salvo diversamente specificato, abbiamo valutato o1 sull’impostazione di calcolo del tempo di test massimo.

In molti benchmark basati sul ragionamento, o1 rivaleggia con le prestazioni degli esperti umani. . Per confrontare i modelli con gli esseri umani, OpenAi ha reclutato esperti con dottorati di ricerca per rispondere alle domande GPQA-diamond. o1 supererebbe le prestazioni di quegli esperti umani, diventando il primo modello a farlo su questo benchmark. Tuttavia, scrivono, questi risultati non implicano che o1 sia più capace di un dottorato di ricerca sotto tutti gli aspetti, ma solo che il modello è più competente nel risolvere alcuni problemi che un dottorato di ricerca dovrebbe risolvere. Su diversi altri benchmark ML, o1 ha migliorato rispetto allo stato dell’arte.

In conclusione, a che punto siamo ora?  

Come si legge su The Verge, per i ricercatori di intelligenza artificiale, decifrare il ragionamento è un importante passo successivo verso l’intelligenza di livello umano. L’idea è che, se un modello è in grado di fare più del semplice riconoscimento di pattern, potrebbe sbloccare innovazioni in settori come la medicina e l’ingegneria. Per ora, tuttavia, le capacità di ragionamento di o1 sono relativamente lente, non simili a quelle di un agente e costose da usare per gli sviluppatori.

Per approfondire.

Ecco come funziona o1, il modello di OpenAi che “pensa” prima di rispondere

Vi ricordate SearchGpt, il motore di ricerca di OpenAi? Cosa sappiamo finora?

Come funziona l’analisi dei dati su ChatGpt?  #DatavizAndTools

Arriva Gpt-4o, ecco cosa ha di diverso il nuovo chatbot di OpenAI

Le altre puntate di Dataviz And Tools

Cosa sono e a cosa servono i servizi Gems di Gemini? #Ainews

Midjourney è accessibile a tutti via web e offre 25 crediti

Vi ricordate SearchGpt, il motore di ricerca di OpenAi? Cosa sappiamo finora?

Imagen 3 debutta negli Usa. Ecco cosa sappiamo del modello di Ai di Google

Cosa è e come funziona PartyRock?#DatavizAndTools

Come funziona Claude 3.5 Sonnet e cosa sa fare: i test superati #DatavizAndTools

DeepMind presenta V2A la nuova Ai per creare suoni e colonne sonore per i video

Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione

Ecco come funziona DeepL Enterprise, l’Ai linguistica per le aziende della startup tedesca

Come funziona Italia 9B e quali vantaggi dà un large language model italiano?

Llava è un modello multimodale di grandi dimensioni con capacità “visive”. Ecco come funziona

Haiku, Sonnet e Opus riescono a gestire una finestra di contesto da 200.000 token. Cosa vuole dire?

Come funziona l’analisi dei dati su ChatGpt?  #DatavizAndTools

Da Project Astra a Veo. Tutte le novità di Gemini presentate al Google I/O 2024 in sei video

AI Overview, come cambia il motore di ricerca di Google con Gemini?

Arriva Gpt-4o, ecco cosa ha di diverso il nuovo chatbot di OpenAI

Cosa è Microsoft Places? Ecco come funziona la nuova applicazione per la gestione dei luoghi

Come si installa e come funziona Phi-3 di Microsoft #DatavizAndTools

Come funzionano le nuove estensioni di Gemini?

Gpt-4, Gemini e Gemini 1.5 Pro. Scopri le differenze

Cerchia e cerca e altre novità Ai di Google sui telefonini Android

Come funziona Sima la nuova Ai di Google che completa i videogiochi al posto vostro

Come funziona e a cosa serve Ecco lo European Statistical Monitor?

Claude 3 di Anthropic è più potente di ChatGPt? Ecco quello che c’è da sapere.

Nasce Genie, il modello di Ai per creare videogiochi da una singola immagine

Ecco cosa promette il generatore di immagini Stable Diffusion 3

Gemma 2B e Gemma 7B. Ecco cosa si può fare con i modelli open source di Gemini

Da Adobe domande e riassunti con l’Ai gen su documenti Pdf

Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona

Come funziona Lumiere l’Ai di Google che genera video dal testo #DatavizAndTools

Microsoft Copilot ora è su tutti gli smartphone. #DatavizAndTools 

Come funzionano Nightshade e Glaze? #DatavizAndTools

Fotoritocco, come funzionano Abobe Photoshop Elements e Premiere? #DatavizAndTools

Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools

Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office

Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind

Cosa è e come funziona Code Interpreter per Gpt-4?

Come riconoscere immagini e testi generati dall’AI?

La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica

Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool

Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit. L’Ai generativa continua a divertire #datavizandtools

Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools

Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools

Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools

Le ultime novità “audio” dell’Ai generativa #DatavizAndTools

Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring

A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools

Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop

Come funziona Image, il creatore di mappe di Eurostat?

Come si visualizzazione le serie storiche?