Indica un intervallo di date:
  • Dal Al

Come funziona e come è fatto Qwen2.5-Max il rivale di DeepSeek?

Cominciamo con il dire che non è una novità. Il modello Qwen 2.5 ha raggiunto 94 milioni di download, di cui la metà nell’ultimo mese. In pratica, è il modello open-source più popolare al mondo, superando Llama 3.1 di Meta. Nei giorni scorsi dopo la “bomba” di Deepseek Alibaba ha rilasciato Qwen 2.5-Max che si presenta come la versione più aggiornata e potente. Stando agli indicatori di prestazione pubblicati dal colosso cinese sarebbe superiore a DeepSeek V3 ma anche a Gpt-o4 e Claude 3.5 Sonnet. Ma la notizia è Qwwn 2.5 Max uscito pochi giorni dopo DeepSeek 2.

Cosa è Qwen 2.5 Max?

Non è un modello open source a differenza degli altri Qwen. E’  il più potente, supporta 29 lingue, tra cui italiano, inglese, cinese, spagnolo, francese, giapponese, coreano, arabo e altre. Come DeepSeek R1 ha una finestra di elaborazione che arriva a fino a 128K token in una singola conversazione, mentre è in grado di generare fino a 8K token (1.000 parole sono circa 750 token, per dare un’idea). E’ multimodale, può quindi elaborare immagini e audio. E dovrebbe fare anche video.

Quanto costa? 

Qwen 2.5 Max costa 1,6 dollari per milione di token di input e 6,4 dollari per milione di token di output. Per confronto, il prezzo API di DeepSeek-R1 costa 0,55 dollari per milione di token di input e 2,19 dollari per milione di token di output.

Le prestazioni di Qwen 2.5 Max

«Qwen2.5-Max – scrivono  sul loro sito – supera DeepSeek V3 in benchmark quali Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond. Quando confrontiamo i modelli base, non siamo in grado di accedere ai modelli proprietari come GPT-4o e Claude-3.5-Sonnet. Pertanto, valutiamo Qwen2.5-Max rispetto a DeepSeek V3, un modello MoE open-weight leader, Llama-3.1-405B, il modello denso open-weight più grande, e Qwen2.5-72B, che è anche tra i migliori modelli densi open-weight».

Come è fatto tecnicamente

Qwen2.5-Max, un modello MoE (Mixture-of-Expert (MoE) su larga scala che è stato pre-addestrato su oltre 20 trilioni di token e ulteriormente post-addestrato con metodologie curate Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF). Andiamo con ordine MoE è  un’architettura di modelli che punta a suddividere il problema in sotto-compiti più semplici, assegnando ogni compito a un “esperto” specializzato. Immagina di dover affrontare un problema complesso, ad esempio diagnosticare una malattia rara. Invece di consultare un unico medico generico, ti affideresti a diversi specialisti, ognuno esperto in una particolare area (cardiologo, neurologo, ecc.). Un MoE funziona in modo simile. Ufficialmente non lo sappiamo ma pare che anche Gpt sia MoE.

Come è stato addestrato? 

Qwen 2.5 Max è stato pre-addestrato su oltre 20 trilioni di token (ovvero 20 mila miliardi), contro i 14,8 mila di miliardi di DeepSeek-R1.  Sappiamo solo questo. Nessun indizio sui contenti. Quanto al come entrano in campo diverse tecniche. Qwen 2.5 Max ha usato sia Supervised Fine-Tuning (SFT) e che Reinforcement Learning from Human Feedback (RLHF). Sono due tecniche utilizzate per addestrare modelli linguistici di grandi dimensioni (LLM).

 

Per approfondire.

DeepSeek il nemico numero uno di ChatGpt ai raggi X. La nostra prova e il confronto con o1 #Ascanio

La Cina ha più brevetti degli Stati Uniti. Chi guida la corsa all’intelligenza artificiale?

La Cina, gli Stati Uniti e la nuova mappa dell’ordine mondiale disegnata con il silicio

La strategia cinese nell’intelligenza artificiale fa paura agli Usa. Il caso di Qwen 2.5

Le altre puntate di Dataviz And Tools

Claude è davvero il modello di AI più empatico sul mercato?

Come funziona Operator di OpenAi?

ChatGpt Task è una to-do-list per le tue attività quotidiane

Come funziona Canvas la nuova interfaccia per ChatGpt? #DatavizAndTools

Ecco come funziona o1, il modello di OpenAi che “pensa” prima di rispondere

Disponibile ChatGpt per Windows. Ecco cosa cambia #DatavizAndTools

L’informazione, i giornali, i viaggi e il senso della vita. La prova di SearchGpt

SearchGpt sta arrivando. OpenAi sfida Google sui motori di ricerca. Ecco cosa sappiamo finora

Che fine ha fatto SearchGpt, il motore di ricerca di OpenAi?

Cosa è AI Overview? Ecco come sta cambiando il motore di ricerca di Google con Gemini

Cosa è WildChat? Più di un milione di prompt (e risposte) per allenare il vostro chatbot

Come si scrive un prompt per Midjourney?

L’Ai Gen si è convertita all’ideologia “woke”? #PromptAnalysis

Quali caratteristiche deve avere un cantante per vincere Sanremo? Risponde Gpt4

Le altre puntate di Dataviz And Tools 

OpenAi aggiorna Canvas. Ecco cosa cambia con o1

ChatGpt Task è una to-do-list per le tue attività quotidiane

Cosa è NotebookLMPlus e come funziona? #DatavizAndTools

SearchGpt arriva per tutti anche in Italia. E adesso?

Google mette un piede nell’era degli Ai Agent e aggiunge intelligenza al suo motore di ricerca

Come funzionano Nova, i nuovi modelli di Ai per le immagini e i video di Aws?

ChatGpt Pro a 200 dollari e Gpt o1: ecco tutte le novità

Google anticipa Sora e lancia dentro Vertex Ai Veo, la nuova Ai generativa dedicata ai video

Cosa può fare la nuova versione di Minerva 7B? #DatavizAndTools

Gemini sbarca su iPhone. Ecco cosa cambia #DatavizAndTools

Musica, Dream Track è in fase di test. Ecco perché è una rivoluzione

Disponibile ChatGpt per Windows. Ecco cosa cambia

Claude 3.5 Sonnet ora può analizzare i documenti in PDF, anche i grafici #DatavizAndTools

Gemini entra in Google Maps. Ecco cosa cambia e qualche altra novità

Claude di Antrophic impara a usare il computer come un essere umano #DatavizAndTools

Come funziona Firefly Video Model di Adobe? #DatavizAndTools

ChatGPT ora parla come noi #DatavizAndTools

Microsoft ha aggiornato Copilot. Ecco come si è evoluto

NotebookLM di Google trasforma i vostri documenti in podcast

Come funziona Firefly Video Model di Adobe?Matematica, catena di pensiero e coding. Cosa ha di diverso o1 di OpenAI?

Cosa sono e a cosa servono i servizi Gems di Gemini? #Ainews

Midjourney è accessibile a tutti via web e offre 25 crediti

Vi ricordate SearchGpt, il motore di ricerca di OpenAi? Cosa sappiamo finora?

Imagen 3 debutta negli Usa. Ecco cosa sappiamo del modello di Ai di Google

Cosa è e come funziona PartyRock?#DatavizAndTools

Come funziona Claude 3.5 Sonnet e cosa sa fare: i test superati #DatavizAndTools

DeepMind presenta V2A la nuova Ai per creare suoni e colonne sonore per i video

Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione

Ecco come funziona DeepL Enterprise, l’Ai linguistica per le aziende della startup tedesca

Come funziona Italia 9B e quali vantaggi dà un large language model italiano?

Llava è un modello multimodale di grandi dimensioni con capacità “visive”. Ecco come funziona

Haiku, Sonnet e Opus riescono a gestire una finestra di contesto da 200.000 token. Cosa vuole dire?

Come funziona l’analisi dei dati su ChatGpt?  #DatavizAndTools

Da Project Astra a Veo. Tutte le novità di Gemini presentate al Google I/O 2024 in sei video

AI Overview, come cambia il motore di ricerca di Google con Gemini?

Arriva Gpt-4o, ecco cosa ha di diverso il nuovo chatbot di OpenAI

Cosa è Microsoft Places? Ecco come funziona la nuova applicazione per la gestione dei luoghi

Come si installa e come funziona Phi-3 di Microsoft #DatavizAndTools

Come funzionano le nuove estensioni di Gemini?

Gpt-4, Gemini e Gemini 1.5 Pro. Scopri le differenze

Cerchia e cerca e altre novità Ai di Google sui telefonini Android

Come funziona Sima la nuova Ai di Google che completa i videogiochi al posto vostro

Come funziona e a cosa serve Ecco lo European Statistical Monitor?

Claude 3 di Anthropic è più potente di ChatGPt? Ecco quello che c’è da sapere.

Nasce Genie, il modello di Ai per creare videogiochi da una singola immagine

Ecco cosa promette il generatore di immagini Stable Diffusion 3

Gemma 2B e Gemma 7B. Ecco cosa si può fare con i modelli open source di Gemini

Da Adobe domande e riassunti con l’Ai gen su documenti Pdf

Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona

Come funziona Lumiere l’Ai di Google che genera video dal testo #DatavizAndTools

Microsoft Copilot ora è su tutti gli smartphone. #DatavizAndTools 

Come funzionano Nightshade e Glaze? #DatavizAndTools

Fotoritocco, come funzionano Abobe Photoshop Elements e Premiere? #DatavizAndTools

Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools

Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office

Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind

Cosa è e come funziona Code Interpreter per Gpt-4?

Come riconoscere immagini e testi generati dall’AI?

La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica

Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool

Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit. L’Ai generativa continua a divertire #datavizandtools

Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools

Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools

Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools

Le ultime novità “audio” dell’Ai generativa #DatavizAndTools

Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring

A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools

Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop

Come funziona Image, il creatore di mappe di Eurostat?

Come si visualizzazione le serie storiche?