Come funziona e come è fatto Qwen2.5-Max il rivale di DeepSeek?

Cominciamo con il dire che non è una novità. Il modello Qwen 2.5 ha raggiunto 94 milioni di download, di cui la metà nell’ultimo mese. In pratica, è il modello open-source più popolare al mondo, superando Llama 3.1 di Meta. Nei giorni scorsi dopo la “bomba” di Deepseek Alibaba ha rilasciato Qwen 2.5-Max che si presenta come la versione più aggiornata e potente. Stando agli indicatori di prestazione pubblicati dal colosso cinese sarebbe superiore a DeepSeek V3 ma anche a Gpt-o4 e Claude 3.5 Sonnet. Ma la notizia è Qwen 2.5 Max uscito pochi giorni dopo DeepSeek 2.

Cosa è Qwen 2.5 Max?

Non è un modello open source a differenza degli altri Qwen. E’ il più potente, supporta 29 lingue, tra cui italiano, inglese, cinese, spagnolo, francese, giapponese, coreano, arabo e altre. Come DeepSeek R1 ha una finestra di elaborazione che arriva a fino a 128K token in una singola conversazione, mentre è in grado di generare fino a 8K token (1.000 parole sono circa 750 token, per dare un’idea). E’ multimodale, può quindi elaborare immagini e audio. E dovrebbe fare anche video.

Quanto costa?

Qwen 2.5 Max costa 1,6 dollari per milione di token di input e 6,4 dollari per milione di token di output. Per confronto, il prezzo API di DeepSeek-R1 costa 0,55 dollari per milione di token di input e 2,19 dollari per milione di token di output.

Le prestazioni di Qwen 2.5 Max

«Qwen2.5-Max – scrivono sul loro sito – supera DeepSeek V3 in benchmark quali Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond. Quando confrontiamo i modelli base, non siamo in grado di accedere ai modelli proprietari come GPT-4o e Claude-3.5-Sonnet. Pertanto, valutiamo Qwen2.5-Max rispetto a DeepSeek V3, un modello MoE open-weight leader, Llama-3.1-405B, il modello denso open-weight più grande, e Qwen2.5-72B, che è anche tra i migliori modelli densi open-weight».

Come è fatto tecnicamente

Qwen2.5-Max, un modello MoE (Mixture-of-Expert (MoE) su larga scala che è stato pre-addestrato su oltre 20 trilioni di token e ulteriormente post-addestrato con metodologie curate Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF). Andiamo con ordine MoE è un’architettura di modelli che punta a suddividere il problema in sotto-compiti più semplici, assegnando ogni compito a un “esperto” specializzato. Immagina di dover affrontare un problema complesso, ad esempio diagnosticare una malattia rara. Invece di consultare un unico medico generico, ti affideresti a diversi specialisti, ognuno esperto in una particolare area (cardiologo, neurologo, ecc.). Un MoE funziona in modo simile. Ufficialmente non lo sappiamo ma pare che anche Gpt sia MoE.

Come è stato addestrato?

Qwen 2.5 Max è stato pre-addestrato su oltre 20 trilioni di token (ovvero 20 mila miliardi), contro i 14,8 mila di miliardi di DeepSeek-R1. Sappiamo solo questo. Nessun indizio sui contenti. Quanto al come entrano in campo diverse tecniche. Qwen 2.5 Max ha usato sia Supervised Fine-Tuning (SFT) e che Reinforcement Learning from Human Feedback (RLHF). Sono due tecniche utilizzate per addestrare modelli linguistici di grandi dimensioni (LLM).

Hot Topics:

Indica un intervallo di date: