In estrema sintesi, l’indicatore di sanremesità misura quanto i testi delle canzoni in gara al Festival di Sanremo 2025 somiglino a quelli delle canzoni arrivate sul podio negli ultimi dieci anni. Un valore numerico che oscilla tra 0 e 1, ovvero dall’essere meno all’essere più somigliante ai testi dei pezzi che sono stati premiati dalle diverse giurie popolari e non nell’ultimo decennio. Per elaborarlo, InfoData si è affidata all’intelligenza artificiale.
Prima di entrare nei dettagli di come è stato costruito l’indicatore, i numeri: con un indice di sanremesità di 0,715, “Dimenticarsi alle 7” di Elodie è la canzone che maggiormente ricorda, ovviamente a livello testuale, quelle finite sul podio dal 2015 ad oggi. Seguono “La tana del granchio” di Bresh con 0,709 e “Cuoricini” dei Coma_Cose con 0,705. All’estremo opposto, ovvero con un testo che non ricorda affatto quelli premiati nell’ultimo decennio, ecco “Quando sarai piccola” di Simone Cristicchi (0,229), “Volevo essere un duro” di Lucio Corsi (0,351) e “Amarcord” di Sarah Toscano (0,391).
Beninteso, non si tratta di una previsione di vittoria. Intanto, anche sul palco del Festival di Sanremo può adagiarsi un cigno nero. In secondo luogo, questa analisi trascura un elemento fondamentale all’interno di una canzone: la musica. Elemento che però, prima dell’inizio di Sanremo 2025, non è possibile prendere in considerazione. Resta una domanda cui rispondere: come è stato calcolato questo indice di sanremesità?
Il primo passo è stato quello di creare due file: uno con i testi delle canzoni in gara a Sanremo 2025, l’altra con quello dei pezzi che sono arrivati sul podio negli ultimi dieci anni. Dati che InfoData ha fornito ad un modello di AI, chiedendo di creare un’indicatore che consentisse di misurare la somiglianza tra i pezzi dell’edizione di quest’anno e i vincitori degli ultimi dieci.
Dopo averci chiesto di verificare di avere i diritti per utilizzare i testi delle canzoni, tema rispetto al quale prevale il diritto di cronaca, l’AI ha elaborato un primo indicatore, che premiava Achille Lauro. Richiesto di spiegare come fosse arrivato a questa conclusione, il modello impiegato ha citato, tra gli altri, la «fusione di elementi rock e melodici». Come possibile, senza la musica? «Hai perfettamente ragione, ho commesso un errore metodologico importante. Mi sono lasciato trasportare e ho iniziato a fare supposizioni sulla parte musicale che non posso fare, dato che ho accesso solo ai testi», la risposta.
Il secondo tentativo, centrato questa volta solo sui testi, ha premiato invece Cristicchi. Richiesto di spiegare come funzionasse l’algoritmo elaborato, il modello ha candidamente ammesso di non averlo utilizzato: «A dire il vero, non ho utilizzato un vero e proprio algoritmo matematico, e dovrei essere più trasparente su questo. Ho fatto invece un’analisi comparativa qualitativa che ho poi tradotto in numeri, il che rende il processo più soggettivo di quanto potrebbe sembrare».
È stato quindi necessario ribadire la richiesta di elaborare un algoritmo che confrontasse i vincitori delle ultime dieci edizioni con le canzoni in gara a Sanremo 2025 perché l’intelligenza artificiale assolvesse il compito. E il risultato è stato un algoritmo che prende in considerazione quattro elementi: il primo riguarda la presenza di temi ricorrenti, ovvero già cantati sul palco dell’Ariston, che pesa per il 30% sull’indicatore finale. In particolare, l’algoritmo ha cercato nei testi in gara quest’anno la presenza di parole come amore, vita, tempo, cuore e di altre molto presenti nei testi dei vincitori degli ultimi dieci anni.
Quindi si è conentrato sulla densità di ripetizioni delle singole parole e il Type-Token Ratio ovvero, semplificando estremamente, il tasso di ripetizione delle parole all’interno di un testo. Due elementi, questi, che pesano ciascuno per il 25%, Il restante 20% dell’indice di sanremesità arriva invece dalle ripetizioni all’interno della struttura della canzone. Ovvero di quanto venga ripetuto il ritornello, sempre per una sintesi brutale.
Creata una media di riferimento per i vincitori degli ultimi dieci anni, l’algoritmo ha misurato quanto le canzoni in gara a Sanremo 2025 si avvicinassero o si discostassero da questo valore. Ed ha elaborato l’indicatore visualizzato nel grafico che apre questo pezzo. Indicatore che appunto afferma che il testo di Elodie è quello che più si avvicina a quello delle canzoni finite sul podio tra il 2015 ed il 2024, mentre quello di Cristicchi è quello che più se ne allontana.
L’algoritmo creato dall’AI per calcolare l’indice si sanremesità è disponibile su GitHub
Per approfondire.
Sanremo 2024, vincerà Loredana Bertè
Ecco chi vince il festival di Sanremo (almeno su YouTube) – Parte 1
Ecco chi vince il festival di Sanremo (almeno su YouTube) – Parte 2
Tre domande sul Festival di Sanremo a Microsoft CoPilot #PromptAnalysis