I nostri comportamenti online rivelano sempre di il nostro carattere. Le tracce che lasciamo sui social parlano di noi, indicano interessi, delineano tratti di personalità.
“Le personalità su Twitter” progetto per il master in Big Data Analytics & Social Mining dell’Università di Pisa, è nato proprio dal desiderio di verificare in che misura quel che scriviamo su un social network rivela chi siamo.
La Twitter-sfera e il modello Big Five
Abbiamo utilizzato due strumenti principali: LIWC, un software di analisi testuale automatizzata, e il modello Big Five. Quest’ultimo consente di delineare profili psicologici attraverso cinque tratti fondamentali: apertura mentale, scrupolosità, estroversione, amabilità, nevroticità. Entrambi gli strumenti sono consolidati negli studi di personality detection.
Il rilevamento dei tratti di personalità mediante l’uso dei social network è un campo di ricerca nuovo, in espansione e in cui convergono teorie psicologiche generali, psicometria, linguistica computazionale e tecniche di machine learning.
Negli ultimi anni vi è stato un acceso dibattito sulla profilazione di utenti, clienti o elettori. Il modello Big Five è stato impiegato dalla società londinese di marketing elettorale Cambridge Analytica nelle campagne sulla Brexit e per le ultime presidenziali USA. Una delle maggiori controversie riguarda la sua effettiva incidenza sugli orientamenti di voto dei cittadini britannici e statunitensi.
Per comprendere la reale efficacia di questo metodo abbiamo quindi tratteggiato i profili psicologici degli utenti Twitter di lingua italiana utilizzando il modello Big Five. Sapevamo che scegliere Twitter avrebbe comportato delle difficoltà: i tweet sono più brevi dei post su Facebook, quindi tendenzialmente meno ricchi di dati per l’analisi testuale automatizzata. Ciò è tuttavia compensato dalla maggior accessibilità via API di Twitter rispetto a Facebook.
Ci siamo anche chiesti fino a che punto la scrittura mediata da un social potesse riflettere autentiche disposizioni psicologiche. Studi recenti, tuttavia, sottolineano che le nostre attività online e offline sono sempre più connesse rendendo meno nette le differenze fra le due dimensioni.
Come studiare 1,7 miliardi di tweet
Per le analisi testuali abbiamo utilizzato Python, e per le visualizzazioni D3js. Abbiamo costruito e analizzato il database – 14,2 milioni di account unici e 1,7 miliardi di tweet – fra aprile e giugno 2017. Per garantire l’affidabilità dei risultati, abbiamo concentrato la nostra attenzione su circa due milioni e mezzo di account, per i quali si disponeva di tweet con almeno 70 corrispondenze rispetto al dizionario LIWC.
In primo luogo, abbiamo individuato i 1.000 utenti più seguiti sul social. Successivamente, tramite il crawling dei loro account, abbiamo ricavato i follower e following, ampliando così il numero di utenti considerati. Mediante tecniche di text mining abbiamo quindi individuato il genere e la provincia o regione (di residenza o d’uso del social) associate agli account.
I pianificatori abitano al Nord, gli estroversi al Sud
La distribuzione dei tratti fra gli utenti Twitter italiani sembra confermare alcuni luoghi comuni sul nostro Paese, come la propensione alla pianificazione del Nord-Est, l’estroversione delle regioni del Sud e la presenza di due isole felici d’organizzazione e spirito cooperativo – la Val D’Aosta e il Trentino Alto-Adige.
Affinità e interazioni su Twitter
Abbiamo individuato 5 cluster fra gli utenti italiani, ovvero 5 gruppi accomunati da particolari valori e combinazioni di tratti psicologici. Come si nota nel grafico, due coppie di cluster mostrano un andamento speculare: dispersivi e focalizzati da un lato, innovatori e conservatori dall’altro. Nel mezzo si collocano gli equilibrati, caratterizzati da valori medi nei cinque tratti OCEAN.
Ci sono apparse significative anche le modalità di interazione tra gruppi. Si nota un diffuso effetto specchio, ovvero la tendenza a seguire utenti con profili psicologici simili, ma anche una più ristretta attrazione per la diversità: gli equilibrati, infatti, tendono a seguire, condividere e citare prevalentemente i dispersivi.
I più seguiti hanno un carattere più definito
I risultati ottenuti analizzando i 4000 account più seguiti hanno fatto emergere interessanti affinità per categorie d’utenti: i politici, gli esperti di comunicazione, i personaggi dello spettacolo, le star di Twitter, i musicisti, gli sportivi e gli account che abbiamo definito “impersonali” – aziende, enti pubblici, canali di comunicazione (come quotidiani o canali televisivi).
Le categorie hanno un tratto comune: la forte caratterizzazione psicologica. Gli account con maggior seguito si discostano dalla tripartizione regolare da noi definita per raggruppare i profili attraverso i cinque tratti, ovvero punteggi bassi (il 25% inferiore), medi (il 50% di valori centrali) e alti (il 25% superiore). Le personalità più popolari su Twitter hanno valori polarizzati verso l’alto o il basso di ciascun tratto.
Significativi i risultati sull’instabilità emotiva: quasi tutte le categorie registrano bassi valori di nevroticità, a eccezione delle star dei social. Immediatezza e variabilità del loro stile comunicativo potrebbero accompagnarsi a una certa fragilità psicologica, o alla tendenza a vivere emozioni negative, come rabbia, ansia, senso di colpa.
Viceversa, aziende, enti pubblici e canali di comunicazione sono accomunati da livelli minimi di instabilità emotiva. Si tratta di un risultato coerente con la loro immagine pubblica e con approcci comunicativi generalmente sobri e uniformi.
I politici mostrano una caratterizzazione ibrida, con affinità sia rispetto agli utenti impersonali, che alla macro-categoria spettacolo e comunicazione. Dai loro tweet emergono infatti apertura al nuovo, propensione a pianificare, ma anche una certa tendenza a vivere sbalzi d’umore.
Musicisti e sportivi, infine, mostrano valori quasi identici per amabilità e scrupolosità. Fiducia nel prossimo e orientamento ai risultati sono distribuiti in modo molto simile nelle due categorie.
Una presentazione più approfondita del lavoro con i dettagli tecnici è disponibile qui
A questo link l’articolo, risultato del progetto.
Gli autori del progetto sono Domenico Bianco, Mauro M. Gentile e Francesco Grisolia
“Il Master in Big Data dell’Università di Pisa è un percorso annuale per diventare data scientist. Attraverso questo account pubblichiamo il dietro le quinte dei progetti degli studenti dei corsi di big data suorces, data visualization e datajournalism.”