Indica un intervallo di date:
  • Dal Al
tecnologia

Il progetto Knowing Machine, la qualità dei dataset di immagini e il caso di Laion-5B

Knowing Machines è un progetto di ricerca che traccia le storie, le pratiche e le politiche di come i sistemi di apprendimento automatico vengono addestrati a interpretare il mondo. Il loro intento è quello di sviluppare metodologie e strumenti critici per comprendere, analizzare e indagare dataset di addestramento e studiare il loro ruolo nella costruzione dei servizi di Ai generativa.

 

Qui Christo Buschek e Jer Thorp rivolgono l’attenzione sul dataset di immagini LAION-5B .

Cosa è Laion.5B. E’  il dataset di immagini con didascalia più grande del mondo. Viene usato da Stable Diffusion e da Lensa AI e comprende 5,85 miliardi di immagini. Common Crawl invece a dicembre era arrivata a rendere disponibili, 35 miliardi di pagine web. Entrambe sono aziende non profit, mettono a disposizione gratuitamente informazioni online per chi si occupa di sviluppare algoritmi di Ai. Chiedono in cambio donazioni e secondo la legge Usa del copyright (che però non è valida in Europa) si inquadrano all’interno del Fair Use. Vuole dire che queste immagini, di cui alcune sono sicuramente coperte da copyright, sono fornite gratis in quanto utili alla comunità.

La qualità dei dati. 

Un anno fa un team guidato da data scientist del Mit ha esaminato dieci dataset tra i più utilizzati per i test degli algoritmi di apprendimento automatico (machine learning) Hanno scoperto che circa il 3,4% dei dati era impreciso o etichettato in modo errato, il che, hanno concluso, potrebbe causare problemi ai sistemi di intelligenza artificiale che utilizzano questi set di dati. Più nello specifico ai benchmark e quindi ai test che vengono usati per dare un voto alle prestazioni dei sistemi di machine learning. La differenza non è di poco conto perché i benchmark contribuiscono a guidare la comunità degli sviluppatori che usano questi framework. Se questi benchmark non sono accurati si rischia di favorire sistemi con più alta probabilità di errore rispetto ad altri.

A dicembre, i ricercatori dell’Osservatorio Internet di Stanford hanno identificato su Laion 5B più di 1.000 immagini classificate come materiale di abuso sessuale infantile (CSAM) in uno dei set di formazione sull’intelligenza artificiale più influenti del momento: LAION-5B.

Ecco perché chiedere trasparenza. 

L’indagine su questi dataset uno dei pochi strumenti che abbiamo a disposizione per ottenere informazioni e comprendere in modo critico non tanto come funzionano ma da dove prendono le informazioni gli attuali e i futuri sistemi di intelligenza artificiale generativa. Quasi mai questi dataset sono pubblici. O sono le uniche fonti di informazioni. Per questo occorre chiedere trasparenza. E magari dare accesso a giornalisti e ricercatori per studiare come queste macchine imparano. Nel caso della visual story “Models all the way down si scorre sempre dall’alto verso il basso e compaiono “cose”. Non è sempre chiaro ma è interessante perché accende un faro sull’apprendimento di questi sistemi. E’ un inizio.