Intervista
Livio Bioglio
Livio Bioglio

Addestrare le IA: questione di “etichetta” e di trasparenza

Si sente spesso dire che le Intelligenze Artificiali (IA) necessitano di moltissimi dati per il loro addestramento. Ma come sono fatti questi dati, e le grandi aziende che creano le IA in che modo li ottengono? Ne parliamo con Livio Bioglio del Dipartimento di Studi Umanistici dell’Università di Torino.

Cosa significa addestrare una IA?
Le IA attuali vengono create usando tecniche di machine learning (apprendimento automatico), in cui programmatrici e programmatori umani hanno scritto degli algoritmi di apprendimento in grado di identificare in maniera automatica schemi e relazioni (pattern) all’interno di una serie di dati generici grazie a sofisticate tecniche di probabilità e statistica. Questi algoritmi di apprendimento possono quindi essere usati su dati diversi per risolvere problemi diversi: il risultato di questa procedura di addestramento è un software, chiamato in gergo modello, che ha “imparato” a risolvere un problema a partire dai dati, perché ne ha individuato i complessi schemi sottostanti ed è poi in grado di usare questa conoscenza acquisita per riconoscere queste relazioni su dati completamente nuovi.

E questi dati usati per l’addestramento hanno qualche caratteristica speciale?
Dipende dal tipo di compito che la IA dovrà svolgere, ma nella maggior parte dei casi si tratta di problemi di apprendimento supervisionato, in cui gli algoritmi devono essere addestrati utilizzando dati annotati, ossia dati a cui sia stata assegnata una qualche etichetta. Per esempio se vogliamo creare una IA in grado di riconoscere il sentimento (positivo o negativo) espresso in un testo, dobbiamo fornire a un algoritmo di apprendimento una moltitudine di testi a cui sia stata preventivamente assegnata un’etichetta che indica il sentimento espresso in quel testo. Maggiore è la quantità e la varietà dei testi, e la qualità dell’annotazione, e migliore sarà la IA risultante dal processo di addestramento. Applicazioni che fanno uso di questo tipo di IA sono per esempio quelle volte a contrastare la diffusione di discorsi d’odio sui social media.

Esistono dei software preposti all’annotazione di questi dati?
Eh, magari: se avessimo dei software in grado di annotare i dati con grande precisione allora non avremmo bisogno di addestrare le IA! Questi dati devono essere per forza annotati da esseri umani, non esiste altra soluzione. A volte siamo proprio noi utenti del web a svolgere questo lavoro di annotazione, in maniera del tutto inconsapevole…

In che senso in maniera inconsapevole?
A tutte e tutti sarà capitato di dover risolvere un captcha, uno di quei test per determinare se l'utente sia un umano o un bot. Nel formato attualmente più comune ci viene chiesto di riconoscere da una griglia di immagini quelle contenenti semafori, strisce pedonali, bus o cose simili. Ecco, questo è proprio un caso di annotazione inconsapevole: il software ha già riconosciuto in un altro modo il nostro status di esseri umani, e per proseguire ci chiede di etichettare delle immagini, che in questo caso saranno poi usate per addestrare IA per la guida autonoma. Ma esistono tanti altri esempi, perché ormai quasi tutte le grandi aziende informatiche usano i dati degli utenti in loro possesso, oltre che per fini pubblicitari, anche per addestrare le loro IA: Facebook ha utilizzato milioni di foto profilo per addestrare DeepFace, il suo software di riconoscimento facciale; il filtro antispam di Gmail è così efficiente proprio perché siamo noi utenti a segnalare i messaggi indesiderati, etichettando così le mail; Amazon usa i dati di acquisto degli utenti per addestrare i propri algoritmi di raccomandazione, che ci consigliano prodotti simili a quelli che stiamo visualizzando; e così via…

E quindi questo lavoro che svolgiamo in modo inconsapevole basta per soddisfare la sete di dati degli algoritmi di apprendimento?
In effetti no, non tutte le aziende possiedono grandi moli di utenti, e inoltre non ci si può affidare sempre ad annotatori inconsapevoli: a volte servono annotatori esperti, opportunamente formati su uno specifico compito di annotazione. Per esempio se volessimo creare una AI per riconoscere un tumore, dovremmo utilizzare delle immagini di radiografie che sono state annotate da medici in grado di riconoscere quella patologia, perché una persona comune non sarebbe in grado di farlo. Qualcosa di simile è stato fatto in Unito per addestrare una IA a rilevare il covid-19 attraverso le radiografie. Per questo esistono ormai aziende che si occupano di annotare dati per conto terzi: sono proprio come delle fabbriche, i cui operai devono etichettare testo, immagini, video, o qualsiasi altro tipo di dato seguendo le rigide direttive imposte dal committente, in cambio ovviamente di un compenso; la più famosa è Mechanical Turk di Amazon, ma ce ne sono moltissime altre. Il compito richiesto è di solito molto semplice, quindi spesso questi operai hanno paghe molto basse, o le fabbriche di annotazioni sono poste direttamente in Paesi a basso reddito, come India, Kenya o Madagascar, e si tratta purtroppo di lavori estremamente precari.

Anche le IA generative, di cui tanto si parla, sono addestrate in questo modo?
L'IA generativa si distingue da altre forme di IA per la sua capacità di generare contenuti in modo autonomo, ma si basa sempre su algoritmi statistici, che producono un modello in grado di creare un contenuto simile a quelli di addestramento, ma completamente nuovo: una replica che assomigli all’originale, ma senza esserne una copia esatta. Queste IA sono usate per generare testo, musica o immagini come farebbero degli esseri umani, e pertanto devono essere addestrate usando contenuti generati da esseri umani. E questi contenuti sono presi dalla più grande fonte di contenuti multimediali mai creata, il Web, spesso da pagine web pubbliche come Wikipedia, ma in molti credono che siano stati utilizzati anche testi e immagini protetti da copyright, o per cui gli utenti non avevano dato il consenso a tale uso. L'agenzia fotografica Getty Images ha citato in giudizio Stability AI per presunta violazione di copyright, perché ritiene che abbia utilizzato milioni di immagini presenti sulla piattaforma per addestrare la sua IA, Stable Diffusion, e lo stesso hanno fatto alcune scrittrici e scrittori contro OpenAI, sospettando che l’azienda abbia usato i loro libri per addestrare ChatGPT. Attualmente però non è possibile estrarre da una IA i dati che sono stati usati per il suo addestramento (anche se qualcuno ci sta provando), pertanto queste appropriazioni rimangono solo dei sospetti, anche se molto fondati. A questo proposito il Parlamento Europeo sta discutendo della creazione di una serie di regole, chiamate AI Act, per la regolamentazione di queste tecnologie, che tra le altre cose obblighi le aziende produttrici di IA a rendere pubbliche le informazioni sui dati coperti da copyright usati per il loro addestramento.

Nel 2019 hai partecipato al progetto M.EMO.RAI in collaborazione con la RAI, in cui avete addestrato una IA a riconoscere le emozioni nei tweet sui programmi televisivi: avete usato uno di questi espedienti per addestrare il vostro software?
No, in quel progetto non abbiamo usato nessuno strano espediente, solo il caro, vecchio olio di gomito. Il lavoro di annotazione manuale della decina di migliaia di tweet usati per l’addestramento è stato svolto da tutti i membri del progetto, sia di Unito che di Rai: ci siamo divisi equamente il carico di lavoro, con qualche migliaio di post a testa (perché è meglio avere annotazioni svolte da diverse persone sullo stesso dato). Anche se non posso essere sicuro che nessuno abbia subappaltato il compito a qualche povero studente o ai propri figli… (sorride)