Basta un’occhiata! Studiare le espressioni facciali dei primati con il deep learning
Nei primati, le espressioni facciali svolgono un ruolo comunicativo cruciale, ma la loro interpretazione è lenta e costosa. Nel nostro laboratorio utilizziamo l’intelligenza artificiale per addestrare modelli in grado di riconoscere automaticamente punti chiave del viso di alcune specie di primati. Questo ci permette di misurare e confrontare le espressioni individuali e di studiare in modo più oggettivo le informazioni che comunicano.
Lo studio della comunicazione è fondamentale per comprendere come vivono le diverse specie, come interagiscono fra loro, ma anche per ricostruire come si sono evolute nel tempo le forme di comunicazione vocale, incluso il linguaggio umano.
Per molto tempo, i progressi in questa disciplina sono stati rallentati da difficoltà tecniche importanti: per esempio raccogliere segnali in ambienti naturali complessi e, soprattutto, distinguere i segnali “utili” dal “disturbo” di fondo prodotto da video o registrazioni in cui venivano catturati rumori, variazioni di luce o movimenti imprevedibili.
Negli ultimi anni, l’intelligenza artificiale ha cominciato a erodere questi confini. Il machine learning, ormai parte della nostra quotidianità, ha trasformato il modo in cui analizziamo i dati biologici: algoritmi capaci di “imparare” da soli riescono a estrarre informazioni utili da segnali complessi, automatizzando analisi che prima richiedevano molto lavoro manuale.
Le applicazioni in biologia sono già numerose: dalla lettura di sequenze di DNA al riconoscimento automatico delle specie riprese dalle fototrappole, fino alla classificazione dei richiami vocali. In questo ambito, sistemi di monitoraggio acustico permettono di identificare le specie a partire dai suoni o di stimarne l’abbondanza in un’area.
Eppure, la comunicazione negli animali non è solo acustica: è mediata da odori, gesti, posture e soprattutto dai volti.
Nei primati, le espressioni facciali non sono semplici e automatici riflessi, ma segnali sociali essenziali per risolvere conflitti, coordinare il gioco, regolare la distanza sociale e rafforzare legami.
In questi comportamenti affondano anche le radici della comunicazione non verbale umana.
Oggi, tuttavia, lo studio dei volti dei primati si basa ancora in gran parte su un’analisi manuale dei video, fotogramma per fotogramma. Un lavoro molto lento, soggetto a errori interpretativi e difficile da applicare a grandi archivi video.
Da qui nasce la sfida del Laboratorio di Etologia del Dipartimento di Scienze della Vita e Biologia dei Sistemi: sviluppare un’alternativa automatica e oggettiva per misurare le espressioni facciali dei primati. Abbiamo scelto la markerless pose estimation, una tecnica che non richiede marcatori applicati sul volto. In pratica, alleniamo una rete neurale a riconoscere i punti chiave del viso direttamente dalle immagini.

I modelli che abbiamo creato identificano 13 punti principali – attorno a bocca, occhi e punta del naso – e per ogni fotogramma forniscono coordinate precise che possono essere trasformate in misure delle diverse espressioni. Grazie alle distanze tra i punti chiave possiamo finalmente quantificare movimenti facciali che prima venivano descritti solo in modo qualitativo.
In uno studio iniziale, il metodo ha permesso di distinguere automaticamente le espressioni facciali associate a vocalizzazioni da espressioni “mute”, ovvero non associate a un’emissione vocale. In un lavoro successivo abbiamo dimostrato come classificare le espressioni facciali in base al contesto sociale e comportamentale, usando solo i pattern di distanza tra i 13 punti.

Oggi il progetto continua combinando diversi modi di comunicare: stiamo studiando insieme le espressioni facciali e le caratteristiche acustiche dei suoni emessi dagli stessi individui, per capire come le vocalizzazioni influenzino le configurazioni del volto e, allo stesso tempo, come i movimenti facciali possano modulare i suoni. L’impatto di questa ricerca si legge su due fronti complementari.
LEGGI ANCHE
Anche la foresta va a tempo: ritmo e musicalità nei primati cantanti
Dal punto di vista metodologico, l’uso di reti neurali per stimare i movimenti facciali riduce drasticamente i tempi e i costi dell’analisi video. Questo significa meno ore di codifica manuale, meno risorse impiegate e, soprattutto, la possibilità di lavorare su grandi quantità di dati comportamentali che prima restavano inutilizzate proprio per limiti di tempo. Questi strumenti diventano così un supporto operativo concreto per chi vuole misurare movimenti complessi degli animali, sia in natura sia in laboratorio.
Dal punto di vista etologico, i primi risultati confermano lo stretto legame tra espressioni facciali e vocalizzazioni nei primati.
Studiare questa relazione con strumenti più precisi ci permette di osservare la comunicazione come un sistema dinamico e multimodale, offrendo nuovi spunti sul modo in cui si sono evolute le capacità vocali.
Questa storia di ricerca è stata editata da Silvia Cussotto e Federica Rachetto, studentesse del corso di Laurea in Biologia dell'Ambiente, nell'ambito del tirocinio presso la Redazione di Frida. La supervisione è a cura della Redazione.