Dal vulcano Maunga Whau a Covid-19. La matematica che aiuta a gestire i big data
Una sfida di grande impatto per la nostra società riguarda la capacità di gestire e interpretare nel modo corretto grandi quantità di dati. Internet, mobile e social media stimolano la ricerca di tecnologie che possano processare la continua e spesso inconsapevole “fabbricazione di dati”. La matematica può però fornirci un valido aiuto.
Sfiorando i 200 metri di altezza sul livello del mare, il vulcano Maunga Whau a Auckland in Nuova Zelanda domina l'istmo della città di Auckland offrendo una vista panoramica mozzafiato a 360 gradi. Anche per questo, molto probabilmente, il nome che gli è stato assegnato significa Monte Eden; eppure, si tratta di un vulcano dormiente, che potrebbe restare tale per decine di anni o risvegliarsi da un momento all’altro, ed è quindi di particolare interesse per i geologi. Trovandosi a studiare questo vulcano a partire magari da come si è evoluto nel passato, un geologo avrà bisogno di modelli matematici che rappresentino il più fedelmente possibile i dati rilevati fornendo una ricostruzione accurata del territorio circostante.
Io, da matematico, mi occupo proprio di questo. Nelle scienze applicate, come nel caso appena descritto, la necessità di trattare grandi insiemi di dati (o Big Data) richiede l’utilizzo di metodi numerici, siano essi deterministici, per i quali le variabili di input hanno valori fissi, o stocastici, che tengono invece in considerazione le variazioni delle variabili di input, e quindi forniscono risultati in termini di "probabilità".
In entrambi i casi, l’utilizzo di tali tecniche di calcolo può essere effettuato solamente facendo uso di efficienti algoritmi, che processano i dati in modo sequenziale o in parallelo. Gestire questa grande mole di dati risulta essere particolarmente costoso dal punto di vista computazionale, con tempi di processamento anche molto lunghi. Questo accade principalmente quando il problema da trattare è multidimensionale, ovvero coinvolge varie dimensioni spaziali e temporali oppure è caratterizzato da molti parametri di input. Oltre all’ambito della geologia con il quale abbiamo iniziato questo racconto, una situazione di questo tipo si presenta spesso in numerose altre aree scientifiche come, per esempio, la geostatistica, la geofisica, la grafica computerizzata, il machine learning, l’intelligenza artificiale, l’ottimizzazione, la finanza e l’economia.
Uno degli approcci più comuni alla trattazione dei dati è quello che si basa sull’uso di griglie o mesh, che consiste nel costruire delle griglie vere e proprie visualizzabili facilmente sul piano bidimensionale e nello spazio tridimensionale, come una struttura che “fraziona” lo spazio. Sebbene molto utile dal punto di vista pratico, questo metodo, che già di per sé richiede molte risorse computazionali, risulta poco efficiente se ci troviamo a dover processare una importante mole di dati o problemi di grandi dimensioni. In questi casi si ricorre allora ai metodi meshless o meshfree, ovvero indipendenti da mesh.
Il contesto però nel quale incentriamo ora questo racconto riguarda l’approssimazione e, più precisamente, l’interpolazione di dati sparsi. Pensando per esempio alla situazione drammaticamente attuale di Covid-19, se abbiamo il numero di nuovi casi di contagio e la variabile “tempo”, interpolare i dati giornalieri aiuta a visualizzare l’andamento della diffusione del virus tramite una curva (più precisamente, una funzione) crescente, decrescente o stabile.
Io mi occupo del caso particolare dell’interpolazione basata su funzioni a base radiale, ovvero funzioni dipendenti dalla distanza euclidea, cioè dalla distanza minima tra i punti da analizzare. Con l’intento quindi di arrivare a un modello matematico, che ci consenta di rappresentare il più fedelmente possibile i dati disponibili, usiamo efficienti algoritmi numerici con cui è possibile costruire un metodo numerico che ci permetta una rapida decomposizione di un problema di grandi dimensioni in piccoli sotto problemi, risolubili localmente ma senza ricorrere alle griglie. Si tratta di una strategia che permette di calcolare delle buone approssimazioni locali che costituiscono poi parte dell’approssimazione globale. Un problema di questo tipo trova applicazione proprio nel campo della topografia della Terra, con cui abbiamo aperto questo racconto (fig. 1).