Pubblicato il: 11/01/2024
Neural Networks, credit foto: Marco Gherardi.

Neural Networks, credit foto: Marco Gherardi.

Una nuova teoria matematica dell'apprendimento nelle reti neurali è il focus del primo dei due studi pubblicati su Nature Machine Intelligence a cui ha lavorato Marco Gherardi, ricercatore al dipartimento di Fisica Aldo Pontremoli dell’Università degli Studi di Milano. Questa teoria è costruita con gli strumenti della fisica statistica e permette di prevedere e comprendere in modo più accurato, rispetto alle teorie attuali, le performance di una classe di reti neurali profonde. 

Il secondo articolo approfondisce invece la struttura dello spazio nel quale si muove l’intelligenza artificiale durante l’apprendimento automatico. Questo lavoro è stato coordinato da Marco Gherardi affiancato da due gruppi di ricerca guidati da Matteo Osella (Università di Torino) e Pietro Rotondo (ora all’Università di Parma). Hanno partecipato al lavoro due ex studenti milanesi (Simone Ciceri e Lorenzo Cassani) e un dottorando torinese (Filippo Valle).

La comunità scientifica sta studiando il funzionamento dell’intelligenza artificiale partendo da diversi approcci e campi differenti, in primis informatico, fisico e matematico, che usano metodi diversi e a volte complementari. Gli studi pubblicati su Nature Machine Intelligence sono il frutto di ricerche di un gruppo di fisici afferenti a diversi atenei italiani ed esteri.

Dagli assistenti vocali ai chatbot, l’intelligenza artificiale ormai pervade la nostra quotidianità. A dispetto dell'esplosione che vediamo nelle applicazioni, lo sviluppo di queste tecnologie, in particolare quelle basate sulle reti neurali profonde, non è ancora fondato su solide basi teoriche. Una profonda comprensione del funzionamento dei modelli di apprendimento automatico è ancora lontana: raggiungerla è l'obiettivo di una comunità scientifica che lavora all'interfaccia tra informatica e fisica teorica.

Il primo progetto, incentrato sulle performance di una classe di reti neurali profonde, è stato coordinato da Pietro Rotondo (ex Fellini fellow presso l’Istituto Nazionale di Fisica Nucleare, ora all'Università di Parma), in collaborazione con Marco Gherardi (Università degli Studi di Milano), Francesco Ginelli (Università dell'Insubria) e Mauro Pastore (Université Paris-Saclay). Al lavoro hanno contribuito due dottorandi: Rosalba Pacelli (Politecnico di Torino) e Sebastiano Ariosto (Università dell'Insubria).

Il nostro team ha formulato una teoria matematica in grado di predire le performance raggiunte da una classe di reti neurali profonde, quelle chiamate “fully connected”. La teoria è in grado di determinare, con accuratezza maggiore rispetto agli strumenti analitici finora disponibili, la capacità di astrazione di una rete a partire dai parametri fondamentali che la descrivono: larghezza dei “layer nascosti”, funzione di attivazione, e i dati usati per allenarla” spiega Marco Gherardi, ricercatore fra gli autori dello studio, che continua: “dal punto di vista tecnico, la teoria è formulata con gli strumenti matematici della meccanica statistica, la branca della fisica teorica che si occupa dei sistemi con un grande numero di gradi di libertà, quali i gas, i fluidi, i polimeri, o, in ambito interdisciplinare, i sistemi complessi.

Questo lavoro contribuisce a colmare il divario tra teoria e applicazioni pratiche dell’intelligenza artificiale, aprendo la strada all’analisi quantitativa delle reti neurali usate nelle applicazioni più attuali, generalmente più complesse di quelle "fully connected".

Il secondo studio si focalizza sul labirinto di possibilità che vanno vagliate per addestrare efficacemente una rete neurale: “la comunità scientifica sta lentamente tracciando una mappa del labirinto – continua Marco Gherardi - io guido un gruppo di fisici impegnati in questa cartografia: la nostra visione, ispirata alla fisica fondamentale, è che il labirinto debba nascondere delle regolarità, degli schemi: conoscerli faciliterà l'esplorazione. Abbiamo scoperto una di queste regolarità. La scoperta è avvenuta fortuitamente, mentre osservavamo il modo in cui le reti rappresentano internamente i dati durante la fase di addestramento. Ci si aspetterebbe che rappresentazioni di dati appartenenti a categorie diverse, come ad esempio l'immagine di un’automobile e quella di un gatto, si allontanassero sempre più mano a mano che la rete apprende a distinguere le due categorie, in un movimento ininterrotto di espansione. Invece la dinamica di apprendimento procede in modo simile a un respiro: ad una prima espansione segue una contrazione. La regolarità sta nel punto di massima espansione, che è universale: non dipende dall’architettura né dalla procedura scelta per addestrarla. Questi risultati incoraggiano ulteriori approfondimenti su questa linea; l’obiettivo a lungo termine è una teoria che possa assistere nella creazione di nuovi modelli di intelligenza artificiale”.

I link agli studi pubblicati su Nature Machine Intelligence:

  1. A statistical mechanics framework for Bayesian deep neural networks beyond the infinite-width limit
  2. Inversion dynamics of class manifolds in deep learning reveals tradeoffs underlying generalization

Contatti