Leggi l’articolo completo qui: https://arxiv.org/abs/2401.16386v1
L’apprendimento continuo (Continual Learning, CL) è una branca dell’apprendimento automatico che mira a sviluppare sistemi in grado di apprendere continuamente da flussi di dati in evoluzione, senza dimenticare le conoscenze precedentemente acquisite. Negli ultimi anni, l’era dei modelli pre-addestrati (Pre-Trained Models, PTM) ha suscitato un enorme interesse nella ricerca, aprendo nuove opportunità per il CL.
In passato, i metodi di CL tradizionali costruivano il modello da zero, facendolo crescere man mano che i dati arrivavano. Tuttavia, l’avvento dei PTM ha cambiato questo approccio, spostando l’attenzione verso l’utilizzo delle loro robuste capacità di rappresentazione per il CL. L’articolo classifica i metodi esistenti in tre gruppi distinti, fornendo un’analisi comparativa dei loro vantaggi, svantaggi e differenze. Inoltre, presenta uno studio empirico che confronta diversi metodi all’avanguardia, evidenziando problemi di equità nei confronti.
L’apprendimento continuo con modelli pre-addestrati offre diversi vantaggi rispetto ai metodi tradizionali. In primo luogo, i PTM possiedono già una forte generalizzabilità, il che significa che possono essere adattati a una vasta gamma di compiti senza la necessità di un addestramento esteso. In secondo luogo, i PTM consentono un apprendimento leggero, il che significa che è possibile aggiornarli rapidamente per nuovi compiti mantenendo le loro capacità di generalizzazione. Ciò si traduce in una maggiore resistenza al degrado delle prestazioni dovuto all’apprendimento di nuovi compiti, noto come “catastrophic forgetting”.
Tuttavia, ci sono anche delle sfide associate al CL basato su PTM. Una di queste è la necessità di garantire l’equità nei confronti. L’articolo mostra che i risultati dei metodi all’avanguardia possono variare notevolmente a seconda di come vengono condotti gli esperimenti, sollevando preoccupazioni sull’equità nei confronti. Un’altra sfida è l’adattamento ai dati in evoluzione. I metodi di CL tradizionali sono progettati per adattarsi ai dati in arrivo, ma i PTM sono addestrati su grandi set di dati statici, il che potrebbe limitare la loro capacità di adattarsi a nuovi modelli di dati.