Il mondo dell’intelligenza artificiale (IA) è affascinante e pieno di promesse, ma anche pieno di domande senza risposta. Un recente studio condotto da Yuri Burda e Harri Edwards di OpenAI, ha rivelato un fenomeno intrigante: i modelli linguistici possono imparare in modi imprevisti e apparentemente magici. Questo comportamento, chiamato “grokking”, ha catturato l’attenzione della comunità scientifica, evidenziando il fatto che nonostante i grandi successi del deep learning, molti aspetti fondamentali rimangono ancora inspiegabili.
I grandi modelli linguistici, come GPT-4 di OpenAI e Gemini di Google DeepMind, mostrano una straordinaria capacità di generalizzazione, cioè di applicare ciò che hanno imparato a nuove situazioni mai incontrate prima. Ma questa capacità non si adatta facilmente alla statistica classica, sollevando interrogativi su come e perché questi modelli funzionino così bene.
Il fenomeno del “double descent”, scoperto da Mikhail Belkin e altri ricercatori, ha sconvolto le aspettative tradizionali: invece di peggiorare all’aumentare delle dimensioni, i modelli più grandi sembrano continuare a migliorare. Questo suggerisce che ci sia molto di più da capire sulla complessità dei modelli e sulla loro capacità di adattarsi ai dati.
Il dibattito tra gli scienziati continua: alcuni credono che i modelli seguano ancora i principi della statistica classica, mentre altri sostengono che ci siano nuove regole in gioco. È essenziale capire come funzionano i grandi modelli linguistici per sbloccare il loro pieno potenziale e affrontare le sfide future.
Leggi l’articolo completo: Large language models can do jaw-dropping things. But Nobody knows exactly why. su technologyreview.com.
Immagine ottenuta con DALL-E 3.