Cerca
Close this search box.

Il misterioso potere dei modelli linguistici nell’IA

Immagine di un robot dotato di AI che sta imparando autonomamente in un ambiente tecnologico immaginario un po cyberpunk.

Il mondo dell’intelligenza artificiale (IA) è affascinante e pieno di promesse, ma anche pieno di domande senza risposta. Un recente studio condotto da Yuri Burda e Harri Edwards di OpenAI, ha rivelato un fenomeno intrigante: i modelli linguistici possono imparare in modi imprevisti e apparentemente magici. Questo comportamento, chiamato “grokking”, ha catturato l’attenzione della comunità scientifica, evidenziando il fatto che nonostante i grandi successi del deep learning, molti aspetti fondamentali rimangono ancora inspiegabili.

I grandi modelli linguistici, come GPT-4 di OpenAI e Gemini di Google DeepMind, mostrano una straordinaria capacità di generalizzazione, cioè di applicare ciò che hanno imparato a nuove situazioni mai incontrate prima. Ma questa capacità non si adatta facilmente alla statistica classica, sollevando interrogativi su come e perché questi modelli funzionino così bene.
Il fenomeno del “double descent”, scoperto da Mikhail Belkin e altri ricercatori, ha sconvolto le aspettative tradizionali: invece di peggiorare all’aumentare delle dimensioni, i modelli più grandi sembrano continuare a migliorare. Questo suggerisce che ci sia molto di più da capire sulla complessità dei modelli e sulla loro capacità di adattarsi ai dati.

Il dibattito tra gli scienziati continua: alcuni credono che i modelli seguano ancora i principi della statistica classica, mentre altri sostengono che ci siano nuove regole in gioco. È essenziale capire come funzionano i grandi modelli linguistici per sbloccare il loro pieno potenziale e affrontare le sfide future.

Leggi l’articolo completo: Large language models can do jaw-dropping things. But Nobody knows exactly why. su technologyreview.com.

Immagine ottenuta con DALL-E 3.

Accedi per vedere questi contenuti

registrati se non lo ha ancora fatto