I modelli di linguaggio basati su Transformer hanno raggiunto enormi successi in applicazioni come l’elaborazione del linguaggio naturale, la visione artificiale e le previsioni di serie temporali. Tuttavia, il loro principale punto debole è la complessità computazionale quadratica degli strati di attenzione rispetto alla lunghezza del contesto di input. Questo ostacolo ha limitato l’applicabilità di questi modelli a contesti più lunghi.
Un team di ricercatori di Yale, Google e CMU ha sviluppato HyperAttention, un innovativo meccanismo di attenzione che promette di risolvere questa sfida computazionale. L’idea centrale è quella di approssimare in modo efficiente il nucleo del calcolo dell’attenzione, pur mantenendo le proprietà spettrali desiderate.
“La chiave del nostro approccio è l’introduzione di due parametri che misurano la distribuzione degli elementi dominanti nella matrice di attenzione”, afferma Amin Karbasi, uno degli autori principali. “Quando questi parametri sono piccoli, siamo in grado di ottenere un algoritmo di campionamento quasi lineare”.
L’algoritmo HyperAttention stima la matrice diagonale dell’attenzione identificando gli elementi dominanti tramite locality-sensitive hashing e campionamento casuale di chiavi. Successivamente, approssima il prodotto matriciale campionando le righe della matrice dei valori in base alle loro norme. Questo approccio ha una complessità di calcolo quasi lineare, superando i limiti dei precedenti metodi approssimati.
I risultati empirici sono promettenti. Su benchmark a lungo contesto, HyperAttention accelera significativamente modelli preaddestrati come ChatGLM2 e phi-1.5, mantenendo prestazioni accettabili.
HyperAttention potrebbe sbloccare una nuova era di modelli di linguaggio che operano su contesti estremamente lunghi, aprendo la strada a nuove applicazioni rivoluzionarie. Con la sua promessa di calcoli quasi lineari, offre una soluzione praticabile per affrontare una delle più grandi sfide nella scalabilità dell’intelligenza artificiale al giorno d’oggi.
Leggi l’articolo completo HyperAttention: Long-context Attention in Near-Linear Time su ArXiv:
Foto in copertina di Google DeepMind su Pexels.com