HyperAttention: calcolo dell’attenzione quasi lineare

I modelli di linguaggio basati su Transformer hanno raggiunto enormi successi in applicazioni come l’elaborazione del linguaggio naturale, la visione artificiale e le previsioni di serie temporali. Tuttavia, il loro principale punto debole è la complessità computazionale quadratica degli strati di attenzione rispetto alla lunghezza del contesto di input. Questo ostacolo ha limitato l’applicabilità di questi modelli a contesti più lunghi.

Un team di ricercatori di Yale, Google e CMU ha sviluppato HyperAttention, un innovativo meccanismo di attenzione che promette di risolvere questa sfida computazionale. L’idea centrale è quella di approssimare in modo efficiente il nucleo del calcolo dell’attenzione, pur mantenendo le proprietà spettrali desiderate.

“La chiave del nostro approccio è l’introduzione di due parametri che misurano la distribuzione degli elementi dominanti nella matrice di attenzione”, afferma Amin Karbasi, uno degli autori principali. “Quando questi parametri sono piccoli, siamo in grado di ottenere un algoritmo di campionamento quasi lineare”.

L’algoritmo HyperAttention stima la matrice diagonale dell’attenzione identificando gli elementi dominanti tramite locality-sensitive hashing e campionamento casuale di chiavi. Successivamente, approssima il prodotto matriciale campionando le righe della matrice dei valori in base alle loro norme. Questo approccio ha una complessità di calcolo quasi lineare, superando i limiti dei precedenti metodi approssimati.

I risultati empirici sono promettenti. Su benchmark a lungo contesto, HyperAttention accelera significativamente modelli preaddestrati come ChatGLM2 e phi-1.5, mantenendo prestazioni accettabili.

HyperAttention potrebbe sbloccare una nuova era di modelli di linguaggio che operano su contesti estremamente lunghi, aprendo la strada a nuove applicazioni rivoluzionarie. Con la sua promessa di calcoli quasi lineari, offre una soluzione praticabile per affrontare una delle più grandi sfide nella scalabilità dell’intelligenza artificiale al giorno d’oggi.

Leggi l’articolo completo HyperAttention: Long-context Attention in Near-Linear Time su ArXiv:

We present an approximate attention mechanism named HyperAttention to address the computational challenges posed by the growing complexity of long contexts used in Large Language Models (LLMs). Recent work suggests that in the worst-case scenario, quadratic time is necessary unless the entries of the attention matrix are bounded or the matrix has low stable rank. We introduce two parameters which measure: (1) the max column norm in the normalized attention matrix, and (2) the ratio of row norms in the unnormalized attention matrix after detecting and removing large entries. We use these fine-grained parameters to capture the hardness of the problem. Despite previous lower bounds, we are able to achieve a linear time sampling algorithm even when the matrix has unbounded entries or a large stable rank, provided the above parameters are small. HyperAttention features a modular design that easily accommodates integration of other fast low-level implementations, particularly FlashAttention. Empirically, employing Locality Sensitive Hashing (LSH) to identify large entries, HyperAttention outperforms existing methods, giving significant speed improvements compared to state-of-the-art solutions like FlashAttention. We validate the empirical performance of HyperAttention on a variety of different long-context length datasets. For example, HyperAttention makes the inference time of ChatGLM2 50\% faster on 32k context length while perplexity increases from 5.6 to 6.3. On larger context length, e.g., 131k, with causal masking, HyperAttention offers 5-fold speedup on a single attention layer.

Foto in copertina di Google DeepMind su Pexels.com

HyperAttention: calcolo dell’attenzione quasi lineare

Contenuti correlati

Accedi per vedere questi contenuti