Valutare i large language models: un task difficilissimo

Gli autori del libro e della newsletter “AI Snake Oil”, Arvind Narayanan e Sayash Kapoor della Princeton University, hanno presentato una discussione intitolata “Evaluating LLMs is a minefield” il 4 ottobre 2023.

Hanno esplorato diverse questioni riguardanti la valutazione dei LLM, tra cui:

Il cambiamento nel tempo di ChatGPT: Rispondendo agli studi di Chen, Zaharia e Zou, Narayanan e Kapoor non hanno trovato prove di degradazione delle capacità di GPT-4. Tuttavia, hanno notato che il comportamento del modello è cambiato in risposta a certi prompt.
Il bias politico di ChatGPT: Rispondendo agli studi di Motoki, Neto e Rodrigues, Narayanan e Kapoor hanno utilizzato le stesse domande del paper per valutare se ChatGPT avesse un bias liberale. Hanno scoperto che l’ipotesi del bias politico dei chatbot non è un costrutto che esiste indipendentemente da una popolazione di utenti.
La capacità di GPT-4 di superare l’esame da avvocato e l’USMLE: Hanno mostrato il problema dei test, sottolineando che gli esami progettati per gli esseri umani misurano abilità sottostanti che si generalizzano a situazioni reali. Quando applicati a LLM, ci dicono quasi nulla.

Gli autori hanno anche affrontato la crisi della riproducibilità nelle scienze basate su ML, sottolineando che le recensioni sistematiche in oltre una dozzina di campi hanno riscontrato che una grande frazione di studi basati su ML sono difettosi.

Narayanan e Kapoor hanno concluso sostenendo che la valutazione degli LLM è difficile a causa della sensibilità ai prompt. Hanno suggerito che le società di AI generative dovrebbero pubblicare rapporti di trasparenza e che i ricercatori potrebbero creare corpora di uso reale.

Hanno anche esposto le loro preoccupazioni riguardo alle politiche di OpenAI che ostacolano la ricerca riproducibile sui modelli di linguaggio e hanno evidenziato la necessità di rafforzare gli approcci aperti all’AI.

Fonte: https://www.cs.princeton.edu/~arvindn/talks/evaluating_llms_minefield/

Valutare i large language models: un task difficilissimo

Contenuti correlati

Accedi per vedere questi contenuti