Cerca
Close this search box.

Possiamo bloccare i ragni dell’AI?

Una ragnatela in un prato fotografata con gocce di rugiada.

Mentre Google come abbiamo detto cerca di convincere il legislatore Australiano che l’onere di negare il consenso alla raccolta di pagine web sta all’autore di tali contenuti e non spetta a Google chiedere il consenso, OpenAI di nuovo precorre i tempi e senza troppe fanfare annuncia che il suo crawler GPTbot permetterà cortesemente ai gestori di un sito di specificare quali contenuti non devono essere raccolti. L’analogia che viene fatta è quella dei crawler dei motori di ricerca per i quali è stata sviluppata “l’etichetta” sociale dei file robot.txt da inserire nella root directory del sito indicando quali file non indicizzare.
Già questa analogia è però fuorviante, e segnale della retorica usata da OpenAI: per l’autore di un contenuto può esserci un vantaggio nel fare indicizzare quel file da un motore di ricerca, rendendolo potenzialmente accessibile da tutto il mondo; anche se non c’è una condivisione dei guadagni che il motore di ricerca fa indirettamente tramite i contenuti raccolti sul web.

Nel caso di Open AI questo seppur asimmetrico implicito do ut des non esiste: il vostro file verrà ingurgitato da ChatGPT che ne apprenderà i contenuti ma non dirà mai a nessuno che li ha imparati da voi.

Non è una differenza da poco anche se taciuta da ChatGPT. Per questo tutto il Web in questo momento si sta affannando a cercare di proteggere i propri contenuti modificando i propri file robot.txt.

Non è neanche una ammissione da poco che OpenAI stia facendo (non si sa da quanto) il crawling, probabilmente per addestrare il futuro GPT5 per il quale ha già registrato il marchio. Fin’ora si è saputo poco dell’origine dei dati usati nell’addestramento di ChatGPT, ad es. che è usato il dataset Common Crawl, raccolto dal relativo crawler CCBot. Ci si poteva difendere anche da CCBot, se non che chi l’avrebbe detto allora che i contenuti raccolti sarebbero stati usati da OpenAI?

Ma ci si può difendere davvero? Come facciamo a sapere chi c’è davvero dietro un indirizzo IP che si sta scaricando tutto il nostro sito. Nel caso di un motore di ricerca, se ad una certa query risponde con il link al nostro file che non volevamo fosse indicizzato capiamo che possiamo lamentarci. Ma nel caso di OpenAI non potremo mai sapere se il nostro file è già finito nello stomaco di ChatGPT, perchè non risponderà mai con il link al nostro file, ma solo con un purè di contenuti appresi usando anche il nostro file. Come direbbe Karl Popper, non è falsificabile il claim di OpenAI di stare rispettando le nostre volontà.

Inoltre ci sono vari altri crawler in azione e il nostro file potrebbe essere già stato copiato in un altro sito e finire comunque dentro ChatGPT nonostante la nostra esplicita espressione di non consenso.

Questo meccanismo di opt-out, oltre che criticabile dal punto di vista del copyright, non può funzionare perchè riguarda solo il futuro: non possiamo chiedere di escludere il materiale che hanno già raccolto. E’ necessario un meccanismo di opt-in che chieda esplicitamente il permesso ai creatori di contenuti.

La conseguenza è un forte disincentivo per tutti a condividere materiale online: perchè condividere i propri dati quanto possono essere espropriati e utilizzati per fare competizione? Magari vi sembra un’ipotesi remota ma questo sta già accadendo: la comunità di auto-aiuto di milioni di programmatori Stack Overflow vede già un declino traffico degli utenti (-13%) a causa delle capacità di programmare dei LLM come ChatGPT, addestrati anche sui dati del sito Stack Overflow. Una strategia miope per i produttori di LLM, perchè riducendosi la ricchezza di dati prodotti da esseri umani su siti come Stack Overflow sul lungo termine si esauriranno di dati su cui fare apprendimento AI.

Alcuni siti come The Verge si sono già affrettati a modificare i file robot.txt per impedire l’accesso a GPTbot. Stessa cosa Clarkesworld un editore di fantascienza che a inizio anno aveva dovuto bloccare le sottomissioni di racconti di fantascienza perchè inondato da testi prodotti con ChatGTP: “We are now blocking another one of OpenAI’s scraping bots. You can too. (I don’t know if this is the secret one we couldn’t block before or if that one is still in use.)” scrive l’edito Neil Clarke.

Intanto OpenAI si giustifica con la solita retorica:

“Raccogliamo periodicamente dati pubblici da Internet che possono essere utilizzati per migliorare le capacità, l’accuratezza e la sicurezza dei modelli futuri”, ha dichiarato un portavoce di OpenAI in una e-mail. “Sul nostro sito Web, forniamo istruzioni su come impedire al nostro bot di raccolta di accedere a un sito. Le pagine Web vengono filtrate per rimuovere le fonti che hanno paywall, che sono note per raccogliere informazioni di identificazione personale (PII) o che contengono testo che viola le nostre norme.”

E fa ethical washing con pochi spiccioli. Con un grant di $395,000 grant assieme alla New York University’s Arthur L. Carter Journalism Institute, OpenAI lancia NYU’s Ethics and Journalism Initiative per studenti che studino l’applicazione responsabile dell’AI nel giornalismo.

Ma non fa cenno al crawling in corso, anche sulle testate giornalistiche.

E’ vero che OpenAI è in trattativa con alcune testate online come Associated Press, ma questo mostra come solo chi ha abbastanza potere viene preso in considerazione, mentre tutti noi che postiamo contenuti online veniamo ignorati.

Foto di copertina via Unsplash

Accedi per vedere questi contenuti

registrati se non lo ha ancora fatto