LibGen e la ricerca universitaria piratata sono il nuovo giacimento di dati per allenare l'intelligenza artificiale

Pillole di Graffio - Monday, May 19, 2025

Meta ha usato anche LibGen, un database illegale online, per allenare la sua AI, scavalcando così il diritto d'autore e il lavoro di chi fa ricerca, che finisce sfruttato due volte. Ma il copyright non è la soluzione.

Notizia di queste settimane è quella relativa all’utilizzo da parte di Meta di LibGen, un archivio online di materiali, anche accademici, piratati, per aiutare ad addestrare i suoi modelli linguistici di intelligenza artificiale generativa. La notizia è un paradosso, soprattutto, in particolare se letta dalla prospettiva della ricerca accademica. Chi scrive è l’opposto di un sostenitore del copyright: è un sistema che offre pochissima autonomia e un lievissimo sostegno ai piccoli, e dona, invece, un enorme potere ai grandi gruppi editoriali, oltre a essere un ostacolo alla libera circolazione della conoscenza e della cultura. [...]

La razzia spregiudicata di questi contenuti è predatoria perché omette completamente l’esistenza di chi quei contenuti li ha creati, e non perché non ne rispetta il copyright, ma perché avanza una pretesa di possesso su quei contenuti come se non esista alcun livello ulteriore. È predatoria perché si rivolge, senza alcun ragionamento culturale, alla pirateria, che è stata creata per indebolire un sistema iniquo. Così facendo Meta crea un livello di sfruttamento ulteriore su quei contenuti, facendosi gioco di una strategia di resistenza, di fatto svuotandola. Il fatto che Meta si sia rivolta a un database illegale per questa operazione dimostra due cose: che il copyright è finito e non serve assolutamente a nulla (ma questo lo sapevamo già da molto) e, allo stesso tempo, che non esiste limite alcuno all’azione delle aziende tecnologiche e alle loro dinamiche estrattive. Non vi erano limiti all’estrazione di dati per la pubblicità targetizzata, perché dovrebbero esistere per l’AI generativa?

Credere che questo contribuirà a indebolire il copyright o a finalmente mandarlo in soffitta è una favola che può funzionare solo in qualche narrazione determinista dove l’AI è un agente neutro, inevitabile e irrefrenabile, cui non è possibile, né giusto, porre limiti. È una narrazione tossica e di comodo, e molto pericolosa, ed è la stessa da decenni. La risposta non può certamente essere il copyright, ma nemmeno la resa incondizionata a questo pensiero che mischia linguaggio corporate a filosofia spiccia. Non abbiamo fatto e sostenuto le battaglie per la Rete libera, il fair use, le licenze creative commons e per la memoria di Aaron Swartz per fare finta che finire sfruttati da Meta una volta in più sia una cosa di cui essere contenti.

Articolo completo qui