Reddit limita l’accesso di Internet Archive

Lorenzo Bianchi

Stop all’archiviazione delle pagine interne

La piattaforma Reddit ha deciso di limitare in maniera significativa l’accesso della Wayback Machine, il servizio di archiviazione digitale gestito da Internet Archive, impedendo la memorizzazione della maggior parte delle sue pagine interne. Da ora, l’archivio potrà indicizzare soltanto l’homepage del sito, escludendo i contenuti più dettagliati come post, commenti e profili utente. Questa scelta rappresenta un cambiamento importante per uno strumento che, sin dal 2001, conserva copie storiche di siti web e ne consente la consultazione pubblica.

La motivazione: prevenire lo scraping da parte delle AI

Secondo quanto dichiarato dalla società, la decisione è legata alla scoperta di attività di scraping condotte da aziende che sviluppano sistemi di intelligenza artificiale, le quali avrebbero prelevato dati da Reddit attraverso i contenuti archiviati nella Wayback Machine. Questo tipo di raccolta automatizzata, non autorizzata dalle politiche della piattaforma, viene considerato un rischio per la privacy degli utenti e per il controllo sui dati pubblicati. Per tale motivo, Reddit ha deciso di intervenire bloccando l’accesso a gran parte del proprio materiale.

Il ruolo e il valore della Wayback Machine

La Wayback Machine è una risorsa unica che fotografa nel tempo l’evoluzione dei siti web, rendendo possibile consultare versioni precedenti delle pagine anche molti anni dopo la loro pubblicazione. È utilizzata da giornalisti, ricercatori, storici e utenti comuni per verificare contenuti modificati o cancellati. Limitare la possibilità di archiviare intere sezioni di Reddit potrebbe ridurre la disponibilità di dati storici relativi alle conversazioni e ai trend della piattaforma.

Precedenti problemi di sicurezza per Internet Archive

La decisione di Reddit arriva anche in un contesto delicato per Internet Archive, che nell’ottobre scorso è stato colpito da un attacco informatico DDoS. L’azione, rivendicata da un utente identificato come SN_Blackmeta, avrebbe potuto compromettere la sicurezza dei dati. Sono emerse infatti tracce online che indicano una possibile violazione del database della piattaforma, con il rischio di esposizione di informazioni personali appartenenti a circa 31 milioni di utenti registrati. Tali dati riguardano persone che accedono ai servizi dell’organizzazione per consultare la vasta collezione di libri digitali, video e documenti.

Implicazioni per la trasparenza online

La limitazione imposta da Reddit solleva interrogativi sul futuro della trasparenza e della memoria digitale. Da un lato, la misura mira a tutelare i dati e a prevenire usi impropri da parte di terzi; dall’altro, riduce l’accessibilità a uno storico prezioso per lo studio e l’analisi dell’evoluzione delle discussioni online. Il bilanciamento tra protezione della privacy e conservazione della memoria digitale resta un tema centrale nel dibattito su come gestire l’informazione nell’era delle intelligenze artificiali.