Reddit contro Perplexity: chi vincerà la battaglia per il dominio dei dati AI?

l'articolo appartiene alla categoria:

pubblicato il:

La causa intentata da Reddit il 22 ottobre presso il tribunale federale di New York contro Perplexity AI presenta un importante banco di prova per la definizione dei limiti legali dello scraping nell’era dell’intelligenza artificiale generativa. Le questioni giuridiche sollevate potrebbero rivelarsi meno favorevoli a Reddit di quanto la piattaforma auspichi.

L’aggiramento delle misure tecnologiche di protezione

Reddit basava la propria azione legale sulla Sezione 1201 del Digital Millennium Copyright Act, che vieta l’aggiramento di misure di protezione tecnologiche. Pertanto, anziché dimostrare una violazione diretta del copyright, Reddit potrebbe limitarsi a provare che le società di scraping hanno eluso le sue difese tecniche.

In termini processuali, la strategia è raffinata. I software come Oxylabs, AWMProxy e SerpApi avrebbero estratto quasi tre miliardi di pagine di risultati Google contenenti materiale da Reddit, aggirando sia le difese di Reddit che il sistema SearchGuard di Google. Perplexity, a quel punto, avrebbe utilizzato i dati così ottenuti.

La questione centrale ruota attorno al fatto che le misure aggirate non sono sistemi complessi come password o crittografia, ma semplici restrizioni sull’ammontare di richieste che un computer può inviare ai server (i cosiddetti rate limiting) e controlli automatici per distinguere tra un browser standard e un bot (user agent).

Tali tecnologie risultano facilmente superabili: è sufficiente distribuire le richieste su numerosi indirizzi IP ed emulare il comportamento di un browser per superare le barriere. Un tribunale potrebbe pertanto ritenere che misure così elementari non rappresentino “protezioni tecnologiche efficaci” secondo il DMCA. Questo aspetto è complicato dal fatto che i contenuti di Reddit sono pubblicamente accessibili senza necessità di registrazione o password.

Secondo l’esperto Blake Reid della University of Colorado Law School, Reddit non possiede il copyright sui post pubblicati, i cui diritti appartengono agli utenti. Questo crea un problema giuridico rilevante, in quanto Reddit sta difendendo diritti di cui non è titolare.

Certamente, i termini di servizio di Reddit conferiscono alla piattaforma una licenza per utilizzare e monetizzare i contenuti, ma ciò è sufficiente per avviare un’azione legale per violazione di copyright? La giurisprudenza statunitense richiede generalmente che il titolare esclusivo dei diritti sia parte attiva nel processo, e Reddit non risponde a tale esigenza.

Un potenziale argomento a favore di Reddit potrebbe sostenere che la protezione non riguardi solo i singoli contenuti, ma l’intero database, il quale, come compilazione strutturata, potrebbe godere di protezione autonoma. Tuttavia, anche questa teoria presenta limitazioni secondo la normativa statunitense: la protezione dei database è, infatti, meno robusta rispetto all’Europa e richiede un elemento di originalità nella selezione e organizzazione dei dati che un forum pubblico potrebbe faticare a dimostrare.

La difesa di Perplexity

Perplexity ha risposto sostenendo che non addestra i propri modelli di intelligenza artificiale sui contenuti di Reddit, ma si limita a riassumerli e citarli nelle risposte agli utenti. Tale distinzione giuridica risulta cruciale e rappresenta un nodo fondamentale nell’interpretazione del copyright nel contesto dell’AI. Qualora Perplexity si limitasse a riassumere contenuti pubblici, potrebbe invocare il principio del fair use.

La dottrina del fair use protegge infatti l’uso trasformativo delle opere protette; i tribunali americani hanno storicamente visto con favore i servizi che aggregano o indicizzano contenuti esistenti per scopi nuovi. Google, ad esempio, ha vinto battaglie legali sui principi del fair use per Google Books e Google News.

Tuttavia, la difesa di Perplexity presenta delle debolezze. L’azienda gestisce un “answer engine” che sostituisce la visita al sito originale, sottraendo così traffico e valore economico a Reddit, un aspetto che potrebbe influire negativamente sull’analisi del fair use. Inoltre, sebbene Perplexity non addestri i modelli direttamente sui dati di Reddit, li utilizza per generare risposte a fini commerciali.

Il tentativo di Reddit di esporre un contenuto visibile solo ai crawler di Google, che è apparso rapidamente su Perplexity, dimostra chiaramente che l’accesso ai dati avviene tramite scraping e non come farebbe un normale utente. Questo punto mina la credibilità dell’argomento secondo cui Perplexity accede legittimamente come qualsiasi utente del web.

Comet, Atlas e la battaglia sui nuovi answer engine browser

Reddit ha accordi di licenza con Google e OpenAI, il che potrebbe spiegare la sua decisione di intraprendere azioni legali contro Perplexity. La tempistica non è casuale, considerando l’attuale scenario di mercato.

Perplexity ha recentemente lanciato Comet, un motore di ricerca innovativo progettato per competere direttamente con Google, combinando ricerca tradizionale e intelligenza artificiale. Contestualmente, OpenAI ha lanciato ChatGPT Search (noto anche come Atlas), un suo diretto concorrente. La causa di Reddit acquista un significato ancora maggiore, in quanto rappresenta una battaglia commerciale più ampia per il controllo dei nuovi “answer engines” che stanno ridefinendo la ricerca online.

Consolidando i rapporti commerciali con Google, leader indiscusso nella ricerca tradizionale, e OpenAI, emergente attore principale nell’AI conversazionale, Reddit punta a ostacolare Perplexity, un outsider che tenta di ritagliarsi uno spazio nel mercato.

La questione sollevata da questa causa è se la disputa riguardi la protezione della proprietà intellettuale o la creazione di un oligopolio nell’accesso ai dati per l’AI, avvantaggiando attori commerciali già stabiliti.

Prospettive processuali e possibili esiti

Pragmaticamente, Reddit chiede di ottenere un risarcimento economico e un’ingiunzione permanente per impedire la raccolta ulteriore di dati dal proprio sito. Se l’ingiunzione venisse concessa, Perplexity sarebbe costretta a ripensare il proprio sistema senza l’accesso ai contenuti di Reddit.

Considerando i possibili scenari, l’accoglimento della domanda di Reddit potrebbe stabilire un precedente devastante per l’industria AI, imponendo costose licenze per l’accesso a fonti dati. Al contrario, un rigetto della domanda potrebbe affermare che i dati pubblici possono legittimamente essere utilizzati per finalità di summarization e che le protezioni di Reddit non costituiscono misure efficaci secondo il DMCA.

La situazione suggerisce che la conclusione più probabile sarà un accordo transattivo, trasformando la causa legale in un contratto commerciale, in cui Reddit potrebbe ottenere royalties e Perplexity legittimare retroattivamente lo scraping già effettuato. Tuttavia, le questioni di principio resterebbero irrisolte.

Recentemente, Reddit ha intrapreso una causa simile contro Anthropic, accusando l’azienda di avere utilizzato contenuti della piattaforma per addestrare Claude senza autorizzazione. Questa strategia di enforcement selettiva pone interrogativi significativi sulla tutela della proprietà intellettuale nell’era dell’AI.

In conclusione, il caso Reddit-Perplexity è emblematico di una questione più ampia e richiede soluzioni strutturali per evitare di soffocare l’innovazione attraverso costi di licenza insostenibili, minacciando di impoverire l’ecosistema informativo.

Condividi sui social:

Articoli popolari

Altro nella categoria
Related

Guida strategica ai flussi di cassa: il piano annuale vincente!

  Nota 26 febbraio 2026, AOODGFIESD 21133 Adozione del Piano annuale...

Le Novità del Ministero: BIM e Appalti Digitali Rivoluzionano le Infrastrutture!

In un contesto contraddistinto dalla crescente diffusione di linee...

Lettera del Ministro: Decisioni Strategiche del 16 Febbraio 2026

  Il Ministro dell’istruzione e del merito Al personale della Scuola Al...

Intelligenza Artificiale e Giustizia: Limiti, Garanzie e il Ruolo Cruciale del Giudice

L’intelligenza artificiale ha ormai un ruolo significativo nel dibattito...