IA Generativa è Legale? Esplorando le Sfide del Diritto d’Autore nell’Era degli LLM
Ti sei mai chiesto se l’intelligenza artificiale generativa che usi quotidianamente è legale? Molti strumenti popolari come ChatGPT, Claude, LlaMA3, Mistral e altri potrebbero violare il diritto d’autore. Ma non solo strumenti basati su testo (LLM – Large Language Models): anche modelli basati su immagini, video, audio o altro. In questo articolo andremo ad analizzare come funziona la raccolta dati dell’IA, perché la maggior parte dell’IA generativa potrebbe essere illegale e cosa significa per il futuro della tecnologia.
Introduzione
Focalizziamoci sugli LLM, ma questo ragionamento è valido per qualsiasi tipo di contenuto. Gli LLM vengono addestrati su enormi quantità di dati raccolti dal web. Questi modelli utilizzano tecniche di web scraping per raccogliere testi da siti web, articoli, forum, social media e altre fonti online, al fine di apprendere schemi linguistici e generare risposte coerenti e pertinenti.
La protezione del diritto d’autore è cruciale in questo contesto. Molti dei dati utilizzati per addestrare questi modelli sono protetti da copyright, e l’uso non autorizzato di tali dati può costituire una violazione legale. È essenziale rispettare i diritti dei creatori di contenuti, garantendo che i loro lavori non vengano utilizzati senza il loro permesso.
In questo articolo cercheremo di analizzare come avviene questa elaborazione dati per l’addestramento dei modelli di IA generativa, quali sono le motivazioni e quali tecniche si possono utilizzare per contrastare la violazione del diritto d’autore.
L’insaziabile fame di dati degli LLM
L’IA generativa sta infrangendo l’etichetta consolidata di internet per soddisfare un’insaziabile fame di dati per l’addestramento. In generale, più dati significano modelli di intelligenza artificiale migliori – anche se non è sempre vero. È questo che scatena la corsa ai dati in questa prima era dell’IA Generativa.
Secondo Business Insider, OpenAI, sostenuta da Microsoft, e Anthropic, supportata da Amazon, ignorano il file robots.txt per raccogliere dati dai siti dei publisher senza permesso. Il file robots.txt è lo standard con cui i publisher web designano se e quali parti dei loro siti possono essere accessibili agli indicizzatori dei motori di ricerca e ad altri crawler web. Ma non esiste uno standard legale o un’entità per far rispettare la conformità.
Quindi, secondo TollBit, una startup che facilita la concessione di licenze pagate tra publisher e aziende di IA, OpenAI e Anthropic apparentemente scelgono di ignorare il file robots.txt e raccogliere dati da tutte le parti di una pagina [1].
Sia OpenAI che Anthropic affermano pubblicamente di rispettare il file robots.txt. Ma le aziende di IA generativa, inclusa OpenAI, hanno sostenuto davanti ai regolatori che qualsiasi contenuto pubblicamente accessibile su internet è aperto al fair use per l’addestramento dei modelli di IA. Su questo ci sono quindi messaggi discordanti, dovuti al fatto che non esiste un’entità di controllo.
L’impatto del diritto d’autore sulla condivisione dei dati per l’IA Open Source
La legge sul diritto d’autore presenta sfide significative per la condivisione di dataset aperti utilizzati nell’addestramento di modelli di intelligenza artificiale, specialmente nel contesto dell’IA Open Source. Secondo un articolo pubblicato dalla Open Source Initiative (OSI) [2], la distribuzione di dataset che contengono opere protette da copyright può costituire una violazione legale. Questo rende difficile per gli sviluppatori condividere liberamente i dataset necessari per addestrare modelli IA open source.
La OSI suggerisce che, invece di distribuire dataset aperti, si dovrebbe focalizzare sulla condivisione di “informazioni sui dati” o metadati che descrivono i dataset, senza includere le opere protette da copyright. Questo approccio consentirebbe agli sviluppatori di costruire modelli IA rispettando le leggi sul diritto d’autore, promuovendo al contempo l’innovazione e la collaborazione nella comunità open source.
Il Garante della Privacy fornisce solide basi teoriche
Il Garante della Privacy in Europa, rappresentato dal Comitato Europeo per la Protezione dei Dati (EDPB), ha fornito diverse linee guida sull’uso dei dati personali pubblicati sui siti web. È importante distinguere tra due aspetti: la protezione dei dati personali e il diritto d’autore. Di seguito, una panoramica di come questi due aspetti si intersecano:
- Protezione dei dati personali: Il GDPR stabilisce che i dati personali devono essere trattati in modo lecito, corretto e trasparente nei confronti degli interessati. La raccolta e l’uso dei dati devono essere limitati a ciò che è necessario in relazione alle finalità per le quali sono trattati. Anche se i dati personali sono stati pubblicati online, ciò non significa che possano essere utilizzati liberamente senza rispettare il GDPR.
- Diritto d’autore: I contenuti pubblicati sui siti web (testi, immagini, video, ecc.) sono spesso protetti dal diritto d’autore. L’utilizzo non autorizzato di questi contenuti può costituire una violazione, indipendentemente dal fatto che siano accessibili pubblicamente online. Per riprodurre o distribuire contenuti protetti, è generalmente necessario ottenere il permesso del titolare del copyright.
I robots.txt sono la soluzione?
I gestori di siti web possono implementare misure tecniche come l’uso di file robots.txt per bloccare i bot di scraping, l’inserimento di clausole nei termini di servizio che vietino l’uso di tecniche di scraping, e l’adozione di strumenti di monitoraggio per rilevare e bloccare attività di scraping sospette.
Cosa sono i robots.txt. Il file robots.txt è un file di testo utilizzato dai siti web per indicare ai motori di ricerca e ad altri crawler web quali pagine o sezioni del sito devono essere escluse dalla scansione e dall’indicizzazione. Funziona come un insieme di regole per gestire l’accesso dei bot ai contenuti del sito.
Ma quali aziende rispettano le regole dei robots.txt? Qui abbiamo una lista mantenuta dal progetto ai.robots.txt che approfondisce quest’aspetto [3].
Name | Operator | Respects robots.txt | Data use | Visit regularity | Description |
AdsBot-Google | Yes (Exceptions for Dynamic Search Ads) | Analyzes website content for ad relevancy, improves ad serving for Google Ads. Data anonymized according to Google’s Privacy Policy. Unclear on data retention or use by other products. | Varies depending on campaign activity and website updates. Crawls optimized to minimize impact, specific frequency not public. | Web crawler by Google Ads to analyze websites for ad effectiveness and ensure ad relevancy to webpage content. | |
Amazonbot | Amazon | Yes | Service improvement and enabling answers for Alexa users. | No information provided. | Includes references to crawled website when surfacing answers via Alexa; does not clearly outline other uses. |
anthropic-ai | Anthropic | Unclear at this time. | Scrapes data to train Anthropic’s AI products. | No information provided. | Scrapes data to train LLMs and AI products offered by Anthropic. |
Applebot-Extended | Apple | Yes | Powers features in Siri, Spotlight, Safari, Apple Intelligence, and others. | Unclear at this time. | Apple has a secondary user agent, Applebot-Extended, used to train Apple’s foundation models powering generative AI features across Apple products, including Apple Intelligence, Services, and Developer Tools. |
Bytespider | ByteDance | No | LLM training. | Unclear at this time. | Downloads data to train LLMs, including ChatGPT competitors. |
CCBot | Common Crawl | Yes | Provides crawl data for an open source repository that has been used to train LLMs. | Unclear at this time. | Sources data that is made openly available and is used to train AI models. |
ChatGPT-User | OpenAI | Yes | Takes action based on user prompts. | Only when prompted by a user. | Used by plugins in ChatGPT to answer queries based on user input. |
ClaudeBot | Anthropic | Unclear at this time. | Scrapes data to train Anthropic’s AI products. | No information provided. | Scrapes data to train LLMs and AI products offered by Anthropic. |
Claude-Web | Anthropic | Unclear at this time. | Scrapes data to train Anthropic’s AI products. | No information provided. | Scrapes data to train LLMs and AI products offered by Anthropic. |
cohere-ai | Cohere | Unclear at this time. | Retrieves data to provide responses to user-initiated prompts. | Takes action based on user prompts. | Retrieves data based on user prompts. |
Diffbot | Diffbot | At the discretion of Diffbot users. | Aggregates structured web data for monitoring and AI model training. | Unclear at this time. | Diffbot is an application used to parse web pages into structured data; this data is used for monitoring or AI model training. |
FacebookBot | Meta/Facebook | Yes | Training language models | Up to 1 page per second | Officially used for training Meta “speech recognition technology,” unknown if used to train Meta AI specifically. |
Google-Extended | Yes | LLM training. | No information | Used to train Gemini and Vertex AI generative APIs. Does not impact a site’s inclusion or ranking in Google Search. | |
GoogleOther | Yes | Scrapes data. | No information | “Used by various product teams for fetching publicly accessible content from sites. For example, it may be used for one-off crawls for internal research and development.” | |
GPTBot | OpenAI | Yes | Scrapes data to train OpenAI’s products. | No information | Data is used to train current and future models, removed paywalled data, PII and data that violates the company’s policies. |
img2dataset | img2dataset | At the discretion of img2dataset users. | Scrapes images for use in LLMs. | At the discretion of img2dataset users. | Downloads large sets of images into datasets for LLM training or other purposes. |
omgili | Webz.io | Yes | Data is sold. | No information | Crawls sites for APIs used by Hootsuite, Sprinklr, NetBase, and other companies. Data also sold for research purposes or LLM training. |
omgilibot | Webz.io | Yes | Data is sold. | No information | Legacy user agent initially used for Omgili search engine. Unknown if still used, omgili agent still used by Webz.io. |
peer39_crawler | Peer39 | Yes | Targeted advertising. | No information | Web crawler used to “enhance the visibility of your site to advertisers who value and seek out such quality content.” |
PerplexityBot | Perplexity | No | Used to answer queries at the request of users. | Takes action based on user prompts. | Operated by Perplexity to obtain results in response to user queries. |
YouBot | You | Yes | Scrapes data for search engine and LLMs. | No information | Retrieves data used for You.com web search engine and LLMs. |
Seppur nella realtà le varie aziende dietro questi strumenti come OpenAI, Anthropic, Google, Facebook o Mistral AI dichiarino di rispettare i robots.txt, nella pratica è molto improbabile che lo facciano. Perché? Semplicemente perché non è possibile dimostrarlo. E davanti a un’opportunità di tale dimensione, non solo di business ma di potere e geopolitica, quante probabilità ci sono che lo facciano?
Per questi motivi crediamo che i robots.txt siano obsoleti. Sono stati creati per l’indicizzazione da parte dei motori di ricerca, ma con gli LLM ci sono altre regole, altre logiche e di diversa natura. Come sottolinea l’OSI, la legge sul diritto d’autore richiede una riconsiderazione delle modalità con cui gestiamo i dati per l’IA, spingendo verso l’uso di informazioni sui dati piuttosto che dataset aperti.
Facciamo un esempio pratico. Un’azienda di produzione video ha il suo sito per farsi conoscere, ma se da un lato vuole essere indicizzata nei motori di ricerca e magari anche essere citata nelle risposte dell’IA generativa, dall’altro vorrebbe proteggere la proprietà intellettuale delle sue opere video. I robots.txt in questo senso hanno dei limiti nella definizione del controllo granulare dei contenuti. O pensiamo a contenuti di interesse nazionale (contenuti istituzionali); si potrebbe voler limitare l’utilizzo a modelli di IA nazionali oppure, in base alla licenza, solo open source, per esempio.
Protezione e violazione del diritto d’autore
Per contrastare l’uso non autorizzato dei dati, si possono adottare diverse strategie. Dal punto di vista giuridico, la comprova della violazione del diritto d’autore richiede la dimostrazione che i dati protetti siano stati utilizzati senza autorizzazione. Questo può includere la raccolta di prove che mostrino come i dati siano stati acquisiti e utilizzati dai modelli di intelligenza artificiale. Le sanzioni per la violazione del diritto d’autore possono includere risarcimenti danni e ordini di cessazione dell’uso dei dati violati.
Come evidenzia l’OSI, la distribuzione di dataset aperti contenenti opere protette da copyright è problematica. Prima di poter dimostrare una violazione, è necessario che ci siano regole chiare per stabilire se un contenuto può essere utilizzato dagli algoritmi oppure no.
PROTECT
Visti i limiti dei robots.txt, all’interno del progetto HOLMES stiamo lavorando a PROTECT (Protection of Rights and Ownership Through Ethical Content Tracking), uno standard che regola i contenuti di un sito, da mettere sulla root del sito, ad esempio: example.com/protect.json. Il progetto mira a proteggere i contenuti digitali dall’uso non autorizzato da parte di sistemi di intelligenza artificiale, garantendo il rispetto dei diritti dei creatori. Fornisce un quadro completo per gestire risorse come testi, video, immagini e audio, concentrandosi su licenze e conformità regionali.
Caratteristiche Principali
- Gestione delle Risorse:
- Definisce e gestisce le risorse con metadati associati.
- Supporta vari tipi di contenuti digitali, tra cui testi, video, immagini e audio.
- Tipi di Licenza e Restrizioni:
- Specifica diversi tipi di licenze per ogni risorsa.
- Definisce usi consentiti e vietati basati sul tipo di licenza.
- Controllo Geografico:
- Consente il controllo dell’accesso alle risorse basato su regioni geografiche e paesi specifici.
- Garantisce che le risorse siano utilizzate in conformità con i requisiti legali e le restrizioni regionali.
- Metadati e Schema JSON:
- Utilizza uno schema JSON estensibile per memorizzare e gestire i metadati associati a ciascuna risorsa.
- Facilita l’integrazione e l’interoperabilità con altri sistemi e crawler IA.
Dettagli di Implementazione
- Il sistema utilizza uno schema JSON per definire e memorizzare i metadati, inclusi informazioni sul tipo di risorsa, tipo di licenza, restrizioni geografiche e altri dettagli rilevanti.
- Lo schema dei metadati è progettato per essere estensibile, consentendo l’aggiunta di nuovi campi e tipi secondo necessità.
- I crawler IA e altri sistemi automatizzati possono utilizzare questi metadati per determinare se è consentito l’uso di una particolare risorsa in base alle restrizioni e licenze definite.
Il progetto PROTECT è open source e visionabile al seguente link.
Verso un futuro sostenibile per l’IA e il diritto d’autore
La questione del rispetto del diritto d’autore nell’era dell’intelligenza artificiale è complessa e richiede soluzioni innovative. Come suggerito dall’OSI, spostare l’attenzione dalla distribuzione di dataset aperti alla condivisione di informazioni sui dati può essere una strada percorribile. Allo stesso tempo, strumenti come Protect possono offrire un controllo più granulare e adattato alle esigenze moderne, superando i limiti dei tradizionali robots.txt.
Come accennato, si tratta di lavori che mostrano la grande attenzione del dibattito pedagogico per l’IA, un tema destinato a dominare la riflessione educativa, con vecchie e nuove questioni.
Di Andrea Zanda
Collaboratore a contratto nell’ambito del progetto “HOLMES”. Esperto in Intelligenza Artificiale con un Ph.D. in Machine Learning conseguito alla nel 2012. Nell’intersezione tra Intelligenza Artificiale e imprenditoria, ha contribuito a diversi progetti Open Source. Recentemente ha co-fondato Rombo.ai, un’azienda che mira a sostituire le analisi di laboratorio con un algoritmo brevettato basato Intelligenza Artificiale.
[1] https://www.businessinsider.com/openai-anthropic-ai-ignore-rule-scraping-web-contect-robotstxt
[2] Open Source Initiative, “Copyright law makes a case for requiring data ‘information’ rather than open datasets for Open Source AI”, 2023. Disponibile su: https://opensource.org/blog/copyright-law-makes-a-case-for-requiring-data-information-rather-than-open-datasets-for-open-source-ai