{"id":946,"date":"2024-10-15T12:00:38","date_gmt":"2024-10-15T10:00:38","guid":{"rendered":"https:\/\/sites.unica.it\/holmes\/?p=946"},"modified":"2024-10-15T12:04:01","modified_gmt":"2024-10-15T10:04:01","slug":"ia-generativa-e-legale-esplorando-le-sfide-del-diritto-dautore-nellera-degli-llm","status":"publish","type":"post","link":"https:\/\/sites.unica.it\/holmes\/ia-generativa-e-legale-esplorando-le-sfide-del-diritto-dautore-nellera-degli-llm\/","title":{"rendered":"IA Generativa \u00e8 Legale? Esplorando le Sfide del Diritto d&#8217;Autore nell&#8217;Era degli LLM"},"content":{"rendered":"\n<p><em>Ti sei mai chiesto se l&#8217;intelligenza artificiale generativa che usi quotidianamente \u00e8 legale? Molti strumenti popolari come ChatGPT, Claude, LlaMA3, Mistral e altri potrebbero violare il diritto d&#8217;autore. Ma non solo strumenti basati su testo (LLM \u2013 Large Language Models): anche modelli basati su immagini, video, audio o altro. In questo articolo andremo ad analizzare come funziona la raccolta dati dell\u2019IA, perch\u00e9 la maggior parte dell&#8217;IA generativa potrebbe essere illegale e cosa significa per il futuro della tecnologia.<\/em><\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity is-style-default\" style=\"margin-top:var(--wp--preset--spacing--30);margin-bottom:var(--wp--preset--spacing--30)\" \/>\n\n\n\n<p><strong>Introduzione<\/strong><\/p>\n\n\n\n<p>Focalizziamoci sugli LLM, ma questo ragionamento \u00e8 valido per qualsiasi tipo di contenuto. Gli LLM vengono addestrati su enormi quantit\u00e0 di dati raccolti dal web. Questi modelli utilizzano tecniche di web scraping per raccogliere testi da siti web, articoli, forum, social media e altre fonti online, al fine di apprendere schemi linguistici e generare risposte coerenti e pertinenti.<\/p>\n\n\n\n<p>La protezione del diritto d&#8217;autore \u00e8 cruciale in questo contesto. Molti dei dati utilizzati per addestrare questi modelli sono protetti da copyright, e l&#8217;uso non autorizzato di tali dati pu\u00f2 costituire una violazione legale. \u00c8 essenziale rispettare i diritti dei creatori di contenuti, garantendo che i loro lavori non vengano utilizzati senza il loro permesso.<\/p>\n\n\n\n<p>In questo articolo cercheremo di analizzare come avviene questa elaborazione dati per l\u2019addestramento dei modelli di IA generativa, quali sono le motivazioni e quali tecniche si possono utilizzare per contrastare la violazione del diritto d\u2019autore.<\/p>\n\n\n\n<p><strong>L\u2019insaziabile fame di dati degli LLM<\/strong><\/p>\n\n\n\n<p>L&#8217;IA generativa sta infrangendo l&#8217;etichetta consolidata di internet per soddisfare un&#8217;insaziabile fame di dati per l&#8217;addestramento. In generale, pi\u00f9 dati significano modelli di intelligenza artificiale migliori \u2013 anche se non \u00e8 sempre vero. \u00c8 questo che scatena la corsa ai dati in questa prima era dell\u2019IA Generativa.<\/p>\n\n\n\n<p>Secondo Business Insider, OpenAI, sostenuta da Microsoft, e Anthropic, supportata da Amazon, ignorano il file <em>robots.txt<\/em> per raccogliere dati dai siti dei publisher senza permesso. Il file robots.txt \u00e8 lo standard con cui i publisher web designano se e quali parti dei loro siti possono essere accessibili agli indicizzatori dei motori di ricerca e ad altri crawler web. Ma non esiste uno standard legale o un&#8217;entit\u00e0 per far rispettare la conformit\u00e0.<\/p>\n\n\n\n<p>Quindi, secondo TollBit, una startup che facilita la concessione di licenze pagate tra publisher e aziende di IA, OpenAI e Anthropic apparentemente scelgono di ignorare il file robots.txt e raccogliere dati da tutte le parti di una pagina <a href=\"#_ftn1\" id=\"_ftnref1\">[1]<\/a>.<\/p>\n\n\n\n<p>Sia OpenAI che Anthropic affermano pubblicamente di rispettare il file robots.txt. Ma le aziende di IA generativa, inclusa OpenAI, hanno sostenuto davanti ai regolatori che qualsiasi contenuto pubblicamente accessibile su internet \u00e8 aperto al fair use per l&#8217;addestramento dei modelli di IA. Su questo ci sono quindi messaggi discordanti, dovuti al fatto che non esiste un\u2019entit\u00e0 di controllo.<\/p>\n\n\n\n<p><strong>L&#8217;impatto del diritto d&#8217;autore sulla condivisione dei dati per l&#8217;IA Open Source<\/strong><\/p>\n\n\n\n<p>La legge sul diritto d&#8217;autore presenta sfide significative per la condivisione di dataset aperti utilizzati nell&#8217;addestramento di modelli di intelligenza artificiale, specialmente nel contesto dell&#8217;IA Open Source. Secondo un articolo pubblicato dalla Open Source Initiative (OSI) <a href=\"#_ftn2\" id=\"_ftnref2\">[2]<\/a>, la distribuzione di dataset che contengono opere protette da copyright pu\u00f2 costituire una violazione legale. Questo rende difficile per gli sviluppatori condividere liberamente i dataset necessari per addestrare modelli IA open source.<\/p>\n\n\n\n<p>La OSI suggerisce che, invece di distribuire dataset aperti, si dovrebbe focalizzare sulla condivisione di &#8220;informazioni sui dati&#8221; o metadati che descrivono i dataset, senza includere le opere protette da copyright. Questo approccio consentirebbe agli sviluppatori di costruire modelli IA rispettando le leggi sul diritto d&#8217;autore, promuovendo al contempo l&#8217;innovazione e la collaborazione nella comunit\u00e0 open source.<\/p>\n\n\n\n<p><strong>Il Garante della Privacy fornisce solide basi teoriche<\/strong><\/p>\n\n\n\n<p>Il Garante della Privacy in Europa, rappresentato dal Comitato Europeo per la Protezione dei Dati (EDPB), ha fornito diverse linee guida sull&#8217;uso dei dati personali pubblicati sui siti web. \u00c8 importante distinguere tra due aspetti: la protezione dei dati personali e il diritto d&#8217;autore. Di seguito, una panoramica di come questi due aspetti si intersecano:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Protezione dei dati personali<\/strong>: Il GDPR stabilisce che i dati personali devono essere trattati in modo lecito, corretto e trasparente nei confronti degli interessati. La raccolta e l&#8217;uso dei dati devono essere limitati a ci\u00f2 che \u00e8 necessario in relazione alle finalit\u00e0 per le quali sono trattati. Anche se i dati personali sono stati pubblicati online, ci\u00f2 non significa che possano essere utilizzati liberamente senza rispettare il GDPR.<\/li>\n\n\n\n<li><strong>Diritto d&#8217;autore<\/strong>: I contenuti pubblicati sui siti web (testi, immagini, video, ecc.) sono spesso protetti dal diritto d&#8217;autore. L&#8217;utilizzo non autorizzato di questi contenuti pu\u00f2 costituire una violazione, indipendentemente dal fatto che siano accessibili pubblicamente online. Per riprodurre o distribuire contenuti protetti, \u00e8 generalmente necessario ottenere il permesso del titolare del copyright.<\/li>\n<\/ul>\n\n\n\n<p><strong>I <em>robots.txt<\/em> sono la soluzione?<\/strong><\/p>\n\n\n\n<p>I gestori di siti web possono implementare misure tecniche come l&#8217;uso di file robots.txt per bloccare i bot di scraping, l&#8217;inserimento di clausole nei termini di servizio che vietino l&#8217;uso di tecniche di scraping, e l&#8217;adozione di strumenti di monitoraggio per rilevare e bloccare attivit\u00e0 di scraping sospette.<\/p>\n\n\n\n<p><strong>Cosa sono i <em>robots.txt<\/em>.<\/strong>\u00a0Il file robots.txt \u00e8 un file di testo utilizzato dai siti web per indicare ai motori di ricerca e ad altri crawler web quali pagine o sezioni del sito devono essere escluse dalla scansione e dall&#8217;indicizzazione. Funziona come un insieme di regole per gestire l&#8217;accesso dei bot ai contenuti del sito.<\/p>\n\n\n\n<p>Ma quali aziende rispettano le regole dei <em>robots.txt<\/em>? Qui abbiamo una lista mantenuta dal progetto <a href=\"mailto:https:\/\/github.com\/ai-robots-txt\/ai.robots.txt\">ai.robots.txt<\/a> che approfondisce quest\u2019aspetto <a href=\"#_ftn3\" id=\"_ftnref3\">[3]<\/a>.<\/p>\n\n\n\n<figure class=\"wp-block-table is-style-regular\" style=\"padding-top:var(--wp--preset--spacing--30);padding-right:0;padding-bottom:var(--wp--preset--spacing--30);padding-left:0;line-height:1.4\"><div class=\"table-responsive\"><table class=\"table  table-striped table-bordered table-hover\"  class=\"has-fixed-layout\"><thead><tr><td><strong>Name<\/strong><\/td><td><strong>Operator<\/strong><\/td><td><strong>Respects&nbsp;robots.txt<\/strong><\/td><td><strong>Data use<\/strong><\/td><td><strong>Visit regularity<\/strong><\/td><td><strong>Description<\/strong><\/td><\/tr><\/thead><tbody><tr><td>AdsBot-Google<\/td><td>Google<\/td><td>Yes (Exceptions for Dynamic Search Ads)<\/td><td>Analyzes website content for ad relevancy, improves ad serving for Google Ads. Data anonymized according to&nbsp;<a href=\"https:\/\/policies.google.com\/privacy\">Google&#8217;s Privacy Policy<\/a>. Unclear on data retention or use by other products.<\/td><td>Varies depending on campaign activity and website updates. Crawls optimized to minimize impact, specific frequency not public.<\/td><td>Web crawler by Google Ads to analyze websites for ad effectiveness and ensure ad relevancy to webpage content.<\/td><\/tr><tr><td>Amazonbot<\/td><td>Amazon<\/td><td>Yes<\/td><td>Service improvement and enabling answers for Alexa users.<\/td><td>No information provided.<\/td><td>Includes references to crawled website when surfacing answers via Alexa; does not clearly outline other uses.<\/td><\/tr><tr><td>anthropic-ai<\/td><td><a href=\"https:\/\/www.anthropic.com\/\">Anthropic<\/a><\/td><td>Unclear at this time.<\/td><td>Scrapes data to train Anthropic&#8217;s AI products.<\/td><td>No information provided.<\/td><td>Scrapes data to train LLMs and AI products offered by Anthropic.<\/td><\/tr><tr><td>Applebot-Extended<\/td><td><a href=\"https:\/\/support.apple.com\/en-us\/119829#datausage\">Apple<\/a><\/td><td>Yes<\/td><td>Powers features in Siri, Spotlight, Safari, Apple Intelligence, and others.<\/td><td>Unclear at this time.<\/td><td>Apple has a secondary user agent, Applebot-Extended, used to train Apple&#8217;s foundation models powering generative AI features across Apple products, including Apple Intelligence, Services, and Developer Tools.<\/td><\/tr><tr><td>Bytespider<\/td><td>ByteDance<\/td><td>No<\/td><td>LLM training.<\/td><td>Unclear at this time.<\/td><td>Downloads data to train LLMs, including ChatGPT competitors.<\/td><\/tr><tr><td>CCBot<\/td><td><a href=\"https:\/\/commoncrawl.org\/\">Common Crawl<\/a><\/td><td><a href=\"https:\/\/commoncrawl.org\/ccbot\">Yes<\/a><\/td><td>Provides crawl data for an open source repository that has been used to train LLMs.<\/td><td>Unclear at this time.<\/td><td>Sources data that is made openly available and is used to train AI models.<\/td><\/tr><tr><td>ChatGPT-User<\/td><td><a href=\"https:\/\/openai.com\/\">OpenAI<\/a><\/td><td>Yes<\/td><td>Takes action based on user prompts.<\/td><td>Only when prompted by a user.<\/td><td>Used by plugins in ChatGPT to answer queries based on user input.<\/td><\/tr><tr><td>ClaudeBot<\/td><td><a href=\"https:\/\/www.anthropic.com\/\">Anthropic<\/a><\/td><td>Unclear at this time.<\/td><td>Scrapes data to train Anthropic&#8217;s AI products.<\/td><td>No information provided.<\/td><td>Scrapes data to train LLMs and AI products offered by Anthropic.<\/td><\/tr><tr><td>Claude-Web<\/td><td><a href=\"https:\/\/www.anthropic.com\/\">Anthropic<\/a><\/td><td>Unclear at this time.<\/td><td>Scrapes data to train Anthropic&#8217;s AI products.<\/td><td>No information provided.<\/td><td>Scrapes data to train LLMs and AI products offered by Anthropic.<\/td><\/tr><tr><td>cohere-ai<\/td><td><a href=\"https:\/\/cohere.com\/\">Cohere<\/a><\/td><td>Unclear at this time.<\/td><td>Retrieves data to provide responses to user-initiated prompts.<\/td><td>Takes action based on user prompts.<\/td><td>Retrieves data based on user prompts.<\/td><\/tr><tr><td>Diffbot<\/td><td><a href=\"https:\/\/www.diffbot.com\/\">Diffbot<\/a><\/td><td>At the discretion of Diffbot users.<\/td><td>Aggregates structured web data for monitoring and AI model training.<\/td><td>Unclear at this time.<\/td><td>Diffbot is an application used to parse web pages into structured data; this data is used for monitoring or AI model training.<\/td><\/tr><tr><td>FacebookBot<\/td><td>Meta\/Facebook<\/td><td><a href=\"https:\/\/developers.facebook.com\/docs\/sharing\/bot\/\">Yes<\/a><\/td><td>Training language models<\/td><td>Up to 1 page per second<\/td><td>Officially used for training Meta &#8220;speech recognition technology,&#8221; unknown if used to train Meta AI specifically.<\/td><\/tr><tr><td>Google-Extended<\/td><td>Google<\/td><td><a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/overview-google-crawlers\">Yes<\/a><\/td><td>LLM training.<\/td><td>No information<\/td><td>Used to train Gemini and Vertex AI generative APIs. Does not impact a site&#8217;s inclusion or ranking in Google Search.<\/td><\/tr><tr><td>GoogleOther<\/td><td>Google<\/td><td><a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/overview-google-crawlers\">Yes<\/a><\/td><td>Scrapes data.<\/td><td>No information<\/td><td>&#8220;Used by various product teams for fetching publicly accessible content from sites. For example, it may be used for one-off crawls for internal research and development.&#8221;<\/td><\/tr><tr><td>GPTBot<\/td><td><a href=\"https:\/\/openai.com\/\">OpenAI<\/a><\/td><td>Yes<\/td><td>Scrapes data to train OpenAI&#8217;s products.<\/td><td>No information<\/td><td>Data is used to train current and future models, removed paywalled data, PII and data that violates the company&#8217;s policies.<\/td><\/tr><tr><td>img2dataset<\/td><td><a href=\"https:\/\/github.com\/rom1504\/img2dataset\">img2dataset<\/a><\/td><td>At the discretion of img2dataset users.<\/td><td>Scrapes images for use in LLMs.<\/td><td>At the discretion of img2dataset users.<\/td><td>Downloads large sets of images into datasets for LLM training or other purposes.<\/td><\/tr><tr><td>omgili<\/td><td><a href=\"https:\/\/webz.io\/\">Webz.io<\/a><\/td><td><a href=\"https:\/\/webz.io\/blog\/web-data\/what-is-the-omgili-bot-and-why-is-it-crawling-your-website\/\">Yes<\/a><\/td><td>Data is sold.<\/td><td>No information<\/td><td>Crawls sites for APIs used by Hootsuite, Sprinklr, NetBase, and other companies. Data also sold for research purposes or LLM training.<\/td><\/tr><tr><td>omgilibot<\/td><td><a href=\"https:\/\/web.archive.org\/web\/20170704003301\/http:\/omgili.com\/Crawler.html\">Webz.io<\/a><\/td><td><a href=\"https:\/\/web.archive.org\/web\/20170704003301\/http:\/omgili.com\/Crawler.html\">Yes<\/a><\/td><td>Data is sold.<\/td><td>No information<\/td><td>Legacy user agent initially used for Omgili search engine. Unknown if still used,&nbsp;omgili&nbsp;agent still used by Webz.io.<\/td><\/tr><tr><td>peer39_crawler<\/td><td><a href=\"https:\/\/www.peer39.com\/\">Peer39<\/a><\/td><td><a href=\"https:\/\/www.peer39.com\/crawler-notice\">Yes<\/a><\/td><td>Targeted advertising.<\/td><td>No information<\/td><td>Web crawler used to &#8220;enhance the visibility of your site to advertisers who value and seek out such quality content.&#8221;<\/td><\/tr><tr><td>PerplexityBot<\/td><td><a href=\"https:\/\/www.perplexity.ai\/\">Perplexity<\/a><\/td><td><a href=\"https:\/\/www.macstories.net\/stories\/wired-confirms-perplexity-is-bypassing-efforts-by-websites-to-block-its-web-crawler\/\">No<\/a><\/td><td>Used to answer queries at the request of users.<\/td><td>Takes action based on user prompts.<\/td><td>Operated by Perplexity to obtain results in response to user queries.<\/td><\/tr><tr><td>YouBot<\/td><td><a href=\"https:\/\/about.you.com\/youchat\/\">You<\/a><\/td><td><a href=\"https:\/\/about.you.com\/youbot\/\">Yes<\/a><\/td><td>Scrapes data for search engine and LLMs.<\/td><td>No information<\/td><td>Retrieves data used for You.com web search engine and LLMs.<\/td><\/tr><\/tbody><\/table><\/div><\/figure>\n\n\n\n<p>Seppur nella realt\u00e0 le varie aziende dietro questi strumenti come OpenAI, Anthropic, Google, Facebook o Mistral AI dichiarino di rispettare i robots.txt, nella pratica \u00e8 molto improbabile che lo facciano. Perch\u00e9? Semplicemente perch\u00e9 non \u00e8 possibile dimostrarlo. E davanti a un&#8217;opportunit\u00e0 di tale dimensione, non solo di business ma di potere e geopolitica, quante probabilit\u00e0 ci sono che lo facciano?<\/p>\n\n\n\n<p>Per questi motivi crediamo che i <em>robots.txt <\/em>siano obsoleti. Sono stati creati per l&#8217;indicizzazione da parte dei motori di ricerca, ma con gli LLM ci sono altre regole, altre logiche e di diversa natura. Come sottolinea l&#8217;OSI, la legge sul diritto d&#8217;autore richiede una riconsiderazione delle modalit\u00e0 con cui gestiamo i dati per l&#8217;IA, spingendo verso l&#8217;uso di informazioni sui dati piuttosto che dataset aperti.<\/p>\n\n\n\n<p>Facciamo un esempio pratico. Un\u2019azienda di produzione video ha il suo sito per farsi conoscere, ma se da un lato vuole essere indicizzata nei motori di ricerca e magari anche essere citata nelle risposte dell&#8217;IA generativa, dall&#8217;altro vorrebbe proteggere la propriet\u00e0 intellettuale delle sue opere video. I robots.txt in questo senso hanno dei limiti nella definizione del controllo granulare dei contenuti. O pensiamo a contenuti di interesse nazionale (contenuti istituzionali); si potrebbe voler limitare l\u2019utilizzo a modelli di IA nazionali oppure, in base alla licenza, solo open source, per esempio.<\/p>\n\n\n\n<p><strong>Protezione e violazione del diritto d&#8217;autore<\/strong><\/p>\n\n\n\n<p>Per contrastare l&#8217;uso non autorizzato dei dati, si possono adottare diverse strategie. Dal punto di vista giuridico, la comprova della violazione del diritto d&#8217;autore richiede la dimostrazione che i dati protetti siano stati utilizzati senza autorizzazione. Questo pu\u00f2 includere la raccolta di prove che mostrino come i dati siano stati acquisiti e utilizzati dai modelli di intelligenza artificiale. Le sanzioni per la violazione del diritto d&#8217;autore possono includere risarcimenti danni e ordini di cessazione dell&#8217;uso dei dati violati.<\/p>\n\n\n\n<p>Come evidenzia l&#8217;OSI, la distribuzione di dataset aperti contenenti opere protette da copyright \u00e8 problematica. Prima di poter dimostrare una violazione, \u00e8 necessario che ci siano regole chiare per stabilire se un contenuto pu\u00f2 essere utilizzato dagli algoritmi oppure no.<\/p>\n\n\n\n<p><strong>PROTECT<\/strong><\/p>\n\n\n\n<p>Visti i limiti dei robots.txt, all\u2019interno del progetto HOLMES stiamo lavorando a\u00a0<strong>PROTECT <\/strong>(Protection of Rights and Ownership Through Ethical Content Tracking), uno standard che regola i contenuti di un sito, da mettere sulla root del sito, ad esempio:\u00a0<em>example.com\/protect.json<\/em>.\u00a0Il progetto\u00a0mira a proteggere i contenuti digitali dall&#8217;uso non autorizzato da parte di sistemi di intelligenza artificiale, garantendo il rispetto dei diritti dei creatori. Fornisce un quadro completo per gestire risorse come testi, video, immagini e audio, concentrandosi su licenze e conformit\u00e0 regionali.<\/p>\n\n\n\n<p><strong>Caratteristiche Principali<\/strong><\/p>\n\n\n\n<ol start=\"1\" class=\"wp-block-list\">\n<li><strong>Gestione delle Risorse<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Definisce e gestisce le risorse con metadati associati.<\/li>\n\n\n\n<li>Supporta vari tipi di contenuti digitali, tra cui testi, video, immagini e audio.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Tipi di Licenza e Restrizioni<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Specifica diversi tipi di licenze per ogni risorsa.<\/li>\n\n\n\n<li>Definisce usi consentiti e vietati basati sul tipo di licenza.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Controllo Geografico<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Consente il controllo dell&#8217;accesso alle risorse basato su regioni geografiche e paesi specifici.<\/li>\n\n\n\n<li>Garantisce che le risorse siano utilizzate in conformit\u00e0 con i requisiti legali e le restrizioni regionali.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Metadati e Schema JSON<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Utilizza uno schema JSON estensibile per memorizzare e gestire i metadati associati a ciascuna risorsa.<\/li>\n\n\n\n<li>Facilita l&#8217;integrazione e l&#8217;interoperabilit\u00e0 con altri sistemi e crawler IA.<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n\n\n\n<p><strong>Dettagli di Implementazione<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Il sistema utilizza uno schema JSON per definire e memorizzare i metadati, inclusi informazioni sul tipo di risorsa, tipo di licenza, restrizioni geografiche e altri dettagli rilevanti.<\/li>\n\n\n\n<li>Lo schema dei metadati \u00e8 progettato per essere estensibile, consentendo l&#8217;aggiunta di nuovi campi e tipi secondo necessit\u00e0.<\/li>\n\n\n\n<li>I crawler IA e altri sistemi automatizzati possono utilizzare questi metadati per determinare se \u00e8 consentito l&#8217;uso di una particolare risorsa in base alle restrizioni e licenze definite.<\/li>\n<\/ul>\n\n\n\n<p>Il progetto PROTECT \u00e8 open source e visionabile al seguente <a href=\"https:\/\/github.com\/zaza81\/protect\/\">link<\/a>.<\/p>\n\n\n\n<p><strong>Verso un futuro sostenibile per l&#8217;IA e il diritto d&#8217;autore<\/strong><\/p>\n\n\n\n<p>La questione del rispetto del diritto d&#8217;autore nell&#8217;era dell&#8217;intelligenza artificiale \u00e8 complessa e richiede soluzioni innovative. Come suggerito dall&#8217;OSI, spostare l&#8217;attenzione dalla distribuzione di dataset aperti alla condivisione di informazioni sui dati pu\u00f2 essere una strada percorribile. Allo stesso tempo, strumenti come\u00a0<strong>Protect<\/strong>\u00a0possono offrire un controllo pi\u00f9 granulare e adattato alle esigenze moderne, superando i limiti dei tradizionali <em>robots.txt<\/em>.<\/p>\n\n\n\n<p>Come accennato, si tratta di lavori che mostrano la grande attenzione del dibattito pedagogico per l\u2019IA, un tema destinato a dominare la riflessione educativa, con vecchie e nuove questioni.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" style=\"margin-top:var(--wp--preset--spacing--30);margin-bottom:var(--wp--preset--spacing--30)\" \/>\n\n\n\n<p class=\"is-style-info\" style=\"margin-top:var(--wp--preset--spacing--20);margin-bottom:var(--wp--preset--spacing--20);line-height:1.4\">Di<strong> Andrea Zanda<br><\/strong><em>Collaboratore a contratto nell\u2019ambito del progetto \u201cHOLMES\u201d. Esperto in Intelligenza Artificiale con un Ph.D. in Machine Learning conseguito alla nel 2012. Nell\u2019intersezione tra Intelligenza Artificiale e imprenditoria, ha contribuito a diversi progetti Open Source. Recentemente ha co-fondato Rombo.ai, un\u2019azienda che mira a sostituire le analisi di laboratorio con un algoritmo brevettato basato Intelligenza Artificiale.<\/em><\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\" style=\"margin-top:var(--wp--preset--spacing--30);margin-bottom:var(--wp--preset--spacing--30)\" \/>\n\n\n\n<p><a href=\"#_ftnref1\" id=\"_ftn1\">[1]<\/a> <a href=\"https:\/\/www.businessinsider.com\/openai-anthropic-ai-ignore-rule-scraping-web-contect-robotstxt\">https:\/\/www.businessinsider.com\/openai-anthropic-ai-ignore-rule-scraping-web-contect-robotstxt<\/a><\/p>\n\n\n\n<p><a href=\"#_ftnref2\" id=\"_ftn2\">[2]<\/a> Open Source Initiative, &#8220;Copyright law makes a case for requiring data \u2018information\u2019 rather than open datasets for Open Source AI&#8221;, 2023. Disponibile su: <a href=\"https:\/\/opensource.org\/blog\/copyright-law-makes-a-case-for-requiring-data-information-rather-than-open-datasets-for-open-source-ai\">https:\/\/opensource.org\/blog\/copyright-law-makes-a-case-for-requiring-data-information-rather-than-open-datasets-for-open-source-ai<\/a><\/p>\n\n\n\n<p><a href=\"#_ftnref3\" id=\"_ftn3\">[3]<\/a> <a href=\"https:\/\/github.com\/ai-robots-txt\/ai.robots.txt\">https:\/\/github.com\/ai-robots-txt\/ai.robots.txt<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ti sei mai chiesto se l&#8217;intelligenza artificiale generativa che usi quotidianamente \u00e8 legale? Molti strumenti popolari come ChatGPT, Claude, LlaMA3, Mistral e altri potrebbero violare il diritto d&#8217;autore. Ma non solo strumenti basati su testo (LLM [&hellip;]<\/p>\n","protected":false},"author":10006,"featured_media":953,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_coblocks_attr":"","_coblocks_dimensions":"","_coblocks_responsive_height":"","_coblocks_accordion_ie_support":"","footnotes":""},"categories":[4],"tags":[],"class_list":["post-946","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-news"],"_links":{"self":[{"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/posts\/946","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/users\/10006"}],"replies":[{"embeddable":true,"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/comments?post=946"}],"version-history":[{"count":6,"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/posts\/946\/revisions"}],"predecessor-version":[{"id":952,"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/posts\/946\/revisions\/952"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/media\/953"}],"wp:attachment":[{"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/media?parent=946"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/categories?post=946"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/sites.unica.it\/holmes\/wp-json\/wp\/v2\/tags?post=946"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}