I dati sintetici generati dall’intelligenza artificiale potrebbero ridurre i rischi per la privacy
Un interessante policy brief pubblicato dalla Commissione Europea analizza i diversi tipi di dati che possono essere utilizzati nel processo di policy-making. In particolare, l’attenzione viene focalizzata sui dati sintetici prodotti tramite sistemi di Intelligenza Artificiale Generativa: questi possono rappresentare, se utilizzati in modo corretto e controllato, un aiuto fondamentale nella formazione di normative etiche ed efficaci, salvaguardando la privacy dei dati sensibili
Recentemente, la Commissione Europea ha pubblicato un policy brief [1] sul tema dell’utilizzo dei dati sintetici all’interno dei processi di policy-making. Nel documento, si analizzano diversi aspetti, tra cui la privacy dei cosiddetti dati sensibili.

Il problema della privacy dei dati – e del loro utilizzo corretto in tal senso – si è acuito ulteriormente sin dalla prima diffusione dei sistemi di Intelligenza Artificiale Generativa: questi sistemi, allenati tramite grandi moli di dati la cui provenienza risulta molto variegata, necessitano di un maggiore controllo e di un utilizzo che sia consapevole ed eticamente corretto. La domanda sorge spontanea: come far sì che ciò possa avvenire in maniera rigorosa in una società ampiamente globalizzata ed in costante evoluzione, sia sociale che tecnologica?
Prima di procedere in un tentativo di risposta, è necessario soffermarci sull’analisi delle tipologie di dati utilizzabili per raggiungere lo scopo individuato, così come vengono affrontate nel documento (differenti dalle specifiche inserite nella GDPR, che si riferisce a differenti categorizzazioni dei dati personali [2]).
Secondo la Commissione europea, i cosiddetti “dati tradizionali” costituiscono dei fedeli spaccati della realtà, ma a volte non offrono un quadro completo dei fenomeni da analizzare; inoltre, quando vengono processati per migliorare la protezione della privacy (ad esempio tramite una pseudo-anonimizzazione), perdono la loro autenticità.
I dati sintetici, invece, contengono sì delle deviazioni rispetto ai dati reali, ma mantengono intatti i pattern statistici dei dataset reali garantendo allo stesso tempo il giusto livello di privacy (in particolare riguardo ai dati sensibili).
C’è poi una terza tipologia di dati che sta assumendo sempre più rilievo: i dati generati totalmente da sistemi di Intelligenza Artificiale Generativa. Questi dati sono sicuramente più complessi rispetto a quelli sintetici, ma risultano essere maggiormente esposti al rischio di inesattezze, fra le quali si annoverano le cosiddette “allucinazioni”[3] dell’IA. L’altro aspetto riguardante questi dati è quello della quasi totale assenza di normative e linee guida (specie dal punto di vista etico) sull’utilizzo corretto nel campo della policy making; va però sottolineato il grande sforzo dell’Unione Europea, in modo particolare della Commissione Europea, nella stesura del Regolamento sull’Intelligenza Artificiale (AI Act), entrato definitivamente in vigore il 1° agosto del 2024.
Il documento entra nel vivo della questione, andando a introdurre i cosiddetti AI agents, dei sistemi basati sui Large Language Models (LLMs) che, a differenza dei modelli tradizionali, hanno una forte adattabilità: questo crea un vantaggio importante, ossia integrare sorgenti di dati differenti con facilità e permettendo di estrarre da questo processo dei dati effettivamente utili e validi.
Quanto appena esposto fa emergere una sfida importante per il futuro: la creazione di un approccio all’utilizzo dei dati (sintetici e non) in modo dinamico, integrato ed onnicomprensivo. Affinché ciò abbia successo, è necessario affrontare i seguenti punti: investire maggiormente sullo sviluppo tecnologico e della conoscenza; creare dei framework sufficientemente robusti per valutare la qualità e l’affidabilità dei dati; considerare, con un’attenzione non secondaria ma preponderante, gli aspetti etici legati al possibile uso improprio dei dati sintetici e/o generati da IA.
Di Francesco Aracu
Studente del Corso di Laurea Magistrale in Computer Engineering, Cybersecurity and Artificial Intelligence dell’Università degli Studi di Cagliari
[1] HRADEC, J., DI LEO, M. and KOTSEV, A., AI Generated Synthetic Data in Policy Applications, European Commission, Ispra, 2024, JRC138521 (clicca qui per scaricare)
[2] What is considered personal data under the EU GDPR? – GDPR.eu
[3] Stringhi, E. (2023) «LLM allucinanti (o mal addestrati)? Il problema dell’accuratezza dei dati», i-lex. Bologna, Italy, 16(2), pagg. 54–63. doi: 10.6092/issn.1825-1927/18877.