Creazione di Opere dell’Ingegno mediante AI Generativa: Un’Analisi Sperimentale

Creazione di Opere dell’Ingegno mediante AI Generativa: Un’Analisi Sperimentale

Questo studio si propone di esplorare la capacità delle intelligenze artificiali (IA) di concepire opere dell’ingegno, focalizzandosi specificamente sulla generazione di testi per brani musicali e la conseguente produzione musicale. Si è optato per l’utilizzo di due strumenti distinti: ChatGPT per la generazione testuale e Udio per la composizione musicale. L’analisi si concentra sul mettere in luce, in prima istanza, quale sia il peso nell’output anche di minute variazioni nei prompt e quanto queste influenzino le opere generate e, in secondo luogo, offrire una valutazione comparativa tra gli effetti sull’output da variazioni quantitative e qualitative nelle parole chiave, offrendo una panoramica dettagliata degli effetti risultanti.


Introduzione

Nel recente passato, l’intelligenza artificiale ha mostrato un potenziale crescente nella creazione di contenuti artistici, inizialmente limitati a immagini statiche e successivamente estesi a opere in movimento, testi letterari e composizioni musicali originali. Questo fenomeno rappresenta un’evoluzione significativa nella capacità delle macchine di imitare e talvolta superare le capacità creative umane. La presente ricerca si colloca all’interno del vasto e affascinante dominio dell’interazione uomo-macchina, con un’attenzione particolare alla potenzialità delle intelligenze artificiali avanzate di operare come autori autonomi di opere musicali.

L’oggetto del presente studio è duplice: da un lato, si vuole esaminare la competenza delle IA nel generare testi lirici coerenti e stilisticamente validi, dall’altro, si intende esplorare la capacità di questi testi di essere trasformati in composizioni musicali attraverso l’impiego di algoritmi di machine learning. Questo processo consente di indagare in che modo le sottili variazioni nei prompt utilizzati per la generazione testuale influenzino il prodotto creativo finale.

L’intelligenza artificiale, e in particolare i modelli di linguaggio come ChatGPT, rappresentano una delle frontiere più avanzate della ricerca tecnologica. Tali modelli, basati su architetture neurali di deep learning, sono in grado di assimilare una vasta gamma di informazioni linguistiche e stilistiche, riproducendo e talvolta innovando le forme espressive umane. Analogamente, strumenti di composizione musicale automatizzata come Udio utilizzano algoritmi sofisticati per analizzare e trasformare testi in musica, generando brani che possono competere con quelli creati da compositori umani.

L’approccio metodologico adottato, prevede un’analisi rigorosa e sistematica delle opere musicali generate, valutando vari parametri quali tonalità, ritmo, struttura melodica e armonizzazione, per poi affrontare, dove necessario, anche gli aspetti tecnico-sonori dei flussi audio. L’obiettivo è quello di delineare un quadro chiaro e dettagliato dell’interazione tra input testuale e output musicale, offrendo spunti significativi per future ricerche nel campo della creazione artistica assistita dall’intelligenza artificiale e una solida base per l’esplorazione degli inscindibili aspetti tecnico-giuridici ad essa correlata.

Questo studio, dunque, non solo esplora le possibilità attuali della tecnologia AI nel campo della musica, ma apre anche nuove prospettive per l’integrazione di queste tecnologie nella produzione artistica. Le implicazioni di tale integrazione sono profonde, suggerendo una futura collaborazione simbiotica tra creatività umana e capacità computazionale avanzata, capace di generare opere d’arte di ineguagliabile complessità e bellezza.

Metodologia

Fase 1: Generazione del Testo

Per la generazione dei testi, abbiamo utilizzato ChatGPT, un modello di linguaggio sviluppato da OpenAI, nella versione “3.5 turbo”. La decisione di adottare un modello gratuito e liberamente accessibile a chiunque, è volta ad agevolare chi volesse proseguire, o replicare, l’esperimento e a garantire la maggiore trasparenza possibile nella tipologia di strumenti utilizzati. Il prompt fornito al modello è stato concepito per rispecchiare una concreta circostanza del mondo reale, in modo da ridurre le probabilità che i risultati stessi di questo studio possano essere ritenuti “eccessivamente teorici” e, dunque, con alcuna incidenza nel concreto.

Contesto

La scelta del genere musicale, in questo caso l’heavy metal, per il presente esperimento è stata attentamente ponderata e motivata da una serie di considerazioni tecniche e metodologiche che rendono questo genere particolarmente adatto all’analisi delle capacità creative delle intelligenze artificiali. L’heavy metal, pur essendo un genere di nicchia rispetto al pop o al rock, è noto per la sua complessità tecnica e le sue numerose variazioni sonore e di tempo, caratteristiche, queste, che lo distinguono da altri generi musicali più convenzionali.

Innanzitutto, l’heavy metal richiede un alto grado di competenza tecnica sia nella composizione che nell’esecuzione. Le intricate strutture ritmiche, le complesse sequenze di accordi e le rapide variazioni dinamiche offrono una sfida significativa per qualsiasi autore e rappresentano dunque uno scenario ideale per mettere alla prova gli algoritmi di composizione musicale. Questo livello di difficoltà tecnica rappresenta un banco di prova ideale per valutare l’efficacia, la sofisticazione ma, soprattutto, la coerenza stilistica degli strumenti di intelligenza artificiale impiegati nel nostro studio. Un algoritmo capace di generare testi e musiche coerenti e stilisticamente pertinenti all’interno del contesto heavy metal dimostrerebbe un grado di avanzamento tecnologico superiore.

Inoltre, l’heavy metal è caratterizzato da una vasta gamma di sottogeneri, ognuno dei quali presenta peculiarità sonore e tematiche distintive. Dallo speed metal al doom metal, dal black metal al power metal, ciascuna variante introduce elementi unici che spaziano dalle velocità estreme e dai ritmi martellanti a melodie epiche e atmosfere oscure. Questa diversità offre un’opportunità unica per testare la versatilità dell’intelligenza artificiale nella generazione di contenuti che non solo rispettino i canoni del genere principale, ma che siano anche in grado di adattarsi e innovare all’interno dei diversi sottogeneri.

La scelta dell’heavy metal consente anche di esplorare la capacità dell’IA di gestire i cambiamenti di tempo e di dinamica, elementi fondamentali per questo genere musicale. Le variazioni improvvise e spesso drastiche di tempo e intensità richiedono una comprensione profonda delle strutture musicali e delle aspettative stilistiche, offrendo un ulteriore livello di complessità all’esperimento. La capacità di un algoritmo di generare e adattarsi a tali variazioni è indicativa della sua sofisticazione e del suo potenziale applicativo in contesti creativi complessi, oltre a dare prova, per tramite di consistenza, di una significativa diminuzione della probabilità che il risultato finale sia frutto di fortuite coincidenze.

Prompt Iniziale

Il prompt iniziale fornito è stato: “write the lyrics for a heavy-metal song about angels protecting mortals from evil“, ovvero “scrivi un testo per un brano musicale heavy metal riguardo angeli che proteggono i mortali dal male”.

La scelta tematica, ancora una volta, non è casuale: essa si radica profondamente nella tradizione del genere heavy metal, che spesso esplora tematiche epiche, battaglie cosmiche tra il bene e il male, e figure mitologiche.

Il tema degli angeli che proteggono i mortali dal male è stato ricorrente nella storia dell’heavy metal. Band storiche come Iron Maiden, Helloween e Black Sabbath hanno spesso affrontato argomenti simili, intrecciando narrazioni di lotte apocalittiche e interventi divini. Ad esempio, Iron Maiden nel brano “Flight of Icarus” (1983) riprende il tema della caduta di Icaro, mescolando mito e dramma personale in una cornice epica. Anche se non si parla specificamente di angeli, l’idea di una lotta tra poteri superiori e il destino umano è un tema affine.

Un altro esempio rilevante è “Heaven Can Wait” degli Helloween, dove si esplora l’intervento divino e la protezione offerta dagli esseri celesti. Questa canzone, dall’album *Keeper of the Seven Keys: Part II* (1988), rappresenta perfettamente l’intersezione tra heavy metal e mitologia religiosa, suggerendo che gli angeli proteggono le anime dagli inferi.

Struttura e Contenuto del Testo Generato

(Verse 1)
In the shadows of the night, where darkness breeds its might,
Angels descend with swords of light, to vanquish evil’s blight.
Their wings unfurl, as thunder roars, in the chaos, they restore,
Guardians of the mortal realm, their valor shall endure.

(Chorus)
Angels of steel, defenders of the weak,
In the heart of the storm, they’re the ones we seek.
With wings of fire, they’ll rise above,

Protectors of the innocent, their strength, their love.

Il testo generato dal prompt, a cui peraltro l’AI ha assegnato un nome iconico e, per certi versi forse anche ironico, quale “Angels of Steel”, si propone di catturare l’essenza del genere, integrando elementi tipici quali:

  • Toni epici e solenni: Descrizioni grandiose delle battaglie tra angeli e demoni.
  • Immagini potenti: Rappresentazioni vivide di angeli armati di spade fiammeggianti e demoni terrificanti.
  • Tema della protezione e del sacrificio: Angeli che intervengono per salvare l’umanità, anche a costo della propria esistenza.

L’uso di metafore potenti e visioni suggestive è fondamentale per evocare l’atmosfera tipica dell’heavy metal. L’immagine degli angeli con “ali di luce e spade fiammeggianti” richiama immediatamente alla mente le illustrazioni apocalittiche e mitologiche, mentre la menzione del “credo celestiale” connette direttamente alla narrativa del sacrificio e della protezione divina.

La scelta del prompt non è solo un omaggio ai temi classici del genere, ma rappresenta anche una sfida per l’intelligenza artificiale. La capacità di generare un testo che rispetti le convenzioni stilistiche e tematiche dell’heavy metal dimostra la potenza e la versatilità degli strumenti AI. Questa tematica permette di mettere in luce l’abilità dell’AI nel creare contenuti complessi e ricchi di sfumature, che possono competere con le opere dei più rinomati compositori del genere.

Si desidera, infine, mettere in luce due dettagli che possono venire inizialmente trascurati: in primo luogo, l’AI ha inserito le frasi “Verse 1” e “Chorus” poco prima del testo vero e proprio. L’AI ha infatti non solo generato l’intero testo, ma lo ha anche suddiviso in parti musicali in modo corretto (versi, bridge, chorus e outro, con differenti variazioni e ripetizioni) senza ulteriore
intervento umano, mostrando di avere interpretato in modo impeccabile l’intento dell’operatore. Secondariamente, l’AI ha reso possibile una fluida vocalizzazione introducendo rime in ogni coppia di versi, cosa, questa, assolutamente notevole e che, in passato, ha rappresentato un ostacolo paralizzante per molti compositori e produttori.

Per semplicità, in questa sede lavoreremo solo con le prime due parti del brano.

Fase 2: Composizione Musicale

La composizione musicale interamente eseguita da IA generativa è di recentissima introduzione al grande pubblico, condizione questa che ha rappresentato un ostacolo per la selezione di uno strumento sufficientemente evoluto per poter essere adoperato in questo contesto. Dopo una serie di prove a considerazioni, si è deciso di optare per Udio, nella versione 1 alfa, uno strumento di intelligenza artificiale in grado di trasformare testi in brani musicali completi di parte strumentale e vocale. Udio è uno strumento di intelligenza artificiale per la generazione
musicale, che trasforma testi in brani musicali completi. Il processo si articola in diversi passaggi chiave:

  • Input Testuale: Gli utenti forniscono un testo lirico che rappresenta la base tematica ed emotiva del brano musicale.
  • Analisi Semantica: Udio utilizza algoritmi avanzati per analizzare il contenuto testuale, identificando temi, emozioni e strutture linguistiche.
  • Composizione Musicale: L’IA genera la melodia, l’armonia e il ritmo appropriati per il testo analizzato. Questo processo tiene conto delle convenzioni del genere musicale scelto e delle caratteristiche stilistiche.
  • Arrangiamento e Produzione: Infine, Udio completa il brano con arrangiamenti strumentali e produzione audio, creando una traccia musicale pronta per l’uso.

Udio combina tecniche di deep learning e modelli di linguaggio naturale per offrire una soluzione integrata che facilita la creazione musicale, rendendo il processo accessibile anche a chi non ha competenze avanzate in composizione musicale.

Si tratta di un software sicuramente ambizioso ma che, allo stato attuale, ha anche delle limitazioni che restringono il campo di esplorazione di questa ricerca. Ad esempio, almeno in questa prima release (v1 alfa), non è possibile scegliere manualmente gli strumenti che devono essere presenti, non è possibile impostare il ritmo, la durata, il tempo e molto altro, rendendo indispensabile affidarsi in modo completo alla capacità dell’AI di interpretare correttamente il prompt.

Generazione dei brani

Il testo generato da ChatGPT è stato quindi inserito in Udio per creare un primo brano.

Il prompt di partenza è stato il seguente: “a heavy metal song, with some nuance of pop, choirs and cinematic. The drum’s sound will be inspired by Metallica, the guitar’s sound will be inspired by In Flames, and vocal’s will remind of Freddie Mercury, heavy metal, drums (drum set), male vocalist, passionate

Come si può evincere da una prima, rapida, analisi del prompt, esso è stato ideato con il duplice intento di guidare l’AI nel comprendere quale tipo di output si vorrebbe generare, ma anche di compensare alle carenze della UI con riferimenti stilistici e sonori quanto più precisi possibile.

Primo output


Analisi Stilistica

Questa composizione è caratterizzata da un ritmo incalzante e una tonalità cupa e intensa di Mi minore. Con un tempo di 152 battute per minuto, il pezzo si muove rapidamente, mantenendo un’energia costante che cattura l’ascoltatore fin dalle prime note.

La scelta della tonalità di Mi minore conferisce al brano una qualità oscura e drammatica, tipica del genere heavy metal. La scala di Mi minore, che include le note Mi, Fa#, Sol, La, Si, Do, e Re, offre una gamma di sonorità potenti e malinconiche che sono ulteriormente enfatizzate dall’uso di power chords e riff aggressivi.

Un elemento distintivo del brano è l’uso dell’accordo di La9 come chiave relativa. Questo accordo aggiunge una dimensione armonica interessante al pezzo. L’accordo di La9, che comprende le note La, Do#, Mi, Sol, e Si, introduce un suono più complesso e intrigante rispetto agli accordi più semplici. La9 non solo mantiene il brano tonale, ma arricchisce anche l’atmosfera generale con un tocco di sofisticazione e varietà armonica.

Il brano è tuttavia caratterizzato, nella sua interezza, da una struttura estremamente semplice, tipica dei primordi del genere rock prima e metal poi, tipica degli anni ‘70 e ‘80; nella parte finale è possibile ascoltare un assolo di chitarra rudimentale basato, si direbbe, su una pentatonica minore che ricorre, però, anche a qualche bending, dando l’impressione di un ‘tocco umano’. Si tenga però presente che, nel genere heavy metal, l’assolo di chitarra elettrica è considerato determinante per la valutazione complessiva di un brano e, in questo caso, rappresenta l’anello debole della catena, quello dal quale si può intuire che la composizione musicale in esame potrebbe non essere il prodotto dell’ingegno e del talento umano.

L’aspetto invece più sorprendente, è la qualità del cantato, in particolare nelle parti corali, assolutamente rimarchevoli e precise.

In generale, pur nella sua semplicità, la composizione è musicalmente valida e ricorda i primi Iron Maiden e Black Sabbath in modo efficace.

Analisi Tecnica

Channels : 2
Sample Rate : 48000
Precision : 16-bit
Duration : 00:00:32.88 = 1578240 samples ~ 2466 CDDA sectors
File Size : 1.32M Bit Rate : 320k
Sample Encoding: MPEG audio (layer I, II or III)
File Detail
Samples read: 3154176
Length (seconds): 32.856000
Scaled by: 2147483647.0
Maximum amplitude: 1.000000
Minimum amplitude: -0.957490
Midline amplitude: 0.021255
Mean norm: 0.143575
Mean amplitude: -0.000092
RMS amplitude: 0.183163
Maximum delta: 0.671388
Minimum delta: 0.000000
Mean delta: 0.069280
RMS delta: 0.089255
Rough frequency: 3722
Volume adjustment: 1.000
Channel Detail
Overall Left Right
DC offset -0.000117 -0.000117 -0.000068
Min level -0.957490 -0.957490 -0.928462
Max level 1.000000 1.000000 1.000000
Pk lev dB -0.00 -0.00 -0.00
RMS lev dB -14.74 -14.52 -14.98
RMS Pk dB -10.14 -10.14 -11.08
RMS Tr dB -22.29 -21.92 -22.29
Crest factor - 5.32 5.61
Flat factor 0.00 0.00 0.00
Pk count 2.50 3 2
Bit-depth 29/29 29/29 29/29
Num samples 1.58M Length s 32.856 
Scale max 1.000000
Window s 0.050

Variazioni

Abbiamo analizzato ogni brano musicale generato, concentrandoci su aspetti quali tonalità, ritmo, struttura melodica e armonizzazione. L’obiettivo era determinare come le differenze nei prompt iniziali o altri fattori influenzassero il risultato musicale finale.

Prompt:
“a heavy metal song, with some nuance of pop, choirs and cinematic. The drum’s sound will be inspired by Metallica, the guitar’s sound will be inspired by In Flames, and vocal’s will remind of Freddie Mercury, heavy metal, drums (drum set), male vocalist, passionate”

NOTA: è interessante notare che, pur avendo usato il medesimo prompt per questo secondo test, l’output generato è diverso. Questo non accade, al momento, con AI generative per contenuti, dove vige la rigida regola “a prompt uguale, output uguale”, e rappresenta, dunque, un aspetto importante delle osservazioni finora raccolte.

Secondo output


Analisi Stilistica

In questo caso l’AI ha ‘scelto’ di generare un brano più lento, caratterizzato da una tonalità più ‘scura’ rispetto al precedente. Il tempo moderato di 113 battute per minuto conferisce al pezzo un groove sostenuto e potente, che mantiene un senso di inesorabile avanzamento e peso emotivo.

Anche in questo caso è stata scelta la chiave di Mi minore. Le chitarre distorte sfruttano questa tonalità per generare riff potenti e martellanti, mentre il basso e la batteria forniscono una struttura ritmica solida e pesante. Ancora una volta, per accompagnare la chiave assoluta di Mi minore, è stata scelta la chiave relativa di La9; senza avere ulteriori informazioni sull’algoritmo o sul BoK (Body of Knowledge) dell’AI, non è possibile sbilanciarsi in merito a quale possa essere la ragione di questa ‘scelta’ anche per il secondo output generativo.

Rimane il fatto che, oggettivamente parlando, il brano è musicalmente valido, ma si discosta dal genere indicato dal prompt (heavy metal) ed è più vicino al rock, con sonorità che ricordano band come Scorpions e Aerosmith.

Analisi Tecnica

Channels : 2
Sample Rate : 48000 
Precision : 16-bit
Duration : 00:00:32.88 = 1578240 samples ~ 2466 CDDA sectors
File Size : 1.32M Bit Rate : 320k
Sample Encoding: MPEG audio (layer I, II or III)
File Detail
Samples read: 3154176
Length (seconds): 32.856000
Scaled by: 2147483647.0
Maximum amplitude: 0.873509
Minimum amplitude: -1.000000
Midline amplitude: -0.063245
Mean norm: 0.098954
Mean amplitude: -0.000005
RMS amplitude: 0.129564
Maximum delta: 0.712601
Minimum delta: 0.000000
Mean delta: 0.069749
RMS delta: 0.089766
Rough frequency: 5292
Volume adjustment: 1.000
Channel Detail
Overall Left Right
DC offset -0.000019 -0.000019 0.000008
Min level -1.000000 -0.944381 -1.000000
Max level 0.873509 0.873509 0.828629
Pk lev dB 0.00 -0.50 0.00
RMS lev dB -17.75 -17.43 -18.10
RMS Pk dB -12.75 -12.75 -12.98
RMS Tr dB -25.40 -24.57 -25.40
Crest factor - 7.03 8.03
Flat factor 0.00 0.00 0.00
Pk count 2 2 2
Bit-depth 29/29 29/29 29/29
Num samples 1.58M Length s 32.856
Scale max 1.000000
Window s 0.050

Prompt
doom metal, epic, gregorian chant, melodic, Male vocalist, Rock, Metal, Gothic metal, Doom metal, Dark, Melancholic, Melodic, Heavy, Sombre, Gregorian chant

Terzo output


Analisi Stilistica

Le differenze sonore tra i primi due output e questo terzo, sono significative. L’AI ha combinato elementi dark e melanconici, con un senso di epicità che pervade ogni nota. La fusione di doom metal, death metal e canto gregoriano crea un sound unico che è allo stesso tempo pesante e elevato, melanconico e maestoso. La base del brano è profondamente radicata nel doom metal, caratterizzata da ritmi lenti e pesanti, riff di chitarra distorti all’estremo e un’atmosfera complessivamente cupa e malinconica, tipica del genere. La tonalità di Do maggiore, usata qui come chiave dominante, è normalmente associata a sonorità luminose e gioiose, grazie alla sua assenza di alterazioni e alla sua disposizione di note. Tuttavia, nel contesto del doom metal, questa tonalità può essere reinterpretata in modo da creare un’atmosfera più cupa e malinconica. Le progressioni di accordi, spesso lente e pesanti, possono suggerire un senso di disperazione e tristezza. La chiave relativa di Si minore condivide gli stessi sette suoni della tonalità di Do maggiore, ma con un diverso punto di riferimento tonale. Questa tonalità minore offre un terreno fertile per esplorare emozioni più oscure e introspettive, aggiungendo profondità e dramma al brano. L’uso di accordi minori e scale melodiche in Si minore può accentuare ulteriormente il carattere cupo e opprimente della musica. Anche in questo caso, è necessario mettere in evidenza come la composizione nel suo insieme sia estremamente semplice, ma tale semplicità è considerata caratteristica dello stile musicale scelto e dunque non diminuisce la validità finale dell’esperimento. Meritevole di menzione a parte, l’introduzione nel brano di un flebile pipe organ, davvero tipico del genere e reso popolare da gruppi del calibro di Helloween.

Analisi Tecnica

Channels : 2
Sample Rate : 48000
Precision : 16-bit
Duration : 00:00:32.88 = 1578240 samples ~ 2466 CDDA sectors
File Size : 1.32M Bit Rate : 320k
Sample Encoding: MPEG audio (layer I, II or III)
File Detail 
Samples read: 3154176
Length (seconds): 32.856000
Scaled by: 2147483647.0
Maximum amplitude: 0.999539
Minimum amplitude: -1.000000
Midline amplitude: -0.000230
Mean norm: 0.184591
Mean amplitude: -0.000017
RMS amplitude: 0.228794
Maximum delta: 0.820577
Minimum delta: 0.000000
Mean delta: 0.123514
RMS delta: 0.155993
Rough frequency: 5208
Volume adjustment: 1.000
Channel Detail
Overall Left Right
DC offset -0.000030 -0.000004 -0.000030
Min level -1.000000 -0.913710 -1.000000
Max level 0.999539 0.999539 0.912321
Pk lev dB 0.00 -0.00 0.00
RMS lev dB -12.81 -13.85 -11.97
RMS Pk dB -8.46 -10.26 -8.46
RMS Tr dB -20.12 -20.12 -16.29
Crest factor - 4.93 3.97
Flat factor 0.00 0.00 0.00
Pk count 2 2 2
Bit-depth 29/29 29/29 29/29
Num samples 1.58M Length s 32.856
Scale max 1.000000
Window s 0.050

Prompt
doom metal, epic, gregorian chant, melodic, Rock, Metal, Gothic metal, Doom metal, Melodic, Epic, Symphonic metal, Death doom metal, Gregorian chant

Quarto output


Analisi Stilistica

Il brano risultante dall’ultimo prompt è significativamente diverso dai precedenti: la melodia malinconica, intrecciata con riff di chitarra cupi e pesanti, creano un’atmosfera tetra e solenne, davvero in bilico tra doom e death metal. La voce del “cantante”, possente, roca e drammatica, è probabilmente l’aspetto più memorabile e assolutamente in linea con le aspettative del genere. Le sezioni melodiche, guidate da riff di chitarra pesanti, si alternano con passaggi più intensi e aggressivi, e sono sempre supportati da una base di tastiere ad hoc. La fusione di elementi doom-death metal, conferisce al brano la capacità di suscitare un senso evocativo di mistero, davvero allineato con altri brani tipici di questo genere. La struttura armonica che si sviluppa attorno alla tonalità di Sol minore, conferendo una profonda oscurità e una tensione emotiva alla sua composizione, si sviluppa tramite l’accordo di La6, con la sua nota aggiunta di sesta maggiore, aggiungendo un tocco di brillantezza nel contesto diversamente cupo del Sol minore, creando un contrasto intrigante e complesso. Il tempo, piuttosto lento, di 80 battute al minuto permette al brano di respirare e di svilupparsi gradualmente, consentendo agli ascoltatori di immergersi completamente nelle atmosfere suggestive e coinvolgenti create dalla fusione dei vari generi metal attivati dal prompt. Pur nella sua semplicità, questa quarta variazione è, forse, la più “moderna” in termini di sonorità

Analisi Tecnica

Channels : 2
Sample Rate : 48000
Precision : 16-bit
Duration : 00:00:32.88 = 1578240 samples ~ 2466 CDDA sectors
File Size : 1.32M Bit Rate : 320k
Sample Encoding: MPEG audio (layer I, II or III) 
Comments:
File Detail
Samples read: 3154176
Length (seconds): 32.856000
Scaled by: 2147483647.0
Maximum amplitude: 0.980362
Minimum amplitude: -0.994238
Midline amplitude: -0.006938
Mean norm: 0.125759
Mean amplitude: 0.000008
RMS amplitude: 0.160300 
Maximum delta: 0.745889
Minimum delta: 0.000000
Mean delta: 0.093879
RMS delta: 0.120700
Rough frequency: 5752
Volume adjustment: 1.006
Channel Detail
Overall Left Right
DC offset 0.000012 0.000003 0.000012
Min level -0.994238 -0.994238 -0.821405
Max level 0.980362 0.980362 0.946392
Pk lev dB -0.05 -0.05 -0.48
RMS lev dB -15.90 -15.55 -16.29
RMS Pk dB -11.93 -11.93 -12.43
RMS Tr dB -21.49 -21.36 -21.49
Crest factor - 5.95 6.17
Flat factor 0.00 0.00 0.00
Pk count 2 2 2
Bit-depth 29/29 29/29 29/29
Num samples 1.58M Length s 32.856
Scale max 1.000000
Window s 0.050

Considerazioni Finali

L’esperimento condotto ha permesso di esaminare con cura il potenziale delle intelligenze artificiali nella creazione autonoma di opere musicali, utilizzando modelli di linguaggio avanzati per la generazione di testi e algoritmi di machine learning per la composizione musicale. I risultati ottenuti dimostrano la capacità delle IA di produrre contenuti artistici che, per coerenza stilistica e qualità tecnica, si avvicinano sensibilmente alle opere create da artisti umani. Questo studio offre importanti spunti di riflessione e apre nuove prospettive per ulteriori ricerche in ambito scientifico-accademico.

Sintesi dei Risultati

Generazione dei Testi Lirici: Utilizzando il modello di linguaggio ChatGPT, è stato possibile generare testi lirici per brani di genere heavy metal che rispettano le convenzioni stilistiche e tematiche del genere. Il prompt iniziale, “write the lyrics for a heavy-metal song about angels protecting mortals from evil“, ha prodotto un testo strutturato con versi e ritornelli coerenti, dimostrando la capacità dell’IA di comprendere e riprodurre schemi lirici complessi.

Composizione Musicale: L’utilizzo dello strumento Udio per la composizione musicale ha permesso di trasformare i testi generati in brani completi. Le analisi tecniche dei file audio hanno mostrato una buona qualità sonora e una coerenza stilistica con il genere heavy metal, confermando la validità dell’approccio metodologico adottato.

Influenza delle Variazioni nei Prompt: L’esperimento ha evidenziato come le variazioni nei prompt possano influenzare significativamente l’output finale. Questo fenomeno è stato osservato principalmente nella composizione musicale, indicando la sensibilità degli algoritmi di IA agli input e il conseguente peso di questi ultimi.

Prospettive Future

Alla luce dei risultati ottenuti, emergono diverse direzioni per il proseguimento degli studi:

  • Approfondimento delle Variazioni nei Prompt: Ulteriori ricerche potrebbero focalizzarsi sull’analisi dettagliata delle variazioni nei prompt e sul loro impatto specifico sui diversi aspetti dell’opera musicale. Questo permetterebbe di comprendere meglio i meccanismi interni dei modelli di IA e di ottimizzare i processi di generazione creativa.
  • Espansione dei Generi Musicali: Sebbene l’heavy metal sia stato scelto per le sue caratteristiche tecniche e stilistiche, sarebbe interessante esplorare le capacità delle IA in altri generi musicali, sia convenzionali che di nicchia. Questo ampliamento potrebbe rivelare ulteriori potenzialità e limiti degli algoritmi di machine learning nella creazione artistica.
  • Integrazione di Feedback Umano: L’inclusione di un ciclo di feedback umano potrebbe migliorare ulteriormente la qualità delle opere generate. Studi futuri potrebbero sperimentare con interazioni iterative tra IA e artisti umani, esplorando nuove forme di collaborazione creativa.
  • Valutazione dell’Impatto Culturale: Un’altra direzione di ricerca potrebbe riguardare l’impatto culturale delle opere create da IA. Indagare come queste opere siano percepite dal pubblico e quale sia il loro valore artistico rispetto alle creazioni umane potrebbe fornire preziose informazioni per l’evoluzione della produzione musicale.
  • Aspetti Etici e Giuridici: L’espansione dell’utilizzo delle IA nella creazione artistica solleva questioni etiche e giuridiche che meritano un’attenta considerazione. Future ricerche potrebbero esplorare i diritti d’autore, la proprietà intellettuale e le implicazioni etiche legate alla produzione automatizzata di opere dell’ingegno.

Conclusione

Questo studio ha confermato che le intelligenze artificiali possono essere strumenti potenti per la creazione artistica, in grado di generare opere musicali di alta qualità. Le variazioni nei prompt si sono dimostrate un fattore critico, influenzando notevolmente l’output finale e suggerendo la necessità di una comprensione più profonda dei meccanismi di generazione. L’adozione di approcci metodologici rigorosi ha permesso di ottenere risultati significativi, offrendo una solida base per future ricerche.

L’integrazione di IA nella produzione musicale rappresenta una frontiera affascinante e promettente, aprendo nuove possibilità per la creatività umana e computazionale. La sinergia tra intelligenza artificiale e creatività umana potrebbe dar luogo a forme d’arte inedite, arricchendo il panorama culturale e offrendo nuove opportunità per l’espressione artistica.

In ultima istanza, questo studio getta le basi per un’ampia gamma di esplorazioni future, sia tecniche che teoriche, ponendo le fondamenta per una collaborazione sempre più stretta tra uomo e macchina nella creazione artistica. La comprensione e l’ottimizzazione delle interazioni tra input testuale e output musicale saranno cruciali per sviluppare strumenti di intelligenza artificiale sempre più sofisticati e capaci di ampliare le frontiere della creatività umana.


Di Simone Dongu
Imprenditore seriale internazionale, specializzato in Business Strategy (University of Virginia). Autore, speaker e progettista di sistemi informatici, sviluppa soluzioni AI/AR/VR per l’automazione aziendale.