IA e stile

Tempo di lettura stimato: 11 minuti
Come le intelligenze artificiali modificheranno la nostra idea di “stile” nelle arti visive. Dal numero 25 de La ricerca, “Uomini e bot”

È ormai da tempo che si parla un po’ ovunque di intelligenze artificiali, ma per quel che riguarda le arti visive l’interesse si concentra soprattutto sui software basati sul machine learning che creano immagini a partire da un comando testuale (d’ora in poi TTI, text-to-image), o sui neonati text-to-video. Negli ultimi mesi ho avuto modo di esplorarli molto, sia nella teoria che nella prassi, e continuo a pensare che porteranno una rivoluzione per l’arte visiva pari all’avvento della fotografia o della computer graphic (e prima ancora della prospettiva). È ancora presto, perché la maggior parte di questi software è in fase embrionale, sebbene siano in velocissima evoluzione, ma le scosse cominciano a farsi notare. Come cambierà il nostro modo di fare arte e di rapportarci alle immagini?

Prima di provare a rispondere, qualche breve appunto tecnico. Per citare il celebre esperimento mentale di Searle, questi software somigliano più a “stanze cinesi” che ad androidi antropomorfi; sono infatti dei modelli algoritmici basati su enormi quantità di dati creati dagli umani, su cui lavorano su base statistica allo scopo di rispondere con successo alle nostre richieste. Se inserisco il comando testuale “un gatto” in un software come Midjourney, questo strumento, che per essere costruito ha “mangiato” moltissime foto di gattini etichettate con la parola “gatto”, plasmerà un’immagine di un gattino inesistente. Gli ingredienti che rendono possibile la magia sono essenzialmente il materiale di partenza (moltissime foto, di cui alcune di gatti), il modo in cui viene catalogato (“questa immagine è una foto di un gatto che soffia”), la potenza di calcolo della macchina e il metodo con cui viene addestrata, grazie al quale si estrapola una immensa rete di relazioni invisibili, in questo caso tra parole e pixel. Lo spazio creativo di una IA viene plasmato essenzialmente dai dati e dalla loro etichettatura – anche se questa è una spiegazione molto semplicistica1.

Nonostante quel che sostengono alcuni critici, che non si possano creare delle immagini inedite con una TTI è falso e lo sappiamo, anzi, è estremamente difficile non ottenere qualcosa di nuovo, dato che la stragrande maggioranza delle generazioni non ha equivalenze col materiale nel dataset2. Resta però da chiedersi se è possibile creare del contenuto originale, inteso come innovativo in ambito visivo. L’artista e teorico Lev Manovich nel suo articolo Towards “General Artistic Intelligence”?3 suggerisce che le TTI siano già tecnicamente più competenti di molti studenti d’arte e artisti adulti – e a mio parere è fin troppo generoso con gli artisti umani. Tuttavia, queste tecnologie tendono a sintetizzare immagini idealizzate e senza difetti, con un gusto che l’autore individua vicino al classicismo. Inoltre la TTI risulta facilmente retorica, stereotipata e priva di originalità, caratteristiche che Manovich associa al kitsch. È un’analisi che allo stato attuale dello sviluppo condivido, ed è legata al dataset e al tipo di sviluppo di software.

Due immagini create da Midjourney con il prompt Picasso si fa un selfie.

Il mondo cognitivo di una TTI è composto in egual misura dai suoi dati e da come questi sono etichettati; è molto più piccolo di quello umano, che è a sua volta più piccolo di quello di alcuni animali, o di quello che giace oltre le capacità dei nostri sensi e intelletti. La porzione di radiazioni che riusciamo a percepire come “colore” è una frazione molto piccola di tutto lo spettro elettromagnetico, che include i raggi X, i raggi gamma, ultravioletti, infrarossi, microonde e onde radio. Api, farfalle, serpenti, uccelli e alcuni gamberetti percepiscono colori a noi invisibili, ma nonostante questi limiti il nostro mondo cromatico è sufficiente a dar luogo alla sterminata ricchezza di ogni possibile visione umana. Allo stesso modo, anche il mondo di una TTI, ben più povero rispetto al nostro, è comunque immenso, e lo spazio di possibilità (o “spazio latente”) che si esplora attraverso i prompt (i comandi testuali con cui si crea l’immagine) nasconde moltissimi luoghi mai visti. I prompter sono in effetti esploratori ed esploratrici di questo spazio ma, a differenza di un navigatore del XV secolo, scoprono un mondo che non esiste senza di loro, perché è composto da possibilità che vengono in essere solo quando sono osservate – metaforicamente, è un mondo più quantistico che classico. In questa esplorazione, inoltre, ogni strada porta inevitabilmente a un luogo. Il più delle volte sono luoghi familiari (come “un gatto dipinto da Van Gogh”), altre invece sono inediti.

Con le TTI ci si accorge che non sempre lo stile è separabile dal contenuto, perché in alcuni casi è possibile applicare il timbro di un artista a un soggetto e in altri no. È una cosa di cui ci si accorge durante l’esplorazione, perché ogni termine usato nel prompt porta con sé il suo universo semantico – così ad esempio la parola corvo “corvizza” anche il resto dell’immagine, quella farfalla la “farfallizza”, e così via, sempre in base alle associazioni estrapolate da dati ed etichette. Pensare che limitarsi a materiale noto sia un ostacolo per l’originalità è errato, perché come scrive ancora Manovich a proposito delle avanguardie, «L’arte moderna si è sviluppata reinterpretando e copiando immagini e forme dalle tradizioni artistiche antiche, come le stampe giapponesi (van Gogh), la scultura africana (Picasso) e le icone russe (Malevich). Pertanto, gli artisti hanno rifiutato solo i paradigmi dominanti dell’arte accademica del tempo, l’arte realistica e da salone, ma non il resto della storia dell’arte umana»4. Sebbene il nostro mondo cognitivo sia molto più vasto, è comunque finito, e siamo vincolati ad esso per produrre le nostre immagini. Per quante lodi si possano tessere alla creatività umana (forse sopravvalutata, come qualunque altro tratto umano) non può immaginare l’impossibile. Ogni visione è vincolata a un mondo e sebbene i vincoli delle TTI siano più stretti dei nostri, c’è davvero molto da esplorare nello spazio latente. Certo, ad alcuni questo pur immenso spazio potrebbe stare strettino, ma con qualche competenza tecnica e un po’ di potenza di macchina è già possibile personalizzare questi strumenti con il fine-tuning su un dataset scelto dall’utente. È una funzione relativamente complessa e al momento disponibile quasi solo per i software open source, ma quando sarà di largo accesso, ogni persona potrà avere una sua TTI personale, tarata sulle proprie esigenze e stilemi. È possibile farlo perché queste tecnologie imparano molto velocemente nuovi stili; basta un numero relativamente esiguo di quadri di Van Gogh (dopotutto non ne esistono moltissimi) per creare “un gatto alla Van Gogh”, perché la macchina ha già imparato elementi fondamentali per realizzare l’immagine (come che cos’è un gatto) grazie ad altri dati.

Autoritratto di Van Gogh secondo Midjourney.

Nel parlare di IA bisogna rifuggire il più possibile le antropomorfizzazioni, ma la somiglianza di queste immagini con quelle ipnagogiche che si vivono nel pre-sonno o in alcune fasi della meditazione è sconcertante. Se consideriamo il prompt come una mappa per cercare/creare qualcosa nello spazio latente, potremmo dire di aver sbagliato strada, per arrivare in quello che sembra (ma non è, perché non esiste) l’inquietante inconscio della macchina. Se vogliamo seguire la metafora, si tratta più correttamente di una manifestazione del nostro inconscio collettivo, un serbatoio junghiano di icone archetipali – o meglio di formule per generare tali icone. Se volessimo paragonare l’operato di una TTI agli archetipi teorizzati dal celebre studioso, infatti, credo che questi andrebbero collegati ai pattern invisibili in grado di generare serie di icone coerenti e potenzialmente illimitate. È forse necessario rivedere il concetto di archetipo, o di idea platonica: non sono perfette ed eterne rappresentazioni di ciò che è simboleggiato, ma formule – queste sì, immobili – che possono comporre infinite versioni del medesimo tipo.

È certo che questi strumenti avranno un effetto nel mondo dell’arte, soprattutto via via che diventeranno di uso comune, ma indovinare in che modo va ben oltre le mie capacità; l’unica cosa su cui posso scommettere è che non ucciderà l’arte, come sostengono alcuni tra i più apocalittici detrattori. La morte dell’arte è un allarme che è stato annunciato troppo spesso lungo i secoli per mantenere ancora la sua credibilità e se questa data esiste probabilmente coinciderà con quella della nostra estinzione. Non è nemmeno detto che l’impatto delle IA in quest’ambito sarà così forte; come nota la storica dell’arte Valentina Tanni5, la comparsa di una nuova tecnologia visiva, per quanto potente, non è più in grado di per sé di innestare una rivoluzione in ambito artistico, ma avrà comunque delle ripercussioni, perché «al di là delle scelte individuali, l’influenza delle innovazioni tecnologiche è di carattere sistemico: la sola esistenza di determinati strumenti cambia la percezione del mondo, estende il senso della possibilità, influisce sulle strutture sociali ed economiche, modifica il senso estetico e il senso comune. Tutti questi cambiamenti, nel loro complesso, si rifletteranno senza dubbio nell’arte delle generazioni a venire, secondo modalità che sono ancora difficili da prevedere».

La nascita della fotografia ha rivoluzionato la prassi artistica anche di chi non ha sempre utilizzato il nuovo strumento – basti pensare alle avanguardie del Novecento – ed è plausibile che accadrà lo stesso in seguito dell’introduzione delle IA. Anzi, sta già accadendo, se si guarda alla scissione che questi strumenti hanno già operato tra lo stile e la competenza tecnica atta a realizzarlo. Una volta scoperto un peculiare stile rappresentativo, con le TTI è possibile replicarlo e ibridarlo indefinitamente grazie a pochi esempi – un fatto che non può non avere conseguenze. Non credo che questo deprezzerà l’abilità artigianale, perché quest’ultima è legata al lavoro umano e alle irriducibili caratteristiche di un oggetto non digitale – anzi, è possibile che l’artigianato accresca il suo valore. Ma per quel che riguarda la vita dell’immagine nella sua riproducibilità tecnica, dunque a mezzo stampa, video, web o altro, il cambiamento è senza dubbio enorme. Il fatto che queste tecnologie siano state accolte tendenzialmente con curiosità dagli artisti e dalle artiste che lavorano con le gallerie d’arte o i musei e con aperta ostilità da chi lavora in ambito illustrativo ed editoriale è un ulteriore sintomo di quali siano le maggiori zone di impatto delle TTI. Comprensibilmente, a preoccuparsi è il settore economico dove la tecnologia sarà più influente, anche se è presto per fare previsioni, perché abbiamo imparato dalla fotografia – e prima ancora dalla stampa e dallo sviluppo della prospettiva nel disegno – che un nuovo modo di creare immagini modifica anche il nostro gusto.

Al momento con questi strumenti è più facile ottenere delle immagini realistiche e patinate – un risultato dovuto sia al settore commerciale dove vanno a inserirsi sia alla loro “alimentazione”: dato che l’umanità produce moltissime immagini commerciali, c’è poco da stupirsi se sono quelle che le macchine hanno imparato meglio. Il mio non è un giudizio di valore, alcune sono comunque molto belle, ma in un contesto in cui per produrre certe immagini non saranno più necessarie costose apparecchiature e set, il loro valore estetico si modificherà. Le immagini che prima richiedevano grandi abilità tecniche e ora pochi click potrebbero non piacerci più. Il parallelo che mi viene in mente è nel campo dei video per adulti – da sempre un ottimo osservatorio per le innovazioni tecnologiche – dove la crescita di prodotti confezionati secondo standard cinematografici sempre più elevati ha portato allo sviluppo del porno amatoriale. Dopo una tendenza alle immagini patinate, potrebbe verificarsi una a favore di quelle amatoriali, ma quando TTI e fotografia non saranno più distinguibili su schermo anche questo canone scomparirà. D’altra parte la rivoluzione visiva dovuta a questi strumenti non si verificherà tanto e solo per via di chi li userà o li rifiuterà, ma per l’inevitabile uso di massa, che, come con la fotografia, contribuirà alla costruzione e decostruzione del nostro fluido rapporto con l’immagine.

 

NOTE

  1. Questa è una spiegazione molto semplificata e parziale del funzionamento di una TTI. Per un approfondimento accessibile senza competenze tecniche rimando a M. De Baggis, A. Puliafito, In principio era ChatGPT, Apogeo, Milano 2023.
  2. Per approfondire il funzionamento tecnico di questi modelli si veda https://stable-diffusion-art.com/how-stable-diffusion-work.
  3. L. Manovich, Towards ’General Artistic Intelligence’?, Art Basel, 1 giugno 2023 https://www.artbasel.com/stories/lev-manovich.
  4. L. Manovich, E. Arielli, Artificial Aesthetics: A Critical Guide to AI in Art, Media and Design, consultabile all’indirizzo http://manovich.net/index.php/projects/artificial-aesthetics-book.
  5. V. Tanni, Arte e intelligenza artificiale. Una storia che inizia negli Anni Cinquanta, uscito su Artribune il 30 giugno 2023, consultabile all’indirizzo https://www.artribune.com/progettazione/new-media/2023/06/arte-intelligenza-artificiale-storia/.
Condividi:

Francesco D’Isa

Francesco D’Isa, di formazione filosofo e artista digitale, ha esposto internazionalmente in gallerie e centri d’arte contemporanea. Dopo l’esordio con la graphic novel “I.” (Nottetempo, 2011), ha pubblicato saggi e romanzi per Hoepli, effequ, Tunué e Newton Compton. Il suo ultimo romanzo è “La stanza di Therese” (Tunué, 2017), mentre per Edizioni Tlon è uscito il suo saggio filosofico “L’assurda evidenza” (2022). Direttore editoriale della rivista culturale «L’Indiscreto», scrive e disegna per varie riviste.

Contatti

Loescher Editore
Via Vittorio Amedeo II, 18 – 10121 Torino

laricerca@loescher.it
info.laricerca@loescher.it