Creare immagini con l’AI
Oggi, domenica d’agosto con poco da fare, ho deciso di dedicarmi al piacere e al dovere insieme: dopo averne tanto parlato, ho passato la giornata a provare Stable Diffusion, una delle AI specializzate in disegno. Me la sono installata in locale sul portatile; c’è voluto un po’ di smanettamento, la lettura di prontuari su diversi siti, la comprensione di una dozzina di acronimi e componenti, nonché un bel po’ di spazio disco (comprese tutte le aggiunte, ho già occupato una quindicina di GB), ma dopo un paio d’ore ero a posto.
Bene, che dire? Come primo esperimento, ho scelto per soggetto un famoso personaggio cinese, Xiao di Genshin Impact (non preoccupatevi se non sapete cos’è, se avete più di vent’anni è normale): l’ho scelto perché è allo stesso tempo complesso da disegnare ma molto diffuso. Questo mi ha permesso di recuperare in rete una serie di modelli già pronti: il generico modello ottimizzato per il disegno in stile anime, e poi il modello specialistico per disegnare questo specifico personaggio.
Infatti, a differenza di quasi tutti i sistemi AI concorrenti, Stable Diffusion è un sistema molto aperto che può funzionare anche sui personal computer: così, c’è stato qualcuno che ha passato una montagna di tempo a far vedere all’AI centinaia o migliaia di immagini di questo personaggio, specificando per ognuna tutte le caratteristiche del disegno, in modo che l’AI imparasse a disegnarlo in qualunque forma e posizione.
Insomma, c’è voluta un’oretta per capire come mettere insieme i vari componenti e come usare l’interfaccia utente, ma alla fine… la prima delle immagini che vedete è soltanto la quinta che ho generato in tutta la mia vita: le prime quattro non c’entravano nulla, ma questa è già notevole.
C’è però un piccolo problema: come ho scoperto nel pomeriggio, è relativamente facile generare immagini piuttosto belle, ma è molto difficile generare immagini perfette, nonché davvero corrispondenti a ciò che vorresti tu. Non mi riferisco soltanto al fatto che ogni tanto – non spesso, a dir la verità – escono fuori immagini con una gamba sola o con tre. Mi riferisco piuttosto al fatto che tu puoi anche dare una caterva di istruzioni e dettagli su come vuoi l’immagine, ma più ne metti più il sistema si incasina, perché può soltanto mettere insieme imitazioni di ciò che ha visto: e se “Xiao in piedi con lo sguardo truce” è abbastanza semplice, “Xiao vestito di un kimono blu mentre guarda a sinistra col braccio piegato e una spada in mano, sullo sfondo del cielo con le nuvole” è già troppo complicato, e non viene mai eseguito alla lettera. Ogni tanto, al posto della spada c’è una candela, oppure il cielo è nero e senza nuvole, e il kimono è sempre bianco perché il modello ha imparato solo kimono bianchi.
Insomma, è come guidare una Ferrari senza volante, provando a partire venti volte per sperare che almeno una vada più o meno nella direzione che desideri. Ovviamente io sono un operatore AI molto incompetente, eppure pare che tutti facciano così: si prova a dargli un insieme di istruzioni, viene fuori un risultato più o meno carino, gli si dice “riprova”, magari si aggiunge o si toglie una parola, e poi semplicemente si ripete, anche perché più ripetizioni diverse delle stesse istruzioni danno risultati anche piuttosto diversi; quindi, si ripete a caso fin che l’AI non ne imbrocca una meno brutta.
Non parliamo poi di disegnare scene con più personaggi: a quanto pare, al momento – a meno che non si tratti di un generico gruppo – non è fattibile, non con questi strumenti almeno. E poi, non ho ancora provato le illustrazioni fotorealistiche: penso che lì ottenere buoni risultati sia ancora più difficile.
Morale: è un giochino divertente, ma per ora può sostituire i disegnatori umani solo in certi tipi specifici di composizione, e solo per committenze che si accontentino, che non abbiano un’idea molto precisa dei dettagli che vogliono e che si adattino a quel che viene fuori dal sistema. Però, è impressionante che per quel tipo specifico di illustrazione io, con un normale portatile e poche ore di addestramento, possa fare quel che fino a ieri richiedeva talento, manualità e anni di studio; e questi strumenti certamente continueranno a migliorare.
P.S. Naturalmente, questo è un esperimento: dato che nelle discussioni di policy che seguo per lavoro si parla continuamente di AI, mi sembrava il caso di capirne di più. Le immagini generate sono prove per uso personale; nel frattempo, la discussione sulla legittimità dell’uso di questi strumenti senza compensazione degli autori originali è tuttora aperta.