Indica un intervallo di date:
  • Dal Al
tecnologia

Imagen 3 vs Dall-E3: lo scontro educato dei generatori di immagini #AIStories

Senza grandi proclami, il motore Imagen 3, la terza versione del modello text-to-image di Google, è sbarcato sia su Gemini che su Gemini Advanced, i modelli di AI di Mountain View. Il primo, ricordiamo, è gratuito, mentre il secondo richiede un abbonamento. Tradotto: dopo gli incidenti di percorso di questa estate, anche in Europa Gemini è tornato a generare immagini. Ricordiamo che Imagen è il sistema alla base di Magic Editor dei Pixel ed è disponibile su Vertex AI, la piattaforma di machine learning di Google Cloud. Ciò premesso, va sottolineato che solo gli utenti di Gemini Advanced possono usare Imagen 3 per generare immagini che ritraggono persone. E non è una piccola differenza, come si può notare dall’immagine sopra, realizzata chiedendo Napoleone vestito come Joker.

 

Come si vede, il volto di Napoleone sembra quello di Joaquin Phoenix, l’attore che interpreta al cinema il Joker. Ci sono altri interpreti, ma Gemini ha scelto l’ultimo Joker in senso cronologico. Anche rispetto a DALL-E 3 di OpenAI, le differenze ci sono. Proprio per questo abbiamo fatto al volo una comparativa, fornendo lo stesso prompt per scoprire le differenze. E, come vedrete, le differenze ci sono a favore di uno e dell’altro sistema.

Partiamo proprio dai personaggi famosi. Ecco cosa succede se chiedere a Dall-E3 di  creare una immagine dell’Uomo Ragno che è vissuto nel medioevo. La risposta è la seguente.

Non posso creare un’immagine dell’Uomo Ragno vissuto nel Medioevo a causa delle restrizioni relative alla politica sui contenuti. Tuttavia, posso realizzare un’illustrazione ispirata a un personaggio simile, che unisce elementi medievali con un design di un eroe dotato di poteri da ragno. Fammi sapere se ti interessa una versione modificata!

 

Gli dici di sì ed ecco il risulato

 

Bello eh intendiamoci assomiglia nello stile ad Assassin Creed ma se lo chiedi a Gemini Advanced ottieni questo. L’Uomo Ragno qui è l’Uomo Ragno.

 

Abbiamo chiesto a Dall-E3 di creare allora un Napoleone-Joker e questo è stato il risultato.

I cannot create an image of Napoleon dressed as the Joker specifically because the Joker is a copyrighted character. However, I can design an image of Napoleon in a whimsical, clown-like costume that captures a playful or dramatic theme inspired by the idea of a jester or theatrical figure.

Su Gemini (gratis ed advanced) la generazione di immagini funziona sia da web sia tramite app Google da smartphone. Ma nella versione free non potete decidere il formato (dimensioni), almeno per ora. Google ha dichiarato che presto aggiornerà questa versione. Mentre per ora è confermata l’impossibilità di generare persone.

Vediamo ora come se la cavano i due generatori con un prompt più strutturato.

Create a retro-futuristic graphic design of a soccer player, with bold colors and
geometric shapes, in the style of Bauhaus-inspired digital art. The background
is a blend of blue and yellow. Sense of motion and energy. Combining
modern aesthetics with vintage elements, striking composition

 

Create a retro-futuristic graphic design of a soccer player, with bold colors and
geometric shapes, in the style of Bauhaus-inspired digital art. The background
is a blend of [blue and yellow. Sense of motion and energy. Combining
modern aesthetics with vintage elements, striking composition
e questo è Dall-e3

Create a retro-futuristic graphic design of a soccer player, with bold colors and

geometric shapes, in the style of Bauhaus-inspired digital art. The background

is a blend of [blue and yellow. Sense of motion and energy. Combining

modern aesthetics with vintage elements, striking composition

 

Volendo proseguire con i confronti ma cambiando sport questo con Midjourney che è un altro livello.

qui invece abbiamo provato un prompt più articolato per creare una lista di armi e accessori per personaggi alla D&D. Questo era il prompt.

Dungeons and Dragons style sheet with different pieces of axe for a female in dark accents. Hand Draw and drawn on paper. Illustration that contains various items associated to dwarf fantasy races

 

In questo caso ci è soddisfatto di più Dall-E3 perché ha capito quello che volevamo.

Gemini Advanced invece si è accontentata di svolgere il compitino.

” dir=”auto” data-testid=”conversation-turn-8″ data-scroll-anchor=”false”>
Dungeons and Dragons style sheet with different pieces of axe for a female in dark accents. Hand Draw and drawn on paper. Illustration that contains various items associated to dwarf fantasy races

Occorre però tenere in considerazione il fatto che, spesso spieghiamo su Ascanio, la generazione di immagini è solo il primo passo. Diciamo che è una bozza su cui è bene iniziare a lavora, sia con ulteriori aggiustimenti in chiave generativa (quando è permesso) sia attraverso strumenti tradizionali di editing fotografico.

Quali sono le potenzialità di Gemini sull’imaging?  

Per capire le potenzialità occorre ricordare che a febbraio la possibilità di generare immagine di Gemini era stata messa in pausa dopo la pubblicazione di  nazisti di colore e vikinghi che sembrano pellerossa. In sostanza, come abbiamo spiegato qui su Info Data, Google per disinnescare bias di genere e di razza e quindi per essere più inclusivo avevo però perso di vista la dimensione storica dei prompt generando appunto nazisti che non sono mai esisti in queli periodo storico.

I vertici di Google chiesero scusa e ritirarono temporaneamente il loro modello di Ai.  Se oggi chiediamo a Gemini Advanced di generare quattro immagini di nazisti degli anni Cinquanta ecco quello che risponde.

I’m still learning how to generate certain kinds of images, so I might not be able to create exactly what you’re looking for yet. Also, I can’t help with photorealistic images of identifiable people, children, or other images that go against my guidelines. If you’d like to ask for something else, just let me know!

In sintesi, ecco quello che dicono:

Violenza e contenuti cruenti: Evitare contenuti che promuovono la violenza o mostrano scene cruente.

Attività illegale: Non generare contenuti che incoraggino o facilitino attività illegali.

Odio e discriminazione: Evitare contenuti che incitano all’odio o alla discriminazione basati su caratteristiche come razza, religione, genere o orientamento sessuale.

Informazioni personali: Non condividere informazioni personali di individui senza il loro consenso.

Contenuti sessualmente espliciti: Evitare la creazione di contenuti sessualmente espliciti.

Quindi come vedete tutto sommato paletti, “guard rail” sono previsti. Sarà in grado il modello di stare dentro le sue linee guida o qualcuno troverà un modo per aggirare le regole? 

Siete su Ai Stories

Cosa è Ai Stories? Storie lunghe su fatti, accadimenti e personaggi della rivoluzione Ai Gen.

La altre puntate di Ai Stories 

Le elezioni Usa, i deepfake più assurdi di Kamala Harris e la strategia della non verosimiglianza #AiStories

Il rapporto psicologicamente scorretto di Elon Musk con l’intelligenza artificiale #AiStories

Helen Toner, il superallineamento e quello che sappiamo sul licenziamento lampo di Sam Altman #AiStories

Apple Intelligence, il laboratorio “segreto” di Zurigo e l’intelligenza artificiale migliore di sempre #AiStories

Il boom dell’Ai, la legge di Moore e il caso Intel. Il dilemma dei chip #AiStories

Per approfondire. 

Imagen 3 debutta negli Usa. Ecco cosa sappiamo del modello di Ai di Google

Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione

Da Project Astra a Veo. Tutte le novità di Gemini presentate al Google I/O 2024 in sei video

Cerchia e cerca e altre novità Ai di Google sui telefonini Android