Google ha introdotto una nuova tecnologia chiamata IMAGE, un modello basato sull’Intelligenza Artificiale (AI) capace di creare immagini altamente realistiche da brevi descrizioni di testo. IMAGE è in grado di convertire parole o brevi descrizioni, come “un piccolo cactus con cappello di paglia e occhiali da sole al neon nel deserto del Sahara” o “un cane Pomerania seduto sul trono del re con una corona e due soldati tigre insieme a lui”, nelle immagini.

Per fare ciò, utilizzare il Trasformatore di trasferimento da testo a testo (T5), un modello presentato nel 2020 e nei cui esordi era in grado di unificare input e output di stringhe di testo. Ora, tuttavia, è stato modificato per eseguire la sintesi delle immagini.

Anche se è vero che originariamente il AI produce immagini con una risoluzione di 64 x 64 pixel, la sua tecnologia è in grado di ridimensionarli prima a 256 x 256 pixel e poi a 1024 x 1024 pixelgenerando un modello di diffusione a cascata.

Una delle premesse di IMAGEN è quella di offrono risultati con un livello di dettaglio più preciso rispetto ad altri sistemi strumenti di conversione da testo a immagine simili, come VQ-GAN+CLIP e DALL-E 2.

Per questo si è presentatoun test di riferimento completo e impegnativo per i modelli testo-immagine” chiamato DrawBench, che confronta il modello di Google con quelli sopra menzionati.

Questo benchmark viene utilizzato per testare come gli aspetti narrati nel testo vengono portati alle immagini, come composizione, fedeltà, cardinalità e relazioni spaziali degli oggetti. L’azienda ha evidenziato alcuni punti importanti della ricerca sull’imaging condotta per sviluppare questa IA, come lo sviluppo della propria nuova architettura Efficient U-Net, che è più efficiente nel calcolo e nella memoria.

ancora in sviluppo

Google ha annunciato che, per il momento, questa IA non è open source o accessibile a livello globale. Questa decisione deriva dai possibili rischi potenziali di un uso improprio da parte degli utenti. Con ciò ha riconosciuto che i primi test che sono stati effettuati con questa IA hanno consentito rapidi progressi algoritmici grazie ai dati estratti da Internet e che ci sono ancora molti aspetti da migliorare.

Al riguardo, è stato indicato che questi dati non riflettono la diversità, ma si sono concentrati su “stereotipi sociali, punti di vista oppressivi e associazioni dispregiative o dannose con gruppi di identità emarginati”. Ha inoltre sottolineato che, sebbene abbiano effettuato un controllo per filtrare i dati che hanno raccolto per i loro primi test con IMAGEN, il set di dati utilizzava LAION-400M mantiene un “contenuto inappropriato, comprese immagini pornografiche, insulti razzisti e stereotipi sociali dannosi”.

Ricordiamo che qualche settimana fa la società di ricerca sull’IA no-profit OpenAI ha presentato DALL-E, il suo nuovo sistema di intelligenza artificiale capace anche di convertire le parole in immagini realistiche. Questa tecnologia può modificare fotografie su richiesta scritta. Questa funzione include la possibilità di eliminare elementi come ombre, riflessi e texture.