Η Google παρουσιάζει τη δεύτερη γενιά του Imagen, του μοντέλου Τεχνητής Νοημοσύνης που μπορεί να δημιουργεί και να επεξεργάζεται εικόνες με βάση ένα κείμενο, ευρύτερα διαθέσιμη – τουλάχιστον στους πελάτες του Google Cloud που χρησιμοποιούν το Vertex AI και έχουν λάβει έγκριση για πρόσβαση.
Το βελτιωμένο μοντέλο της Google που ονομάζεται Imagen 2 – το οποίο παρουσιάστηκε αθόρυβα σε προεπισκόπηση στο συνέδριο Google I/O 2023 του τεχνολογικού γίγαντα τον περασμένο Μάιο – αναπτύχθηκε με τη χρήση τεχνολογίας από το εργαστήριο Google DeepMind, τη ναυαρχίδα του τμήματος Τεχνητής Νοημοσύνης της εταιρείας. Σε σύγκριση με την πρώτη γενιά του Imagen, είναι “σημαντικά” βελτιωμένο όσον αφορά την ποιότητα της εικόνας, όπως ισχυρίζεται η Google και εισάγει νέες δυνατότητες, συμπεριλαμβανομένης της δυνατότητας απόδοσης κειμένου και λογότυπων.
“Αν θέλετε να δημιουργήσετε εικόνες με υπέρθεση κειμένου – για παράδειγμα, για διαφήμιση – μπορείτε να το πετύχετε“, δήλωσε ο διευθύνων σύμβουλος του τμήματος Google Cloud, Thomas Kurian, κατά τη διάρκεια συνέντευξης Τύπου.
Η παραγωγή κειμένου και λογότυπων φέρνει το Imagen 2 σε αντιστοιχία με άλλα κορυφαία μοντέλα δημιουργίας εικόνων, όπως το DALL-E 3 της OpenAI και το Titan Image Generator της Amazon που κυκλοφόρησε πρόσφατα. Ωστόσο, το Imagen 2 μπορεί να αναπαράγει κείμενο σε πολλές γλώσσες – συγκεκριμένα κινέζικα, ινδικά, ιαπωνικά, κορεατικά, πορτογαλικά, αγγλικά και ισπανικά, με περισσότερες γλώσσες να έρχονται κάποια στιγμή το 2024 – και να επικαλύπτει λογότυπα σε υπάρχουσες εικόνες.
“Το Imagen 2 μπορεί να δημιουργήσει … εμβλήματα, γράμματα και αφηρημένα λογότυπα και έχει τη δυνατότητα να επικαλύπτει αυτά τα λογότυπα πάνω σε προϊόντα, ρούχα, επαγγελματικές κάρτες και άλλες επιφάνειες“, εξηγεί ο Vishy Tirumalasetty, επικεφαλής των generative media products της Google.
Χάρη στις “νέες τεχνικές εκπαίδευσης και μοντελοποίησης“, το Imagen 2 μπορεί επίσης να κατανοεί πιο περιγραφικές, μακροσκελείς οδηγίες και να παρέχει “λεπτομερείς απαντήσεις” σε ερωτήσεις σχετικά με τα στοιχεία μιας εικόνας. Αυτές οι τεχνικές ενισχύουν επίσης την πολύγλωσση κατανόηση του Imagen 2, λέει η Google – επιτρέποντας στο μοντέλο να μεταφράσει μια προτροπή σε μια γλώσσα σε μια έξοδο (π.χ. ένα λογότυπο) σε μια άλλη γλώσσα.
Το Imagen 2 αξιοποιεί το SynthID, μια μέθοδο που αναπτύχθηκε από την DeepMind, για να εφαρμόζει αόρατα υδατογραφήματα στις εικόνες που δημιουργούνται από αυτό. Φυσικά, ο εντοπισμός αυτών των υδατογραφήσεων – τα οποία, όπως ισχυρίζεται η Google, είναι ανθεκτικά στις επεξεργασίες εικόνας, συμπεριλαμβανομένης της συμπίεσης, των φίλτρων και των χρωματικών προσαρμογών – απαιτεί ένα εργαλείο που παρέχει η Google και το οποίο δεν είναι διαθέσιμο σε τρίτους. Καθώς όμως οι υπεύθυνοι χάραξης πολιτικής εκφράζουν την ανησυχία τους για τον αυξανόμενο όγκο παραπληροφόρησης που δημιουργείται από την Τεχνητή Νοημοσύνη στο Διαδίκτυο, αυτό ίσως καθησυχάσει κάποιους φόβους.
Η Google δεν αποκάλυψε τα δεδομένα που χρησιμοποίησε για να εκπαιδεύσει το Imagen 2, γεγονός που δεν αποτελεί ακριβώς έκπληξη. Είναι ένα ανοιχτό νομικό ερώτημα σχετικά με το αν οι προμηθευτές εργαλείων GenAI όπως η Google μπορούν να εκπαιδεύσουν ένα μοντέλο σε δημόσια διαθέσιμα – ακόμη και με πνευματικά δικαιώματα – δεδομένα και στη συνέχεια να γυρίσουν και να εμπορευματοποιήσουν αυτό το μοντέλο.