Το νέο AI μοντέλο παραγωγής video της Google «γονατίζει» το Sora της OpenAI

0


Πριν από λίγο καιρό, η OpenAI κυκλοφόρησε το Sora, ένα μοντέλο μετατροπής κειμένου σε βίντεο που έχει σχεδιαστεί για τη δημιουργία σύντομων, υψηλής ποιότητας κλιπ, ζωντανεύοντας τις λέξεις με τρόπο που μοιάζει σχεδόν υπερβολικά αληθινό. Η παγίδα είναι ότι έχει ανώτατο όριο τα 20 δευτερόλεπτα και παρέχει περιεχόμενο HD (1080p).

Όμως, η Google DeepMind δεν πάει πίσω και μάλιστα εντείνει τον ανταγωνισμό με την κυκλοφορία του Veo 2, του διαδόχου του Veo 1. Σύμφωνα με την DeepMind, το Veo 2 μπορεί να δημιουργήσει ολοκληρωμένα βίντεο 4K που μπορούν να διαρκέσουν έως και 2 λεπτά. Η DeepMind αναφέρει ότι επεκτείνει την πρόσβαση, ωστόσο, για την ώρα το VideoFX δεν είναι διαθέσιμο στη χώρα μας.

Ένα παράδειγμα που μοιράζονται στην ιστοσελίδα τους είναι ένα video που δημιουργήθηκε από μια προτροπή που είναι όσο πιο λεπτομερής γίνεται. Η προτροπή περιγράφει

Η κάμερα αιωρείται απαλά μέσα από σειρές ξύλινων κυψελών ζωγραφισμένων με παστέλ χρώματα, με τις μέλισσες να βουίζουν και να γλιστρούν μέσα και έξω από το κάδρο. Η κίνηση εγκαθίσταται στον εκλεπτυσμένο αγρότη που στέκεται στο κέντρο, με την πεντακάθαρη λευκή μελισσοκομική του στολή να λάμπει στο χρυσό απογευματινό φως. Σηκώνει ένα βάζο με μέλι, γέρνοντάς το ελαφρά για να πιάσει το φως. Πίσω του, ψηλά ηλιοτρόπια λικνίζονται ρυθμικά στο αεράκι, με τα πέταλά τους να λάμπουν στο ζεστό φως του ήλιου. Η κάμερα γέρνει προς τα πάνω για να αποκαλύψει ένα ρετρό αγροτόσπιτο με πράσινα παραθυρόφυλλα, στους τοίχους του οποίου πέφτουν σκιές από τα δέντρα που λικνίζονται. Γυρισμένο με φακό 35mm σε φιλμ Kodak Portra 400, το χρυσό φως δημιουργεί πλούσιες υφές στα γάντια του αγρότη, στο βάζο μαρμελάδας και στο φθαρμένο ξύλο των κυψελών.

Αν και αυτά τα παραδείγματα είναι εντυπωσιακά, αξίζει να αναφέρουμε ότι η DeepMind πιθανώς τα επέλεξε για να αναδείξει τα καλύτερα από αυτά που μπορεί να κάνει το Veo 2. Δεν είναι όλα τέλεια. Ένας από τους περιορισμούς που έχουν επισημάνει είναι ότι η δημιουργία σύνθετων σκηνών ή κινήσεων μπορεί να εξακολουθεί να αποτελεί πρόκληση για το μοντέλο.

[via]



Πηγή