Η Meta αποκάλυψε επίσημα το Movie Gen, το third-wave multimodal εργαλείο AI video, το οποίο υπόσχεται να «παράγει προσαρμοσμένα βίντεο και ήχους, να επεξεργάζεται υπάρχοντα βίντεο και να μετατρέπει την προσωπική σας εικόνα σε ένα μοναδικό βίντεο», ενώ ξεπερνά παρόμοια μοντέλα όπως το Gen-3 της Runway, το Kling 1.5 της Kuaishou Technology ή το Sora του OpenAI.
Το Meta Movie Gen βασίζεται στην προηγούμενη προσπάθεια της εταιρείας, πρώτα με τα πολυτροπικά μοντέλα Make-A-Scene και στη συνέχεια με τα μοντέλα θεμελίωσης εικόνας του Llama. Το Movie Gen είναι μια συλλογή όλων αυτών των μοντέλων. Συγκεκριμένα, η δημιουργία βίντεο, η εξατομικευμένη δημιουργία βίντεο, η ακριβής επεξεργασία βίντεο και η παραγωγή ήχου που βελτιώνει τον λεπτομερή έλεγχο του δημιουργού. «Αναμένουμε ότι αυτά τα μοντέλα θα επιτρέψουν διάφορα νέα προϊόντα που θα μπορούσαν να επιταχύνουν τη δημιουργικότητα», αναφέρει η εταιρεία στην ανάρτηση της.
Για τη δημιουργία βίντεο, το Movie Gen βασίζεται σε ένα μοντέλο 30 δισ. παραμέτρων που παράγει κλιπ διάρκειας έως και 16 δευτερολέπτων με 16 καρέ ανά δευτερόλεπτο (fps). «Αυτά τα μοντέλα μπορούν να σκεφτούν για την κίνηση αντικειμένων, τις αλληλεπιδράσεις υποκειμένου-αντικειμένου και την κίνηση της κάμερας και μπορούν να μάθουν αληθοφανείς κινήσεις για μια μεγάλη ποικιλία εννοιών», δήλωσε η Meta, “καθιστώντας τα κορυφαία μοντέλα στην κατηγορία τους”. Χρησιμοποιώντας το ίδιο μοντέλο, το Movie Gen μπορεί να δημιουργήσει εξατομικευμένα βίντεο για τους δημιουργούς από ακίνητες εικόνες.
Η Meta χρησιμοποιεί μια παραλλαγή αυτού του μοντέλου δημιουργίας βίντεο που αξιοποιεί τόσο εισόδους που βασίζονται σε βίντεο όσο και σε κείμενο για να επεξεργαστεί με ακρίβεια το περιεχόμενο που παράγει. Μπορεί να επηρεάσει τόσο τοπικές επεξεργασίες, όπως η προσθήκη, η αφαίρεση ή η αντικατάσταση στοιχείων, όσο και σφαιρικές επεξεργασίες, όπως η εφαρμογή ενός νέου κινηματογραφικού στυλ. Για τη δημιουργία ήχου, το Movie Gen βασίζεται σε ένα ξεχωριστό μοντέλο 13 δισ. παραμέτρων που μπορεί να δημιουργήσει έως και 45 δευτερόλεπτα ήχου – είτε πρόκειται για θόρυβο περιβάλλοντος, είτε για ηχητικά εφέ, είτε για instrumental μουσική – ενώ συγχρονίζει αυτόματα αυτό το περιεχόμενο με το βίντεο.
Σύμφωνα με το white paper της Meta, το Movie Gen κέρδισε σταθερά σε δοκιμές Α/Β έναντι άλλων τελευταίας τεχνολογίας εργαλεία AI video, συμπεριλαμβανομένων των Gen3, Sora και Kling 1.5, στην κατηγορία της παραγωγής video. Ξεπέρασε επίσης το ID-animator στην παραγωγή εξατομικευμένων βίντεο και το Pika Labs Sound Gen για την παραγωγή ήχου. Ξεπέρασε επίσης το Gen3 για δεύτερη φορά, στις δυνατότητες επεξεργασίας βίντεο.
Η εταιρεία δηλώνει ότι σκοπεύει να «συνεργαστεί στενά με κινηματογραφιστές και δημιουργούς για να ενσωματώσει τις παρατηρήσεις τους», καθώς συνεχίζει να αναπτύσσει αυτά τα μοντέλα, αλλά έσπευσε να επισημάνει ότι δεν έχει καμία πρόθεση να εκτοπίσει τους ανθρώπους-δημιουργούς με την τεχνητή νοημοσύνη.
Μοιραζόμαστε αυτή την έρευνα επειδή πιστεύουμε στη δύναμη αυτής της τεχνολογίας να βοηθήσει τους ανθρώπους να εκφραστούν με νέους τρόπους και να προσφέρει ευκαιρίες σε ανθρώπους που διαφορετικά δεν θα μπορούσαν να τις έχουν», έγραψε η εταιρεία. «Η ελπίδα μας είναι ότι ίσως μια μέρα στο μέλλον, όλοι θα έχουν την ευκαιρία να ζωντανέψουν τα καλλιτεχνικά τους οράματα και να δημιουργήσουν βίντεο και ήχο υψηλής ευκρίνειας χρησιμοποιώντας το Movie Gen.
[via]