Categories: Mobile

Εντυπωσιάζει το νέο AI εργαλείο παραγωγής video της Google


Το νέο μοντέλο Τεχνητής Νοημοσύνης Lumiere της Google για τη δημιουργία βίντεο χρησιμοποιεί ένα νέο σύστημα διάχυσης που ονομάζεται Space-Time-U-Net, ή STUNet, το οποίο υπολογίζει πού βρίσκονται τα πράγματα σε ένα βίντεο (χώρος) και πώς κινούνται και αλλάζουν ταυτόχρονα (χρόνος). Η ιστοσελίδα Ars Technica αναφέρει ότι αυτή η μέθοδος επιτρέπει στο Lumiere να δημιουργήσει το βίντεο με μιας αντί να συνθέτει μαζί μικρότερα σταθερά καρέ.

Το Lumiere ξεκινά με τη δημιουργία ενός βασικού πλαισίου από την προτροπή του χρήστη. Στη συνέχεια, χρησιμοποιεί το STUNet framework για να αρχίσει να προσδιορίζει προσεγγιστικά πού θα κινηθούν τα αντικείμενα μέσα σε αυτό το καρέ, ώστε να παράγει περισσότερα καρέ που εισέρχονται το ένα στο άλλο, δημιουργώντας την εντύπωση μιας απρόσκοπτης κίνησης. Το Lumiere παράγει 80 καρέ σε σύγκριση με τα 25 καρέ του Stable Video Diffusion.

Το Lumiere έχει τη δυνατότητα να εκτελεί διάφορα τρικ, τα οποία παρουσιάζονται με παραδείγματα στη demo σελίδα της Google. Για παράδειγμα, μπορεί να εκτελέσει τη δημιουργία κειμένου σε βίντεο (μετατρέποντας μια γραπτή προτροπή σε βίντεο), να μετατρέψει ακίνητες εικόνες σε βίντεο, να δημιουργήσει βίντεο σε συγκεκριμένα στυλ χρησιμοποιώντας μια εικόνα αναφοράς, να εφαρμόσει συνεκτική επεξεργασία βίντεο χρησιμοποιώντας προτροπές που βασίζονται σε κείμενο, να δημιουργήσει cinemagraphs με animation συγκεκριμένων περιοχών μιας εικόνας και να προσφέρει δυνατότητες video inpainting (για παράδειγμα, μπορεί να αλλάξει τον τύπο του φορέματος που φοράει ένα άτομο).

Στο άρθρο για το Lumiere, οι ερευνητές της Google αναφέρουν ότι το μοντέλο Τεχνητής Νοημοσύνης παράγει βίντεο διάρκειας πέντε δευτερολέπτων σε ανάλυση 1024×1024 , τα οποία χαρακτηρίζουν ως “χαμηλής ανάλυσης”. Παρά τους περιορισμούς αυτούς, οι ερευνητές πραγματοποίησαν μια δοκιμή με χρήστες και ισχυρίζονται ότι προτιμήθηκαν οι παραγωγές του Lumiere σε σύγκριση με τα άλλα υπάρχοντα μοντέλα σύνθεσης βίντεο Τεχνητής Νοημοσύνης.

Όσον αφορά τα δεδομένα εκπαίδευσης, η Google δεν λέει από πού πήρε τα βίντεο που τροφοδότησε το Lumiere, γράφοντας:

Εκπαιδεύουμε το μοντέλο T2V [text to video] σε ένα σύνολο δεδομένων που περιέχει 30 εκατομμύρια βίντεο μαζί με τις λεζάντες τους. Τα βίντεο έχουν διάρκεια 80 καρέ στα 16 fps (5 δευτερόλεπτα). Το βασικό μοντέλο εκπαιδεύεται σε ανάλυση 128×128.

Μπορείτε να ρίξετε μια ματιά στο Lumiere από εδώ.

[via]



Πηγή

iTech News

Leave a Comment
Share
Published by
iTech News

Recent Posts

Αυτές είναι οι νέες κάρτες γραφικών RTX 50 Series της MSI [CES 2025]

Η MSI παρουσίασε στο CES 2025 τις καινοτόμες κάρτες γραφικών NVIDIA GeForce RTX 50 Series,…

5 ώρες ago

Οι έξι τάσεις που διαμορφώνουν τις πληρωμές το 2025

Οι ψηφιακές πληρωμές αυξάνονται παγκοσμίως καθώς οι αγορές μέσα από ιστοτόπους, εφαρμογές ή πλατφόρμες καταστημάτων…

5 ώρες ago

Οι ομάδες της Samsung για την τεχνολογία του μέλλοντος [CES 2025]

Η Samsung Electronics Co., Ltd. παρουσίασε, στο πλαίσιο της CES 2025 που διεξάγεται από τις…

5 ώρες ago

Επίσημα με υψηλές επιδόσεις και έκδοση… Iron Man!

Η POCO παρουσίασε σήμερα τα νέα POCO X7 Pro, POCO X7 και το μοναδικό POCO…

5 ώρες ago

Αμφίδρομη δορυφορική επικοινωνία για κάθε συσκευή Android και iOS!

Η HMD επιστρέφει στην επικαιρότητα με κάτι διαφορετικό αυτή τη φορά. Αντί για ένα νέο…

9 ώρες ago

Το gadget για να μετράτε τις ορμόνες σας από το σπίτι! [CES 2025]

Οι άνθρωποι που παλεύουν με ορμονικές καταστάσεις και άλλες ασθένειες που σχετίζονται με αυτές πρέπει…

9 ώρες ago

Αυτό το site χρησιμοποιεί cookies, για την παροχή των υπηρεσιών της, να προσαρμόσετε τις διαφημίσεις και να αναλύσει την επισκεψιμότητα. Με τη χρήση αυτής της ιστοσελίδας, συμφωνείτε με τη πολιτική χρήση των cookies.