Το open-source AI μοντέλο παραγωγής video της Tencent εντυπωσιάζει!

0


Στις αρχές της χρονιάς, η OpenAI παρουσίασε το Sora, ένα νέο AI μοντέλο παραγωγής βίντεο που μπορεί να δημιουργήσει ρεαλιστικές και ευφάνταστες σκηνές από προτροπές κειμένου. Αν και η OpenAI καθυστέρησε τη δημόσια κυκλοφορία του Sora, είδαμε αρκετές startups τεχνητής νοημοσύνης, συμπεριλαμβανομένων των Runway και Luma, να κυκλοφορούν τους τελευταίους μήνες τα δικά τους αντίστοιχα μοντέλα παραγωγής βίντεο.

Τώρα, ο κινεζικός γίγαντας Tencent ανακοίνωσε το HunyuanVideo, ένα υπερσύγχρονο μοντέλο παραγωγής βίντεο το οποίο είναι επίσης ανοιχτού κώδικα. Πρόκειται για το πρώτο σημαντικό open-source μοντέλο παραγωγής βίντεο με τον κώδικα εξαγωγής συμπερασμάτων και τα βάρη του μοντέλου ανοιχτά διαθέσιμα για όλους.

Η Tencent ισχυρίζεται ότι το HunyuanVideo μπορεί να παράγει βίντεο που είναι συγκρίσιμα με κορυφαία μοντέλα κλειστού κώδικα με υψηλή οπτική ποιότητα, ποικιλομορφία κίνησης, ευθυγράμμιση κειμένου-βίντεο και σταθερότητα παραγωγής. Με περισσότερες από 13 δισεκατομμύρια παραμέτρους, είναι το μεγαλύτερο μεταξύ όλων των μοντέλων παραγωγής βίντεο ανοιχτού κώδικα. Το HunyuanVideo περιλαμβάνει ένα πλαίσιο που ενσωματώνει την επιμέλεια δεδομένων, την κοινή εκπαίδευση μοντέλων εικόνας-βίντεο και μια αποτελεσματική υποδομή για την υποστήριξη εκπαίδευσης και συμπερασμού μοντέλων μεγάλης κλίμακας.

Η Tencent δοκίμασε επίσης το μοντέλο χρησιμοποιώντας επαγγελματική αξιολόγηση από ανθρώπους. Σύμφωνα με τα αποτελέσματα της αξιολόγησης, το HunyuanVideo ξεπερνά όλα τα κορυφαία μοντέλα κλειστού κώδικα, συμπεριλαμβανομένων των Runway Gen-3 και Luma 1.6.

Αντί να χρησιμοποιεί ξεχωριστά μοντέλα για τη δημιουργία κειμένου, εικόνας και βίντεο, η Tencent χρησιμοποίησε την ακόλουθη διαφορετική τεχνική για να επιτύχει καλύτερη ποιότητα βίντεο σε σύγκριση με τα υπάρχοντα μοντέλα:

Το HunyuanVideo εισάγει τον σχεδιασμό Transformer και χρησιμοποιεί έναν μηχανισμό πλήρους προσοχής για την ενοποιημένη παραγωγή εικόνας και βίντεο. Συγκεκριμένα, χρησιμοποιούμε έναν υβριδικό σχεδιασμό μοντέλου «Dual-stream to Single-stream» για τη δημιουργία βίντεο. Στη φάση διπλής ροής, τα σημεία βίντεο και κειμένου επεξεργάζονται ανεξάρτητα μέσω πολλαπλών μπλοκ Transformer, επιτρέποντας σε κάθε τρόπο να μάθει τους δικούς του κατάλληλους μηχανισμούς διαμόρφωσης χωρίς παρεμβολές. Στη φάση single-stream, συνενώνουμε τις μάρκες βίντεο και κειμένου και τις τροφοδοτούμε σε επόμενα μπλοκ Transformer για αποτελεσματική πολυτροπική συγχώνευση πληροφοριών. Αυτός ο σχεδιασμός καταγράφει τις πολύπλοκες αλληλεπιδράσεις μεταξύ οπτικών και σημασιολογικών πληροφοριών, ενισχύοντας τη συνολική απόδοση του μοντέλου.

Η κυκλοφορία του HunyuanVideo σηματοδοτεί ένα σημαντικό βήμα προς τον εκδημοκρατισμό της τεχνολογίας παραγωγής AI βίντεο.

[via]



Πηγή