Στις αρχές της χρονιάς, η OpenAI παρουσίασε το Sora, ένα νέο AI μοντέλο παραγωγής βίντεο που μπορεί να δημιουργήσει ρεαλιστικές και ευφάνταστες σκηνές από προτροπές κειμένου. Αν και η OpenAI καθυστέρησε τη δημόσια κυκλοφορία του Sora, είδαμε αρκετές startups τεχνητής νοημοσύνης, συμπεριλαμβανομένων των Runway και Luma, να κυκλοφορούν τους τελευταίους μήνες τα δικά τους αντίστοιχα μοντέλα παραγωγής βίντεο.
Τώρα, ο κινεζικός γίγαντας Tencent ανακοίνωσε το HunyuanVideo, ένα υπερσύγχρονο μοντέλο παραγωγής βίντεο το οποίο είναι επίσης ανοιχτού κώδικα. Πρόκειται για το πρώτο σημαντικό open-source μοντέλο παραγωγής βίντεο με τον κώδικα εξαγωγής συμπερασμάτων και τα βάρη του μοντέλου ανοιχτά διαθέσιμα για όλους.
Η Tencent ισχυρίζεται ότι το HunyuanVideo μπορεί να παράγει βίντεο που είναι συγκρίσιμα με κορυφαία μοντέλα κλειστού κώδικα με υψηλή οπτική ποιότητα, ποικιλομορφία κίνησης, ευθυγράμμιση κειμένου-βίντεο και σταθερότητα παραγωγής. Με περισσότερες από 13 δισεκατομμύρια παραμέτρους, είναι το μεγαλύτερο μεταξύ όλων των μοντέλων παραγωγής βίντεο ανοιχτού κώδικα. Το HunyuanVideo περιλαμβάνει ένα πλαίσιο που ενσωματώνει την επιμέλεια δεδομένων, την κοινή εκπαίδευση μοντέλων εικόνας-βίντεο και μια αποτελεσματική υποδομή για την υποστήριξη εκπαίδευσης και συμπερασμού μοντέλων μεγάλης κλίμακας.
Η Tencent δοκίμασε επίσης το μοντέλο χρησιμοποιώντας επαγγελματική αξιολόγηση από ανθρώπους. Σύμφωνα με τα αποτελέσματα της αξιολόγησης, το HunyuanVideo ξεπερνά όλα τα κορυφαία μοντέλα κλειστού κώδικα, συμπεριλαμβανομένων των Runway Gen-3 και Luma 1.6.
Αντί να χρησιμοποιεί ξεχωριστά μοντέλα για τη δημιουργία κειμένου, εικόνας και βίντεο, η Tencent χρησιμοποίησε την ακόλουθη διαφορετική τεχνική για να επιτύχει καλύτερη ποιότητα βίντεο σε σύγκριση με τα υπάρχοντα μοντέλα:
Το HunyuanVideo εισάγει τον σχεδιασμό Transformer και χρησιμοποιεί έναν μηχανισμό πλήρους προσοχής για την ενοποιημένη παραγωγή εικόνας και βίντεο. Συγκεκριμένα, χρησιμοποιούμε έναν υβριδικό σχεδιασμό μοντέλου «Dual-stream to Single-stream» για τη δημιουργία βίντεο. Στη φάση διπλής ροής, τα σημεία βίντεο και κειμένου επεξεργάζονται ανεξάρτητα μέσω πολλαπλών μπλοκ Transformer, επιτρέποντας σε κάθε τρόπο να μάθει τους δικούς του κατάλληλους μηχανισμούς διαμόρφωσης χωρίς παρεμβολές. Στη φάση single-stream, συνενώνουμε τις μάρκες βίντεο και κειμένου και τις τροφοδοτούμε σε επόμενα μπλοκ Transformer για αποτελεσματική πολυτροπική συγχώνευση πληροφοριών. Αυτός ο σχεδιασμός καταγράφει τις πολύπλοκες αλληλεπιδράσεις μεταξύ οπτικών και σημασιολογικών πληροφοριών, ενισχύοντας τη συνολική απόδοση του μοντέλου.
Η κυκλοφορία του HunyuanVideo σηματοδοτεί ένα σημαντικό βήμα προς τον εκδημοκρατισμό της τεχνολογίας παραγωγής AI βίντεο.
[via]
Αυτή τη γιορτινή περίοδο, η Philips Monitors δημιουργεί μια σειρά προτάσεων από ευέλικτες και καινοτόμες…
Η Κίνα πρωταγωνιστεί ολοένα και περισσότερο στην τεχνολογική πρόοδο, όχι μόνο στον τομέα της αεροδιαστημικής,…
Στις τρεις πρώτες ταινίες του Indiana Jones, ο Dr. Henry Jones Jr. δεν συνάντησε ποτέ…
Ο Walton Goggins του Fallout λέει ότι είναι «ωραίο συναίσθημα» να επιστρέφει στο ρόλο του…
Ερευνητές στις ΗΠΑ ανέπτυξαν μια τεχνολογία που μπορεί να ανιχνεύει νάρκες από μακριά και με…
Η ρύπανση από πλαστικά είναι μια από τις πιο καθοριστικές περιβαλλοντικές προκλήσεις της εποχής μας.…
Αυτό το site χρησιμοποιεί cookies, για την παροχή των υπηρεσιών της, να προσαρμόσετε τις διαφημίσεις και να αναλύσει την επισκεψιμότητα. Με τη χρήση αυτής της ιστοσελίδας, συμφωνείτε με τη πολιτική χρήση των cookies.
Leave a Comment