Categories: Mobile

Το open-source AI μοντέλο παραγωγής video της Tencent εντυπωσιάζει!


Στις αρχές της χρονιάς, η OpenAI παρουσίασε το Sora, ένα νέο AI μοντέλο παραγωγής βίντεο που μπορεί να δημιουργήσει ρεαλιστικές και ευφάνταστες σκηνές από προτροπές κειμένου. Αν και η OpenAI καθυστέρησε τη δημόσια κυκλοφορία του Sora, είδαμε αρκετές startups τεχνητής νοημοσύνης, συμπεριλαμβανομένων των Runway και Luma, να κυκλοφορούν τους τελευταίους μήνες τα δικά τους αντίστοιχα μοντέλα παραγωγής βίντεο.

Τώρα, ο κινεζικός γίγαντας Tencent ανακοίνωσε το HunyuanVideo, ένα υπερσύγχρονο μοντέλο παραγωγής βίντεο το οποίο είναι επίσης ανοιχτού κώδικα. Πρόκειται για το πρώτο σημαντικό open-source μοντέλο παραγωγής βίντεο με τον κώδικα εξαγωγής συμπερασμάτων και τα βάρη του μοντέλου ανοιχτά διαθέσιμα για όλους.

Η Tencent ισχυρίζεται ότι το HunyuanVideo μπορεί να παράγει βίντεο που είναι συγκρίσιμα με κορυφαία μοντέλα κλειστού κώδικα με υψηλή οπτική ποιότητα, ποικιλομορφία κίνησης, ευθυγράμμιση κειμένου-βίντεο και σταθερότητα παραγωγής. Με περισσότερες από 13 δισεκατομμύρια παραμέτρους, είναι το μεγαλύτερο μεταξύ όλων των μοντέλων παραγωγής βίντεο ανοιχτού κώδικα. Το HunyuanVideo περιλαμβάνει ένα πλαίσιο που ενσωματώνει την επιμέλεια δεδομένων, την κοινή εκπαίδευση μοντέλων εικόνας-βίντεο και μια αποτελεσματική υποδομή για την υποστήριξη εκπαίδευσης και συμπερασμού μοντέλων μεγάλης κλίμακας.

Η Tencent δοκίμασε επίσης το μοντέλο χρησιμοποιώντας επαγγελματική αξιολόγηση από ανθρώπους. Σύμφωνα με τα αποτελέσματα της αξιολόγησης, το HunyuanVideo ξεπερνά όλα τα κορυφαία μοντέλα κλειστού κώδικα, συμπεριλαμβανομένων των Runway Gen-3 και Luma 1.6.

Αντί να χρησιμοποιεί ξεχωριστά μοντέλα για τη δημιουργία κειμένου, εικόνας και βίντεο, η Tencent χρησιμοποίησε την ακόλουθη διαφορετική τεχνική για να επιτύχει καλύτερη ποιότητα βίντεο σε σύγκριση με τα υπάρχοντα μοντέλα:

Το HunyuanVideo εισάγει τον σχεδιασμό Transformer και χρησιμοποιεί έναν μηχανισμό πλήρους προσοχής για την ενοποιημένη παραγωγή εικόνας και βίντεο. Συγκεκριμένα, χρησιμοποιούμε έναν υβριδικό σχεδιασμό μοντέλου «Dual-stream to Single-stream» για τη δημιουργία βίντεο. Στη φάση διπλής ροής, τα σημεία βίντεο και κειμένου επεξεργάζονται ανεξάρτητα μέσω πολλαπλών μπλοκ Transformer, επιτρέποντας σε κάθε τρόπο να μάθει τους δικούς του κατάλληλους μηχανισμούς διαμόρφωσης χωρίς παρεμβολές. Στη φάση single-stream, συνενώνουμε τις μάρκες βίντεο και κειμένου και τις τροφοδοτούμε σε επόμενα μπλοκ Transformer για αποτελεσματική πολυτροπική συγχώνευση πληροφοριών. Αυτός ο σχεδιασμός καταγράφει τις πολύπλοκες αλληλεπιδράσεις μεταξύ οπτικών και σημασιολογικών πληροφοριών, ενισχύοντας τη συνολική απόδοση του μοντέλου.

Η κυκλοφορία του HunyuanVideo σηματοδοτεί ένα σημαντικό βήμα προς τον εκδημοκρατισμό της τεχνολογίας παραγωγής AI βίντεο.

[via]



Πηγή

iTech News

Leave a Comment
Share
Published by
iTech News

Recent Posts

Η TCL φέρνει την επανάσταση στο έξυπνο σπίτι [CES 2025]

Στην CES 2025, η TCL κάνει την τεχνολογία πιο ανθρώπινη, προσφέροντας στους καταναλωτές μια καθηλωτική…

17 λεπτά ago

Ανακοίνωσε επένδυση $20 δισ. για κέντρα δεδομένων στις ΗΠΑ

Ο επερχόμενος πρόεδρος Donald Trump άνοιξε τη συνέντευξη Τύπου στο Mar-a-Lago στις 7 Ιανουαρίου ανακοινώνοντας…

36 λεπτά ago

Απίστευτα υψηλό το κόστος ανάπτυξης των παιχνδιών

Η Activision κυκλοφορεί κάθε χρόνο παιχνίδια Call of Duty εδώ και σχεδόν δύο δεκαετίες και…

47 λεπτά ago

Τέλος τα φίλτρα ομορφιάς σε Instagram, WhatsApp και Facebook – Τι αλλάζει και γιατί αποφασίστηκε

Τέλος τα φίλτρα ομορφιάς σε Instagram, WhatsApp και Facebook – Τι αλλάζει και γιατί αποφασίστηκε…

51 λεπτά ago

Αγωγή κατά της Meta διότι εκπαιδεύει τα AI μοντέλα της με προστατευμένο περιεχόμενο

Η τεχνητή νοημοσύνη έχει κατακτήσει τον κόσμο και φαίνεται να είναι το θέμα της μόδας…

55 λεπτά ago

Η εταιρεία δεν δίνει δεκάρα για τους πειρατές του Windows

Ένας πρώην υπάλληλος της Microsoft δημοσιεύει στο X ότι η Microsoft δεν ενδιαφέρεται για την…

1 ώρα ago

Αυτό το site χρησιμοποιεί cookies, για την παροχή των υπηρεσιών της, να προσαρμόσετε τις διαφημίσεις και να αναλύσει την επισκεψιμότητα. Με τη χρήση αυτής της ιστοσελίδας, συμφωνείτε με τη πολιτική χρήση των cookies.