Categories: Microsoft

Νέα AI της Deepmind παράγει soundtracks και διαλόγους για videos


Το ερευνητικό εργαστήριο τεχνητής νοημοσύνης DeepMind της Google εργάζεται πάνω σε μια νέα τεχνολογία που μπορεί να παράγει soundtracks, ακόμη και διαλόγους, για να συνοδεύει τα videos. Το εργαστήριο μοιράστηκε την πρόοδό του στο project της τεχνολογίας video-to-audio (V2A), η οποία μπορεί να συνδυαστεί με το Google Veo και άλλα εργαλεία δημιουργίας video, όπως το Sora του OpenAI.

Στην ανάρτησή της στο blog, η ομάδα της DeepMind εξηγεί ότι το σύστημα μπορεί να κατανοήσει τα ακατέργαστα pixels και να συνδυάσει αυτές τις πληροφορίες με προτροπές κειμένου για να δημιουργήσει ηχητικά εφέ για ό,τι συμβαίνει στην οθόνη. Να σημειωθεί ότι το εργαλείο μπορεί επίσης να χρησιμοποιηθεί για τη δημιουργία soundtrack για παραδοσιακό υλικό, όπως βωβές ταινίες και οποιοδήποτε άλλο βίντεο χωρίς ήχο.

Οι ερευνητές της DeepMind εκπαίδευσαν την τεχνολογία σε βίντεο, ηχητικά αρχεία και σχόλια που δημιουργούνται από την AI και περιέχουν λεπτομερείς περιγραφές ήχων και απομαγνητοφωνήσεις διαλόγων. Είπαν ότι με αυτόν τον τρόπο, η τεχνολογία έμαθε να συνδέει συγκεκριμένους ήχους με οπτικές σκηνές.

Όπως σημειώνει το TechCrunch, η ομάδα της DeepMind δεν είναι η πρώτη που κυκλοφορεί ένα εργαλείο AI που μπορεί να παράγει ηχητικά εφέ – η ElevenLabs κυκλοφόρησε πρόσφατα επίσης ένα – και δεν θα είναι η τελευταία. “Η έρευνά μας ξεχωρίζει από τις υπάρχουσες λύσεις μετατροπής βίντεο σε ήχο επειδή μπορεί να κατανοήσει τα ακατέργαστα pixels και η προσθήκη προτροπής κειμένου είναι προαιρετική“, γράφει η ομάδα.

Οι ερευνητές παραδέχονται ότι εξακολουθούν να προσπαθούν να αντιμετωπίσουν τους υπάρχοντες περιορισμούς της τεχνολογίας V2A, όπως η πτώση της ποιότητας του ήχου της εξόδου που μπορεί να συμβεί αν υπάρχουν παραμορφώσεις στο βίντεο της πηγής. Επίσης, εξακολουθούν να εργάζονται για τη βελτίωση του συγχρονισμού των χειλιών για τους παραγόμενους διαλόγους. Επιπλέον, δεσμεύονται να υποβάλουν την τεχνολογία σε “αυστηρές αξιολογήσεις και δοκιμές ασφαλείας” προτού τη διαθέσουν στον κόσμο.

[via]



Πηγή

iTech News

Leave a Comment
Share
Published by
iTech News

Recent Posts

Η πιο value-for-money επιλογή για ασύρματα ακουστικά

Η HUAWEI έχει καθιερωθεί ως όνομα στην αγορά ήχου εδώ και αρκετά χρόνια, ενώ σημειώνει…

22 ώρες ago

Μια ενδιαφέρουσα επαγγελματική οθόνη για κάθε γραφείο

Η ViewSonic παρουσίασε πρόσφατα την VG2756V-2K, μια οθόνη 27'' με ανάλυση QHD (2560 x 1440…

1 ημέρα ago

Αυτή είναι η πρώτη διαφήμιση τεχνητής νοημοσύνης και απευθύνεται σε παιδιά

Αυτή είναι η πρώτη διαφήμιση τεχνητής νοημοσύνης και απευθύνεται σε παιδιά - Newsbeast play Δείτε…

1 ημέρα ago

120.000 κτίρια αποκτούν ευρυζωνικές ταχύτητες – Επιταχύνεται η υλοποίηση του προγράμματος «Smart Readiness Vouchers»

120.000 κτίρια αποκτούν ευρυζωνικές ταχύτητες – Επιταχύνεται η υλοποίηση του προγράμματος «Smart Readiness Vouchers» -…

1 ημέρα ago

Survivors, δείτε τα παρασκήνια από το post-apocalyptic game [Video]

Η NACON και το NACON Studio Milan είναι στην ευχάριστη θέση να μοιραστούν μαζί σας…

1 ημέρα ago

150GB και μοναδικές Αstrocombo προσφορές αξίας έως 300€ από το CU

150GB και μοναδικές Αstrocombo προσφορές αξίας έως 300€ από το CU - Newsbeast play Αναλυτικότερα…

1 ημέρα ago

Αυτό το site χρησιμοποιεί cookies, για την παροχή των υπηρεσιών της, να προσαρμόσετε τις διαφημίσεις και να αναλύσει την επισκεψιμότητα. Με τη χρήση αυτής της ιστοσελίδας, συμφωνείτε με τη πολιτική χρήση των cookies.