Categories: Facebook

Νέα μοντέλα ήχου από την OpenAI για ακόμα πιο φυσικούς AI agents


Τους τελευταίους μήνες, η OpenAI έχει κυκλοφορήσει αρκετά νέα εργαλεία, όπως το Operator, το Deep Research, το Computer-Using Agents και το Responses API, που εστιάζει σε agents που βασίζονται σε κείμενο. Σήμερα, η OpenAI ανακοινώνει τα νέα μοντέλα ήχου ομιλίας προς κείμενο και κειμένου προς ομιλία στο API, επιτρέποντας στους προγραμματιστές να δημιουργήσουν πιο ισχυρούς, προσαρμόσιμους και εκφραστικούς φωνητικούς agents από ποτέ άλλοτε.

Τα νέα μοντέλα speech-to-text της OpenAI, gpt-4o-transcribe και gpt-4o-mini-transcribe, προσφέρουν σημαντικές βελτιώσεις στο ποσοστό σφαλμάτων λέξης, στην αναγνώριση γλώσσας και στην ακρίβεια σε σύγκριση με τα υπάρχοντα μοντέλα Whisper. Αυτές οι βελτιώσεις επιτεύχθηκαν μέσω ενισχυτικής μάθησης και εκτεταμένης ενδιάμεσης εκπαίδευσης με τη χρήση διαφορετικών και υψηλής ποιότητας ηχητικών συνόλων δεδομένων.

Η OpenAI ισχυρίζεται ότι αυτά τα νέα μοντέλα ήχου μπορούν να κατανοήσουν καλύτερα τις αποχρώσεις της ομιλίας, να μειώσουν τις λανθασμένες αναγνωρίσεις και να βελτιώσουν την αξιοπιστία της μεταγραφής ακόμη και όταν ο ήχος εισόδου περιλαμβάνει προφορές, θορυβώδη περιβάλλοντα και διαφορετικές ταχύτητες ομιλίας.

Το gpt-4o-mini-tts είναι το πιο πρόσφατο μοντέλο μετατροπής κειμένου σε ομιλία, προσφέροντας βελτιωμένη δυνατότητα καθοδήγησης. Οι προγραμματιστές μπορούν πλέον να καθοδηγήσουν το μοντέλο σχετικά με τον τρόπο άρθρωσης του περιεχομένου του κειμένου. Ωστόσο, προς το παρόν, το μοντέλο μετατροπής κειμένου σε ομιλία περιορίζεται σε τεχνητές, προκαθορισμένες φωνές.

Η ομάδα της OpenAI ανέφερε τα εξής σχετικά με αυτά τα νέα μοντέλα ήχου:

Κοιτάζοντας μπροστά, σκοπεύουμε να συνεχίσουμε να επενδύουμε στη βελτίωση της ευφυΐας και της ακρίβειας των ηχητικών μοντέλων μας και να διερευνήσουμε τρόπους που θα επιτρέπουν στους προγραμματιστές να φέρουν τις δικές τους προσαρμοσμένες φωνές για να δημιουργήσουν ακόμα πιο εξατομικευμένες εμπειρίες με τρόπους που ευθυγραμμίζονται με τα πρότυπα ασφαλείας μας

Αυτά τα νέα μοντέλα ήχου είναι πλέον διαθέσιμα σε όλους τους προγραμματιστές μέσω API. Η OpenAI ανακοίνωσε επίσης την ενσωμάτωση με το Agents SDK, επιτρέποντας στους προγραμματιστές να δημιουργούν εύκολα φωνητικούς agents. Για εμπειρίες ομιλίας με χαμηλή καθυστέρηση, η OpenAI συνιστά τη χρήση του Realtime API.

[via]



Πηγή

iTech News

Leave a Comment
Share
Published by
iTech News

Recent Posts

Μελέτη για το πώς έτρεχαν οι πρόγονοι του ανθρώπου δείχνει ότι ήταν εκπληκτικά αργοί

Κατά τη διάρκεια των ετών, υπήρξε μεγάλη συζήτηση σχετικά με το πώς ακριβώς περπατούσε η…

5 ώρες ago

Τα 10 νέα χαρακτηριστικά που περιμένουμε

Τον τελευταίο καιρό έχουμε συνηθίσει να βλέπουμε φήμες για το iPhone 17 Air, το οποίο…

7 ώρες ago

Ένα ακόμη trailer πριν την προβολή της 2ης και τελευταίας σεζόν

Με λιγότερο από ένα μήνα να απομένει μέχρι την επιστροφή της σειράς, η Lucasfilm έδωσε…

7 ώρες ago

Bioceramic MoonSwatch Mission to the pink moonphase: Ένα ουράνιο αφιέρωμα στη μικροπανσέληνο του Απριλίου

Bioceramic MoonSwatch Mission to the pink moonphase: Ένα ουράνιο αφιέρωμα στη μικροπανσέληνο του Απριλίου -…

7 ώρες ago

Indiana Jones and the Great Circle, έρχεται στο PS5 στις 17 Απριλίου!

Η Microsoft και η Bethesda φέρνουν το Indiana Jones and the Great Circle στο PS5…

7 ώρες ago

Μια σοβαρή πρόταση για high-end Android tablet

Η Xiaomi συνεχίζει να επενδύει στην κατασκευή ολοένα και πιο ισχυρών Android tablets, σε μια…

10 ώρες ago