Τους τελευταίους μήνες, η OpenAI έχει κυκλοφορήσει αρκετά νέα εργαλεία, όπως το Operator, το Deep Research, το Computer-Using Agents και το Responses API, που εστιάζει σε agents που βασίζονται σε κείμενο. Σήμερα, η OpenAI ανακοινώνει τα νέα μοντέλα ήχου ομιλίας προς κείμενο και κειμένου προς ομιλία στο API, επιτρέποντας στους προγραμματιστές να δημιουργήσουν πιο ισχυρούς, προσαρμόσιμους και εκφραστικούς φωνητικούς agents από ποτέ άλλοτε.
Τα νέα μοντέλα speech-to-text της OpenAI, gpt-4o-transcribe και gpt-4o-mini-transcribe, προσφέρουν σημαντικές βελτιώσεις στο ποσοστό σφαλμάτων λέξης, στην αναγνώριση γλώσσας και στην ακρίβεια σε σύγκριση με τα υπάρχοντα μοντέλα Whisper. Αυτές οι βελτιώσεις επιτεύχθηκαν μέσω ενισχυτικής μάθησης και εκτεταμένης ενδιάμεσης εκπαίδευσης με τη χρήση διαφορετικών και υψηλής ποιότητας ηχητικών συνόλων δεδομένων.
Η OpenAI ισχυρίζεται ότι αυτά τα νέα μοντέλα ήχου μπορούν να κατανοήσουν καλύτερα τις αποχρώσεις της ομιλίας, να μειώσουν τις λανθασμένες αναγνωρίσεις και να βελτιώσουν την αξιοπιστία της μεταγραφής ακόμη και όταν ο ήχος εισόδου περιλαμβάνει προφορές, θορυβώδη περιβάλλοντα και διαφορετικές ταχύτητες ομιλίας.
Το gpt-4o-mini-tts είναι το πιο πρόσφατο μοντέλο μετατροπής κειμένου σε ομιλία, προσφέροντας βελτιωμένη δυνατότητα καθοδήγησης. Οι προγραμματιστές μπορούν πλέον να καθοδηγήσουν το μοντέλο σχετικά με τον τρόπο άρθρωσης του περιεχομένου του κειμένου. Ωστόσο, προς το παρόν, το μοντέλο μετατροπής κειμένου σε ομιλία περιορίζεται σε τεχνητές, προκαθορισμένες φωνές.
Η ομάδα της OpenAI ανέφερε τα εξής σχετικά με αυτά τα νέα μοντέλα ήχου:
Κοιτάζοντας μπροστά, σκοπεύουμε να συνεχίσουμε να επενδύουμε στη βελτίωση της ευφυΐας και της ακρίβειας των ηχητικών μοντέλων μας και να διερευνήσουμε τρόπους που θα επιτρέπουν στους προγραμματιστές να φέρουν τις δικές τους προσαρμοσμένες φωνές για να δημιουργήσουν ακόμα πιο εξατομικευμένες εμπειρίες με τρόπους που ευθυγραμμίζονται με τα πρότυπα ασφαλείας μας
Αυτά τα νέα μοντέλα ήχου είναι πλέον διαθέσιμα σε όλους τους προγραμματιστές μέσω API. Η OpenAI ανακοίνωσε επίσης την ενσωμάτωση με το Agents SDK, επιτρέποντας στους προγραμματιστές να δημιουργούν εύκολα φωνητικούς agents. Για εμπειρίες ομιλίας με χαμηλή καθυστέρηση, η OpenAI συνιστά τη χρήση του Realtime API.
[via]
Κατά τη διάρκεια των ετών, υπήρξε μεγάλη συζήτηση σχετικά με το πώς ακριβώς περπατούσε η…
Τον τελευταίο καιρό έχουμε συνηθίσει να βλέπουμε φήμες για το iPhone 17 Air, το οποίο…
Με λιγότερο από ένα μήνα να απομένει μέχρι την επιστροφή της σειράς, η Lucasfilm έδωσε…
Bioceramic MoonSwatch Mission to the pink moonphase: Ένα ουράνιο αφιέρωμα στη μικροπανσέληνο του Απριλίου -…
Η Microsoft και η Bethesda φέρνουν το Indiana Jones and the Great Circle στο PS5…
Η Xiaomi συνεχίζει να επενδύει στην κατασκευή ολοένα και πιο ισχυρών Android tablets, σε μια…
Αυτό το site χρησιμοποιεί cookies, για την παροχή των υπηρεσιών της, να προσαρμόσετε τις διαφημίσεις και να αναλύσει την επισκεψιμότητα. Με τη χρήση αυτής της ιστοσελίδας, συμφωνείτε με τη πολιτική χρήση των cookies.
Leave a Comment