Οι ερευνητές της Apple δημοσίευσαν μια εργασία σχετικά με ένα νέο μοντέλο AI. Σύμφωνα με την εταιρεία, το ReALM είναι ένα γλωσσικό μοντέλο που μπορεί να κατανοήσει και να χειριστεί με επιτυχία τα συμφραζόμενα διαφόρων ειδών. Με αυτό, οι χρήστες μπορούν να ρωτήσουν για κάτι που εμφανίζεται στην οθόνη ή να εκτελείται στο παρασκήνιο και το γλωσσικό μοντέλο μπορεί ακόμα να κατανοήσει το πλαίσιο και να δώσει τη σωστή απάντηση.
Αυτή είναι η τρίτη εργασία σχετικά με την Τεχνητή Νοημοσύνη που δημοσιεύει η Apple τους τελευταίους μήνες. Αυτές οι μελέτες απλώς προϊδεάζουν για τα επερχόμενα χαρακτηριστικά AI του iOS 18, του macOS 15 και των νεότερων λειτουργικών συστημάτων της Apple. Στην εργασία, οι ερευνητές της Apple αναφέρουν:
Η ανάλυση αναφοράς είναι ένα σημαντικό πρόβλημα, ένα πρόβλημα που είναι απαραίτητο για την κατανόηση και τον επιτυχή χειρισμό του πλαισίου διαφόρων ειδών. Το παρόν έγγραφο καταδεικνύει πώς τα LLM μπορούν να χρησιμοποιηθούν για τη δημιουργία ενός εξαιρετικά αποτελεσματικού συστήματος για την επίλυση αναφορών διαφόρων τύπων, δείχνοντας πώς η επίλυση αναφορών μπορεί να μετατραπεί σε πρόβλημα γλωσσικής μοντελοποίησης, παρά το γεγονός ότι περιλαμβάνει μορφές οντοτήτων όπως αυτές στην οθόνη, οι οποίες παραδοσιακά δεν ευνοούν την αναγωγή τους σε μια μοντελοποίηση μόνο κειμένου.
Ένα παράδειγμα είναι ένας χρήστης που αναζητά φαρμακεία κοντά του. Αφού παρουσιαστεί μια λίστα, κάτι που θα μπορούσε να κάνει η Siri, ο χρήστης θα μπορούσε να ζητήσει: “Καλέστε αυτό στην Rainbow Rd.”, “Καλέστε το τελευταίο” ή “Καλέστε αυτόν τον αριθμό (υπάρχει στην οθόνη)”. Η Siri δεν μπορεί να εκτελέσει αυτό το δεύτερο μέρος, αλλά με το ReALM, αυτό το γλωσσικό μοντέλο θα μπορούσε να κατανοήσει το πλαίσιο αναλύοντας τα δεδομένα της συσκευής και να ολοκληρώσει το ερώτημα.
Με αυτό, οι ερευνητές της Apple θέλουν να χρησιμοποιήσουν την Τεχνητή Νοημοσύνη για τις ακόλουθες εργασίες με το ReALM:
- Οντότητες στην οθόνη: Πρόκειται για οντότητες που εμφανίζονται αυτή τη στιγμή στην οθόνη του χρήστη.
- Οντότητες συνομιλίας: Πρόκειται για οντότητες σχετικές με τη συνομιλία. Αυτές οι οντότητες μπορεί να προέρχονται από προηγούμενη στροφή του χρήστη (για παράδειγμα, όταν ο χρήστης λέει “Call Mom”, η επαφή για τη μαμά θα ήταν η σχετική οντότητα) ή από τον εικονικό βοηθό (για παράδειγμα, όταν ο πράκτορας παρέχει στον χρήστη έναν κατάλογο με μέρη ή συναγερμούς για να επιλέξει).
- Οντότητες παρασκηνίου: Πρόκειται για σχετικές οντότητες που προέρχονται από διεργασίες παρασκηνίου που μπορεί να μην αποτελούν απαραίτητα άμεσο μέρος αυτού που βλέπει ο χρήστης στην οθόνη του ή της αλληλεπίδρασής του με τον εικονικό πράκτορα- για παράδειγμα, ένας συναγερμός που αρχίζει να χτυπάει ή μουσική που παίζει στο παρασκήνιο
Τούτου λεχθέντος, η Apple πιστεύει ότι το ReALM είναι καλύτερο από το GPT 4 της ChatGPT:
Στην περίπτωση του GPT-3.5, το οποίο δέχεται μόνο κείμενο, η είσοδός μας αποτελείται μόνο από την προτροπή- ωστόσο, στην περίπτωση του GPT-4, το οποίο μπορεί επίσης να κάνει contextualize σε εικόνες, παρέχουμε στο σύστημα ένα screenshot για το έργο της επίλυσης αναφοράς στην οθόνη, το οποίο θεωρούμε ότι βοηθά σημαντικά στη βελτίωση της απόδοσης. Σημειώστε ότι η διατύπωση της προτροπής στο ChatGPT και η διατύπωση προτροπής+εικόνα είναι, εξ όσων γνωρίζουμε, από μόνες τους καινοτόμες. Αν και πιστεύουμε ότι θα μπορούσε να είναι δυνατή η περαιτέρω βελτίωση των αποτελεσμάτων, για παράδειγμα, με τη δειγματοληψία σημασιολογικά παρόμοιων εκφωνημάτων μέχρι να φτάσουμε στο μήκος της προτροπής, αυτή η πιο σύνθετη προσέγγιση αξίζει περαιτέρω, εξειδικευμένη διερεύνηση και το αφήνουμε για μελλοντικές εργασίες.
[via]