Τα μεγάλα γλωσσικά μοντέλα (LLM) μπορεί να μην είναι τόσο έξυπνα όσο φαίνονται, σύμφωνα με μελέτη ερευνητών της Apple. Τα LLMs από τις OpenAI, Google, Meta και άλλες εταιρείες έχουν διαφημιστεί για τις εντυπωσιακές τους ικανότητες συλλογισμού. Όμως η έρευνα δείχνει ότι η υποτιθέμενη ευφυΐα τους μπορεί να είναι πιο κοντά στην «εξελιγμένη αντιστοίχιση προτύπων» παρά στην «πραγματική λογική συλλογιστική».
Το πιο συνηθισμένο μέτρο σύγκρισης για τις δεξιότητες συλλογισμού είναι ένα τεστ που ονομάζεται GSM8K, αλλά επειδή είναι τόσο δημοφιλές, υπάρχει κίνδυνος επιμόλυνσης των δεδομένων. Αυτό σημαίνει ότι τα LLM μπορεί να γνωρίζουν τις απαντήσεις στο τεστ επειδή εκπαιδεύτηκαν σε αυτές τις απαντήσεις, όχι λόγω της εγγενούς ευφυΐας τους.
Για να ελεγχθεί αυτό, η μελέτη ανέπτυξε ένα νέο μέτρο σύγκρισης που ονομάζεται GSM-Symbolic, το οποίο διατηρεί την ουσία των προβλημάτων συλλογισμού, αλλά αλλάζει τις μεταβλητές, όπως ονόματα, αριθμούς, πολυπλοκότητα, και προσθέτει άσχετες πληροφορίες. Αυτό που ανακάλυψαν ήταν μια εκπληκτική «ευθραυστότητα» στις επιδόσεις του LLM. Η μελέτη εξέτασε πάνω από 20 μοντέλα, συμπεριλαμβανομένων των o1 και GPT-4o του OpenAI, του Gemma 2 της Google και του Llama 3 της Meta. Με κάθε μοντέλο, η απόδοση του μοντέλου μειώθηκε όταν άλλαξαν οι μεταβλητές.
Η ακρίβεια μειώθηκε κατά μερικές ποσοστιαίες μονάδες όταν άλλαξαν τα ονόματα και οι μεταβλητές. Και όπως σημείωσαν οι ερευνητές, τα μοντέλα του OpenAI είχαν καλύτερες επιδόσεις από τα άλλα μοντέλα ανοιχτού κώδικα. Ωστόσο, η διακύμανση θεωρήθηκε «μη αμελητέα», πράγμα που σημαίνει ότι δεν θα έπρεπε να έχει εμφανιστεί οποιαδήποτε πραγματική διακύμανση. Εκεί που το θέμα έγινε πραγματικά ενδιαφέρον ήταν όταν οι ερευνητές πρόσθεσαν στο μείγμα «φαινομενικά σχετικές αλλά τελικά ασήμαντες δηλώσεις».
Για να ελεγχθεί η υπόθεση ότι τα LLM βασίζονταν περισσότερο στην αντιστοίχιση προτύπων παρά στην πραγματική συλλογιστική, η μελέτη πρόσθεσε περιττές φράσεις σε μαθηματικά προβλήματα για να δει πώς θα αντιδρούσαν τα μοντέλα. Για παράδειγμα, «Ο Όλιβερ μαζεύει 44 ακτινίδια την Παρασκευή. Στη συνέχεια διαλέγει 58 ακτινίδια το Σάββατο. Την Κυριακή, διαλέγει διπλάσιο αριθμό ακτινιδίων από αυτόν της Παρασκευής, αλλά πέντε από αυτά ήταν λίγο μικρότερα από τον μέσο όρο. Πόσα ακτινίδια έχει ο Όλιβερ;»
Αυτό που προέκυψε ήταν μια σημαντική πτώση των επιδόσεων σε όλους τους τομείς. Το o1 Preview του OpenAI τα πήγε καλύτερα, με πτώση της ακρίβειας κατά 17,5 %. Αυτό εξακολουθεί να είναι αρκετά κακό, αλλά όχι τόσο κακό όσο το μοντέλο Phi 3 της Microsoft, το οποίο είχε 65% χειρότερες επιδόσεις.
Στο παράδειγμα του ακτινιδίου, η μελέτη ανέφερε ότι τα LLM είχαν την τάση να αφαιρούν τα πέντε μικρότερα ακτινίδια από την εξίσωση χωρίς να κατανοούν ότι το μέγεθος του ακτινιδίου ήταν άσχετο με το πρόβλημα. Αυτό δείχνει ότι «τα μοντέλα τείνουν να μετατρέπουν τις δηλώσεις σε πράξεις χωρίς να κατανοούν πραγματικά το νόημα τους», γεγονός που επικυρώνει την υπόθεση των ερευνητών ότι τα LLM αναζητούν μοτίβα στα προβλήματα συλλογισμού, αντί να κατανοούν έμφυτα την έννοια.
Η μελέτη δεν μάσησε τα λόγια της σχετικά με τα ευρήματα της. Η δοκιμή μοντέλων στο σημείο αναφοράς που περιλαμβάνει άσχετες πληροφορίες «εκθέτει ένα κρίσιμο ελάττωμα στην ικανότητα των LLMs να κατανοούν πραγματικά τις μαθηματικές έννοιες και να διακρίνουν τις σχετικές πληροφορίες για την επίλυση προβλημάτων». Ωστόσο, αξίζει να αναφερθεί ότι οι συγγραφείς αυτής της μελέτης εργάζονται για την Apple, η οποία είναι προφανώς ένας σημαντικός ανταγωνιστής των Google, Meta και ακόμη και του OpenAI. Μπορεί η Apple και ο OpenAI να έχουν μια συνεργασία, αλλά η Apple εργάζεται επίσης πάνω στα δικά της μοντέλα AI.
Με βάση τα παραπάνω, η προφανής έλλειψη τυπικών δεξιοτήτων συλλογισμού των LLMs δεν μπορεί να αγνοηθεί. Εν τέλει, είναι μια καλή υπενθύμιση για να μετριάσουμε τη διαφημιστική υπερβολή της Τεχνητής Νοημοσύνης με υγιή σκεπτικισμό.
[via]