Ο κόσμος της Τεχνητής Νοημοσύνης και ολόκληρη η χρηματιστηριακή αγορά ταρακουνήθηκε τη Δευτέρα από την ξαφνική δημοσιότητα που έλαβε το DeepSeek, το open-source μεγάλο γλωσσικό μοντέλο που αναπτύχθηκε από ένα hedge fund με έδρα την Κίνα, το οποίο ξεπέρασε τα καλύτερα της OpenAI σε ορισμένες εργασίες, ενώ κόστισε πολύ λιγότερο. Η επιτυχία του DeepSeek R1 αναδεικνύει μια κοσμογονική αλλαγή στην Τεχνητή Νοημοσύνη που θα μπορούσε να δώσει τη δυνατότητα σε μικρότερα εργαστήρια και ερευνητές να δημιουργήσουν ανταγωνιστικά μοντέλα και να διαφοροποιήσουν το πεδίο των διαθέσιμων επιλογών.
Αποδεικνύεται ότι πρόκειται για μια ευρεία προσέγγιση στο πλαίσιο των μορφών βαθιάς μάθησης της Τεχνητής Νοημοσύνης για να εκμαιεύσει περισσότερα από τους επεξεργαστές των υπολογιστών, αξιοποιώντας ένα φαινόμενο γνωστό ως «sparsity».
Το sparsity εμφανίζεται σε πολλές μορφές. Μερικές φορές, περιλαμβάνει την εξάλειψη τμημάτων των δεδομένων που χρησιμοποιεί η AI, όταν τα δεδομένα αυτά δεν επηρεάζουν ουσιαστικά την έξοδο του μοντέλου. Άλλες φορές, μπορεί να περιλαμβάνει την αφαίρεση ολόκληρων τμημάτων ενός νευρωνικού δικτύου, εάν αυτό δεν επηρεάζει το τελικό αποτέλεσμα. Το DeepSeek είναι ένα παράδειγμα του τελευταίου: λιτή χρήση των νευρωνικών δικτύων.
Η κύρια πρόοδος που έχουν εντοπίσει οι περισσότεροι στο DeepSeek είναι ότι μπορεί να ενεργοποιεί και να απενεργοποιεί μεγάλα τμήματα των «βαρών» ή «παραμέτρων» του νευρωνικού δικτύου. Οι παράμετροι είναι αυτές που διαμορφώνουν τον τρόπο με τον οποίο ένα νευρωνικό δίκτυο μπορεί να μετατρέψει την είσοδο – την προτροπή που πληκτρολογείτε – σε παραγόμενο κείμενο ή εικόνες. Οι παράμετροι έχουν άμεσο αντίκτυπο στον χρόνο που χρειάζεται για την εκτέλεση των υπολογισμών. Περισσότερες παράμετροι σημαίνει, συνήθως, μεγαλύτερη υπολογιστική προσπάθεια.
Η δυνατότητα χρήσης ορισμένων μόνο από τις συνολικές παραμέτρους ενός μεγάλου γλωσσικού μοντέλου και η απενεργοποίηση των υπολοίπων είναι ένα παράδειγμα του sparsity. Το γεγονός αυτό μπορεί να έχει σημαντικό αντίκτυπο στο πόσο μεγάλος ή μικρός είναι ο υπολογιστικός προϋπολογισμός ενός AI μοντέλου. Οι ερευνητές AI της Apple, σε μια αναφορά που δημοσιεύτηκε την περασμένη εβδομάδα, εξηγούν με ωραίο τρόπο πώς το DeepSeek και παρόμοιες προτάσεις αξιοποιούν το sparsity για να πετύχουν καλύτερα αποτελέσματα για δεδομένη ποσότητα υπολογιστικής ισχύος.
Η Apple δεν έχει καμία σχέση με την DeepSeek, αλλά διεξάγει τη δική της έρευνα στον τομέα της AI σε τακτική βάση, και έτσι οι εξελίξεις εξωτερικών εταιρειών όπως η DeepSeek αποτελούν μέρος της συνεχούς εμπλοκής σε γενικές γραμμές.
Στην εργασία με τίτλο «Parameters vs FLOPs: Mixture-of-Experts Language Models», που αναρτήθηκε στον server arXiv pre-print, ο επικεφαλής συγγραφέας Samir Abnar της Apple και άλλοι ερευνητές της εταιρείας, μαζί με τον συνεργάτη Harshay Shah του ΜΙΤ, μελέτησαν πώς μεταβάλλονται οι επιδόσεις καθώς εκμεταλλεύονται το sparsity απενεργοποιώντας τμήματα του νευρωνικού δικτύου. Ο Abnar και η ομάδα του πραγματοποίησαν τις μελέτες τους χρησιμοποιώντας μια βιβλιοθήκη κώδικα που κυκλοφόρησε το 2023 από ερευνητές AI της Microsoft, της Google και του Stanford, με την ονομασία MegaBlocks. Ωστόσο, ξεκαθαρίζουν ότι η εργασία τους είναι εφαρμόσιμη στο DeepSeek και σε άλλες πρόσφατες καινοτομίες.
Ο Abnar και η ομάδα ρωτούν αν υπάρχει ένα «βέλτιστο» επίπεδο για το sparsity στο DeepSeek και σε παρόμοια μοντέλα, δηλαδή, για ένα δεδομένο ποσό υπολογιστικής ισχύος, υπάρχει ένας βέλτιστος αριθμός αυτών των νευρωνικών βαρών που πρέπει να ενεργοποιηθούν ή να απενεργοποιηθούν;
Αποδεικνύεται ότι μπορεί να ποσοτικοποιηθεί πλήρως το sparsity ως το ποσοστό όλων των νευρωνικών βαρών που μπορεί να κλείσει, με το ποσοστό αυτό να πλησιάζει αλλά ποτέ να μην ισούται με το 100% του νευρωνικού δικτύου που είναι «ανενεργό».
Και αποδεικνύεται ότι για ένα νευρωνικό δίκτυο συγκεκριμένου μεγέθους σε συνολικές παραμέτρους, με δεδομένη ποσότητα υπολογισμού, απαιτούνται όλο και λιγότερες παράμετροι για να επιτευχθεί η ίδια ή καλύτερη ακρίβεια σε μια δεδομένη δοκιμασία αναφοράς Τεχνητής Νοημοσύνης, όπως τα μαθηματικά ή η απάντηση σε ερωτήσεις. Με άλλα λόγια, ανεξάρτητα από την υπολογιστική ισχύ, µπορούµε να απενεργοποιούµε όλο και περισσότερο τµήµατα του νευρωνικού δικτύου και να έχουµε τα ίδια ή καλύτερα αποτελέσµατα.
Όπως το έθεσαν ο Abnar και η ομάδα του σε τεχνικούς όρους, «Η αύξηση του sparsity με ταυτόχρονη αναλογική επέκταση του συνολικού αριθμού των παραμέτρων οδηγεί σταθερά σε χαμηλότερη απώλεια προ-εκπαίδευσης, ακόμη και όταν περιορίζεται από έναν σταθερό προϋπολογισμό υπολογισμών εκπαίδευσης». Ο όρος «απώλεια προεκπαίδευσης» είναι ο όρος της Τεχνητής Νοημοσύνης για το πόσο ακριβές είναι ένα νευρωνικό δίκτυο. Χαμηλότερη απώλεια προεκπαίδευσης σημαίνει πιο ακριβή αποτελέσματα.
Αυτή η διαπίστωση εξηγεί πώς το DeepSeek θα μπορούσε να χρησιμοποιεί λιγότερη υπολογιστική ισχύ, αλλά να επιτυγχάνει το ίδιο ή καλύτερο αποτέλεσμα απλά απενεργοποιώντας όλο και περισσότερα τμήματα του δικτύου. Το sparsity είναι ένα είδος μαγικού επιλογέα που βρίσκει την καλύτερη δυνατή αντιστοιχία του AI μοντέλου και της υπολογιστικής ισχύος που είναι διαθέσιμη. Είναι ο ίδιος οικονομικός κανόνας που ίσχυε για κάθε νέα γενιά προσωπικών υπολογιστών: Είτε καλύτερο αποτέλεσμα με τα ίδια χρήματα είτε το ίδιο αποτέλεσμα με λιγότερα χρήματα.
Υπάρχουν κάποιες άλλες λεπτομέρειες που πρέπει να ληφθούν υπόψη σχετικά με το DeepSeek. Για παράδειγμα, μια άλλη καινοτομία του DeepSeek, όπως εξήγησε ωραία ο Ege Erdil της Epoch AI, είναι ένα μαθηματικό τέχνασμα που ονομάζεται «multi-head latent attention». Το τελευταίο αξιοποιείται για να συμπιέσει έναν από τους μεγαλύτερους καταναλωτές μνήμης και bandwidth, την cache μνήμη που περιέχει το πιο πρόσφατα εισαχθέν κείμενο μιας προτροπής.
Πέρα από τις λεπτομέρειες, το πιο σημαντικό σημείο σε όλα αυτά είναι ότι το sparsity ως φαινόμενο δεν είναι καινούργιο στην έρευνα για την Τεχνητή Νοημοσύνη, ούτε μια νέα προσέγγιση στη μηχανική. Οι ερευνητές της AI έχουν δείξει εδώ και πολλά χρόνια ότι η εξάλειψη τμημάτων ενός νευρωνικού δικτύου θα μπορούσε να επιτύχει συγκρίσιμη ή ακόμα και καλύτερη ακρίβεια με λιγότερη προσπάθεια.
Ο ανταγωνιστής της Nvidia, η Intel, έχει εδώ και χρόνια προσδιορίσει το sparsity ως βασική λεωφόρο έρευνας για να αλλάξει την κατάσταση της τεχνολογίας στον τομέα. Προσεγγίσεις από startups που βασίζονται στο sparsity έχουν επίσης σημειώσει υψηλές βαθμολογίες σε βιομηχανικά benchmarks τα τελευταία χρόνια.
Η μαγική ιδιότητα του sparsity είναι βαθιά, διότι όχι μόνο βελτιώνει την οικονομία με μικρό προϋπολογισμό, όπως στην περίπτωση του DeepSeek, αλλά λειτουργεί και προς την αντίθετη κατεύθυνση: Ξοδέψτε περισσότερα, και θα έχετε ακόμη καλύτερα οφέλη μέσω του sparsity. Καθώς ανεβάζετε την υπολογιστική σας ισχύ, η ακρίβεια του μοντέλου Τεχνητής Νοημοσύνης βελτιώνεται, όπως διαπίστωσαν ο Abnar και η ομάδα του.
Καθώς αυξάνεται το sparsity, η απώλεια επικύρωσης μειώνεται για όλους τους υπολογιστικούς προϋπολογισμούς, με τους μεγαλύτερους προϋπολογισμούς να επιτυγχάνουν χαμηλότερες απώλειες σε κάθε επίπεδο sparsity.
Θεωρητικά, λοιπόν, μπορούμε να φτιάχνουμε όλο και μεγαλύτερα μοντέλα, σε όλο και μεγαλύτερους υπολογιστές, και να έχουμε καλύτερο αποτέλεσμα για τα χρήματα που επενδύουμε. Το DeepSeek είναι μόνο ένα παράδειγμα μιας ευρείας περιοχής έρευνας που ήδη ακολουθούν πολλά εργαστήρια και στην οποία θα προσχωρήσουν τώρα πολλά περισσότερα προκειμένου να επαναλάβουν την επιτυχία του.
[via]