Η Κίνα κυκλοφόρησε έναν οικονομικό, ανοιχτού κώδικα αντίπαλο του ChatGPT της OpenAI και αυτό έχει ενθουσιάσει ορισμένους επιστήμονες και ανησυχεί τη Silicon Valley.
Η DeepSeek, το κινεζικό εργαστήριο τεχνητής νοημοσύνης (AI) που βρίσκεται πίσω από την καινοτομία, παρουσίασε το δωρεάν μεγάλο γλωσσικό μοντέλο (LLM) DeepSeek-V3 στα τέλη Δεκεμβρίου 2024 και ισχυρίζεται ότι κατασκευάστηκε σε δύο μήνες με κόστος μόλις 5,58 εκατομμύρια δολάρια – ένα κλάσμα του χρόνου και του κόστους που απαιτούν οι ανταγωνιστές του από τη Silicon Valley.
Ακολουθεί ένα ακόμη νεότερο μοντέλο με την ονομασία DeepSeek-R1, το οποίο κυκλοφόρησε τη Δευτέρα 20 Ιανουαρίου. Σε δοκιμές αναφοράς τρίτων, το DeepSeek-V3 έφτασε τις δυνατότητες του GPT-4o της OpenAI και του Claude Sonnet 3.5 της Anthropic, ενώ ξεπέρασε άλλες, όπως το Llama 3.1 της Meta και το Qwen2.5 της Alibaba, σε εργασίες που περιλάμβαναν την επίλυση προβλημάτων, την κωδικοποίηση και τα μαθηματικά.
Τώρα, το R1 ξεπέρασε επίσης το τελευταίο μοντέλο o1 της ChatGPT σε πολλές από τις ίδιες δοκιμές. Αυτές οι εντυπωσιακές επιδόσεις σε ένα κλάσμα του κόστους άλλων μοντέλων, ο εν μέρει ανοιχτός χαρακτήρας του και η εκπαίδευσή του σε σημαντικά λιγότερες μονάδες επεξεργασίας γραφικών (GPUs) έχουν εντυπωσιάσει τους ειδικούς σε θέματα AI και έχουν αναδείξει το σενάριο ότι τα μοντέλα AI της Κίνας θα ξεπεράσουν τα αντίστοιχα μοντέλα των ΗΠΑ.
«Θα πρέπει να λάβουμε πολύ, πολύ σοβαρά υπόψη τις εξελίξεις από την Κίνα», δήλωσε ο Satya Nadella, ο CEO της Microsoft, στρατηγικός εταίρος της OpenAI, στο Παγκόσμιο Οικονομικό Φόρουμ στο Νταβός της Ελβετίας, στις 22 Ιανουαρίου.
Τα συστήματα τεχνητής νοημοσύνης μαθαίνουν χρησιμοποιώντας δεδομένα εκπαίδευσης που λαμβάνονται από ανθρώπινες εισροές, γεγονός που τους επιτρέπει να παράγουν αποτελέσματα βάσει των πιθανοτήτων εμφάνισης διαφορετικών μοτίβων σε αυτό το σύνολο δεδομένων εκπαίδευσης.
Για μεγάλα γλωσσικά μοντέλα, τα δεδομένα αυτά είναι κείμενο. Για παράδειγμα, το GPT-3.5 της OpenAI, το οποίο κυκλοφόρησε το 2023, εκπαιδεύτηκε σε περίπου 570 GB δεδομένων κειμένου από το αποθετήριο Common Crawl – το οποίο αντιστοιχεί σε περίπου 300 δισεκατομμύρια λέξεις – που προέρχονται από βιβλία, διαδικτυακά άρθρα, τη Wikipedia και άλλες ιστοσελίδες.
Τα μοντέλα συλλογισμού, όπως τα R1 και o1, είναι μια αναβαθμισμένη έκδοση των τυπικών LLM που χρησιμοποιούν μια μέθοδο που ονομάζεται «αλυσίδα σκέψης» για να ανατρέχουν και να επαναξιολογούν τη λογική τους, γεγονός που τους επιτρέπει να αντιμετωπίζουν πιο σύνθετες εργασίες με μεγαλύτερη ακρίβεια. Αυτό έχει καταστήσει τα μοντέλα συλλογισμού δημοφιλή μεταξύ επιστημόνων και μηχανικών που επιθυμούν να ενσωματώσουν την Τεχνητή Νοημοσύνη στην εργασία τους.
Αλλά σε αντίθεση με το o1 της OpenAI, το DeepSeek είναι ένα μοντέλο «ανοικτού βάρους» που (αν και τα δεδομένα εκπαίδευσής του παραμένουν ιδιόκτητα) επιτρέπει στους χρήστες να κρυφοκοιτάζουν μέσα στο εσωτερικό του και να τροποποιούν τον αλγόριθμό του. Εξίσου σημαντική είναι η μειωμένη τιμή του για τους χρήστες – 27 φορές χαμηλότερη από το o1.
Εκτός από τις επιδόσεις του, το hype γύρω από το DeepSeek προέρχεται από την αποδοτικότητά του ως προς το κόστος- ο προϋπολογισμός του μοντέλου είναι ελάχιστος σε σύγκριση με τα δεκάδες εκατομμύρια έως εκατοντάδες εκατομμύρια που ξόδεψαν οι αντίπαλες εταιρείες για να εκπαιδεύσουν τους ανταγωνιστές του.
Επιπλέον, οι αμερικανικοί έλεγχοι των εξαγωγών, οι οποίοι περιορίζουν την πρόσβαση των κινεζικών εταιρειών στα καλύτερα υπολογιστικά τσιπ τεχνητής νοημοσύνης, ανάγκασαν τους προγραμματιστές της R1 να κατασκευάσουν πιο έξυπνους και ενεργειακά αποδοτικούς αλγορίθμους για να αντισταθμίσουν την έλλειψη υπολογιστικής ισχύος. Η OpenAI φέρεται να χρειάστηκε 10.000 GPUs της Nvidia για να επεξεργαστεί τα δεδομένα εκπαίδευσής της, ενώ οι μηχανικοί της DeepSeek υποστηρίζουν ότι πέτυχαν παρόμοια αποτελέσματα με μόλις 2.000…
[via]