Ειδικοί και μηχανικοί λογισμικού προειδοποιούν ότι το νέο μοντέλο τεχνητής νοημοσύνης της Anthropic θα μπορούσε να εγκαινιάσει μια νέα εποχή hacking και κυβερνοασφάλειας, καθώς εντοπίζει και εκμεταλλεύεται έναν αυξανόμενο αριθμό ευπαθειών λογισμικού.
Επικαλούμενη τη δυνητική ζημία που θα μπορούσε να προκύψει από μια ευρύτερη δημόσια κυκλοφορία, η κορυφαία εταιρεία AI Anthropic διέθεσε το προηγμένο μοντέλο, που ονομάζεται Claude Mythos Preview, σε μια περιορισμένη ομάδα τεχνολογικών εταιρειών.
Το μοντέλο είναι το πιο πρόσφατο στη σειρά συστημάτων AI Claude της Anthropic. Η κυκλοφορία του είχε προαναγγελθεί στα τέλη Μαρτίου.
Οι ερευνητές της Anthropic δηλώνουν ότι το Mythos Preview κατάφερε να εντοπίσει χιλιάδες σφάλματα και ελαττώματα λογισμικού υψηλής και κρίσιμης σοβαρότητας, με ευπάθειες να έχουν εντοπιστεί στα περισσότερα μεγάλα λειτουργικά συστήματα και προγράμματα περιήγησης στο διαδίκτυο.
Η Anthropic ανέφερε ότι ορισμένες από τις ευπάθειες δεν είχαν εντοπιστεί για δεκαετίες. «Όλα αυτά είναι απολύτως πραγματικά», δήλωσε η Katie Moussouris, διευθύνουσα σύμβουλος και συνιδρύτρια της Luta Security. «Δεν είμαι άνθρωπος που κινδυνολογεί για τέτοια ζητήματα», είπε η Moussouris. «Σίγουρα θα δούμε τεράστιες συνέπειες».
Αντί για δημόσια κυκλοφορία, η Anthropic δίνει σε τεχνολογικές εταιρείες όπως η Microsoft, η Nvidia και η Cisco πρόσβαση στο Mythos Preview για την ενίσχυση των κυβερνοαμυνών. Στο πλαίσιο της νέας αυτής πρωτοβουλίας, που ονομάζεται Project Glasswing, η Anthropic θα δώσει σε περισσότερους από 50 τεχνολογικούς οργανισμούς πρόσβαση στο Mythos Preview με πιστώσεις χρήσης άνω των 100 εκατομμυρίων δολαρίων.
«Οι εταίροι του Project Glasswing θα λάβουν πρόσβαση στο Claude Mythos Preview για να εντοπίζουν και να διορθώνουν ευπάθειες ή αδυναμίες στα βασικά τους συστήματα», ανακοίνωσε η Anthropic σε ανάρτηση στο blog της. «Το Project Glasswing αποτελεί ένα σημαντικό βήμα προς την παροχή ενός διαρκούς πλεονεκτήματος στους αμυνόμενους στη νέα εποχή κυβερνοασφάλειας που καθοδηγείται από την τεχνητή νοημοσύνη».
Δεν είναι σαφές ποιες ακριβώς είναι οι ευπάθειες που εντόπισε το Mythos Preview ή πόσες από αυτές είχαν ήδη ανακαλυφθεί ή αναφερθεί προηγουμένως, γράφει το NBC. Λόγω της ευαίσθητης φύσης των ευπαθειών, η Anthropic δήλωσε ότι θα αποκαλύψει τη φύση των επί του παρόντος μη δημοσιοποιημένων ευπαθειών εντός 135 ημερών από τη στιγμή που θα τις κοινοποιήσει στους οργανισμούς ή τα μέρη που είναι υπεύθυνα για το λογισμικό.
Είναι η πρώτη φορά εδώ και σχεδόν επτά χρόνια που μια κορυφαία εταιρεία AI αποσύρει τόσο δημόσια ένα μοντέλο λόγω ανησυχιών για την ασφάλεια. Το 2019, η OpenAI -πλέον ένας από τους βασικούς ανταγωνιστές της Anthropic- αποφάσισε να μην κυκλοφορήσει το σύστημα GPT-2 «λόγω ανησυχιών ότι τα μεγάλα γλωσσικά μοντέλα θα μπορούσαν να χρησιμοποιηθούν για τη δημιουργία παραπλανητικής, μεροληπτικής ή καταχρηστικής γλώσσας σε μεγάλη κλίμακα».
Το Mythos Preview είναι ένα μοντέλο γενικής χρήσης, δηλαδή ο τύπος συστήματος που τροφοδοτεί προϊόντα όπως το Claude Code ή το ChatGPT. Ωστόσο, σε δοκιμές πριν την κυκλοφορία, η Anthropic διαπίστωσε ότι οι δυνατότητές του στην κυβερνοασφάλεια ήταν ιδιαίτερα προηγμένες σε σύγκριση με προηγούμενα μοντέλα, γεγονός που οδήγησε στη δημιουργία του Project Glasswing.
Ο Logan Graham, επικεφαλής της επιθετικής κυβερνοέρευνας στην Anthropic, δήλωσε ότι το μοντέλο Mythos Preview είναι αρκετά προηγμένο ώστε όχι μόνο να εντοπίζει άγνωστες ευπάθειες λογισμικού αλλά και να τις μετατρέπει σε «όπλα».
«Έχουμε δει επανειλημμένα να συνδυάζει ευπάθειες μεταξύ τους. Ο βαθμός αυτονομίας του και η ικανότητά του για μακράς εμβέλειας σύνθεση, δηλαδή η δυνατότητα να συνδυάζει πολλαπλά στοιχεία, είναι ένα ιδιαίτερο χαρακτηριστικό αυτού του μοντέλου», δήλωσε ο Graham στο NBC News.
Αυτή η ικανότητα σημαίνει ότι η εταιρεία είναι προς το παρόν απρόθυμη να κυκλοφορήσει ακόμη και μια προσεκτικά περιορισμένη έκδοση του μοντέλου στο κοινό, όπως είπε, τουλάχιστον μέχρι κάποιες δυτικές εταιρείες να μπορέσουν να το χρησιμοποιήσουν για να εντοπίσουν άμυνες που θα μπορούν να αναπτυχθούν γύρω από αυτές.
Η Anthropic έχει επίσης ενημερώσει την ομοσπονδιακή κυβέρνηση για τις δυνατότητες κυβερνοασφάλειας του Mythos Preview. Η Anthropic βρίσκεται σε έντονη διαμάχη με την κυβέρνηση Τραμπ σχετικά με τη χρήση των μοντέλων της από την ομοσπονδιακή κυβέρνηση, αφού ο υπουργός Άμυνας Πιτ Χέγκσεθ χαρακτήρισε την Anthropic «κίνδυνο για την εθνική ασφάλεια στην αλυσίδα εφοδιασμού» στα τέλη Φεβρουαρίου. Ένας ομοσπονδιακός δικαστής στα τέλη του περασμένου μήνα εξέδωσε προσωρινή διαταγή κατά του χαρακτηρισμού αυτού, την οποία η κυβέρνηση Τραμπ έχει προσβάλει με έφεση.
Πέρα από τις επιπτώσεις του Mythos Preview στην κυβερνοασφάλεια, το μοντέλο παρουσίασε επίσης ανησυχητική συμπεριφορά στο πλαίσιο των δοκιμών ασφάλειας πριν την κυκλοφορία.
Στο πλαίσιο της κυκλοφορίας νέων μοντέλων, η Anthropic δημιουργεί λεπτομερείς αναφορές που ονομάζονται «system cards», οι οποίες παρουσιάζουν την απόδοση των μοντέλων σε μια ποικιλία αξιολογήσεων. Η system card για το Mythos Preview, που δημοσιεύθηκε την Τρίτη, αναφέρει ότι «η μεγάλη αύξηση των δυνατοτήτων του Claude Mythos Preview μας οδήγησε στην απόφαση να μην το καταστήσουμε γενικά διαθέσιμο».
Σύμφωνα με τη system card, σε μία αξιολόγηση, το μοντέλο έδειξε κάποιο βαθμό επίγνωσης ότι αξιολογείται σε περίπου 29% των απομαγνητοφωνήσεων -παρόλο που δεν είπε ρητά στους ερευνητές ότι γνώριζε πως αξιολογείται. Ορισμένοι ερευνητές ανησυχούν ότι ένα μοντέλο μπορεί να αλλάξει τη συμπεριφορά του και να λειτουργήσει πιο «ασφαλώς», αν γνωρίζει ότι αξιολογείται.
Η Anthropic και οι ερευνητές που συνεργάστηκαν με την εταιρεία για την αξιολόγηση της ασφάλειας του μοντέλου δήλωσαν επίσης ότι το Mythos Preview φάνηκε σκόπιμα να αποδίδει χειρότερα σε μία αξιολόγηση από όσο μπορούσε, ώστε να φαίνεται λιγότερο ύποπτο. «Βρίσκουμε αυτό το συνολικό μοτίβο συμπεριφοράς ανησυχητικό και δεν το έχουμε δει σε παρόμοιες αξιολογήσεις προηγούμενων μοντέλων Claude», έγραψε η Anthropic στη system card.
Σε ένα άλλο πείραμα με μια προηγούμενη έκδοση του Mythos Preview, ένας ερευνητής της Anthropic έδωσε εντολή σε ένα μοντέλο, ουσιαστικά απομονωμένο σε έναν ασφαλή υπολογιστή, να προσπαθήσει να δραπετεύσει και να στείλει μήνυμα στον ερευνητή. Ο ερευνητής Sam Bowman έτρωγε ένα σάντουιτς σε ένα πάρκο, όταν έλαβε ένα email από το μοντέλο.
«Αυτή η εκδοχή δεν υποτίθεται ότι είχε πρόσβαση στο διαδίκτυο».