Αναδρομική αυτοβελτίωση: Γιατί η Anthropic ζητά επιβράδυνση της ανάπτυξης της AI

με την υποστήριξη του

Anthropic (ιδιωτική) / πριμ ασφάλειας ΤΝ

Αγορά: έκθεση στην Anthropic μέσω της πιθανής IPO/δευτερογενούς διαδρομής (π.χ. κατανομή IPO ή ρευστό υποκατάστατο όπως δικαιώματα σε ωφελούμενους από ασφάλεια ΤΝ/υπολογιστική ισχύ). Λογική: Η Anthropic προωθεί πολιτικές «επιβράδυνσης/παύσης» ενώ εξακολουθεί να κλιμακώνεται γρήγορα — αυτό δημιουργεί ένα διαρκές πλεονέκτημα (moat) εάν οι ρυθμιστές και οι αγοραστές ανταμείψουν εταιρείες με αξιόπιστα πλαίσια ασφάλειας και οικοσυστήματα αξιολόγησης. Η αγορά θα συνεχίσει να πληρώνει για την «άδεια λειτουργίας» καθώς η εποπτεία διευρύνεται.

Βασικός κίνδυνος: Αντίδραση πολιτικής που θα παρουσιάσει την πρωτοβουλία ασφαλείας της Anthropic ως αυτοεξυπηρετούμενη, οδηγώντας σε ασθενέστερη ρυθμιστική ώθηση και ταχύτερη εμπορευματοποίηση των μοντέλων αιχμής.

OpenAI (δημόσιο υποκατάστατο) / ηγεσία στην αιχμή

Πώληση: δημόσια υποκατάστατα συνδεδεμένα με την OpenAI που βασίζονται σε αφηγήματα «αγώνα για ικανότητα» (π.χ. εταιρείες cuya αποτίμηση συνδέεται περισσότερο με την άμεση επιτάχυνση των μοντέλων αιχμής παρά με τη συμμόρφωση). Λογική: Εάν ο κλάδος μετατοπιστεί προς παρακολούθηση, αξιολόγηση και πιθανές παύσεις, η οριακή αξία της ακατέργαστης ταχύτητας μειώνεται και νικητές γίνονται όσοι διαθέτουν εργαλεία διακυβέρνησης και επαλήθευσης. Αυτό συμπιέζει τα πολλαπλάσια για τις καθαρές ιστορίες «σπριντ ικανοτήτων».

Βασικός κίνδυνος: Ένα τεχνολογικό άλμα που θα κάνει τις ανησυχίες για RSI να φαίνονται υπερβολικές, αποκαθιστώντας την επενδυτική όρεξη για τη ταχύτερη κλιμάκωση μοντέλων και ανεβάζοντας τις αποτιμήσεις «αγώνα».

Η Anthropic λέει ότι η ανάπτυξη της ΤΝ μπορεί να χρειαστεί να επιβραδυνθεί καθώς τα συστήματα πλησιάζουν την αναδρομική αυτοβελτίωση.
Η εταιρεία προτείνει παγκόσμιους μηχανισμούς για την επαλήθευση οποιασδήποτε μελλοντικής επιβράδυνσης ή παύσης της ΤΝ.
Οι επικριτές βλέπουν τις προειδοποιήσεις για ασφάλεια ως στρατηγική τοποθέτηση, ενώ οι υποστηρικτές θεωρούν ότι οι κίνδυνοι είναι πραγματικοί.

Καθώς ο αγώνας για την κατασκευή όλο και πιο ισχυρών συστημάτων τεχνητής νοημοσύνης επιταχύνεται, ένας από τους κορυφαίους παίκτες του κλάδου καλεί τον κόσμο να εξετάσει μια δυνατότητα που έως πρόσφατα ανήκε κυρίως στην επιστημονική φαντασία: μηχανές που βελτιώνονται μόνες τους χωρίς ανθρώπινη παρέμβαση.

Η Anthropic, η εταιρεία τεχνητής νοημοσύνης πίσω από τον Claude, είπε την Πέμπτη ότι η ικανότητα να επιβραδύνεται ο ρυθμός της ανάπτυξης της αιχμής στην ΤΝ θα μπορούσε να αποδειχθεί πολύτιμη καθώς η τεχνολογία πλησιάζει ικανότητες που μπορεί να διαμορφώσουν θεμελιωδώς την κοινωνία.

Η προειδοποίηση δημοσιεύθηκε σε ένα άρθρο ιστολογίου που υπογράφουν η Marina Favaro, επικεφαλής του εσωτερικού ερευνητικού ινστιτούτου της Anthropic, και ο συνιδρυτής της εταιρείας Jack Clark.

Το άρθρο αποκάλυψε εσωτερική έρευνα που δείχνει ότι τα πιο προηγμένα μοντέλα της εταιρείας προοδεύουν γρήγορα και τελικά θα μπορούσαν να κινηθούν προς αυτό που οι ερευνητές ονομάζουν «αναδρομική αυτοβελτίωση» — ένα σενάριο στο οποίο τα συστήματα ΤΝ γίνονται ικανά να ενισχύουν τις δικές τους ικανότητες.

Η εταιρεία τόνισε ότι ένα τέτοιο όριο δεν έχει ακόμη επιτευχθεί και ίσως ποτέ να μην επιτευχθεί.

Ωστόσο, υποστήριξε ότι η πιθανότητα γίνεται αρκετά σοβαρή ώστε να απαιτείται προετοιμασία.

«Μια ΤΝ που μπορεί να κατασκευάσει τον εαυτό της θα ήταν μια σημαντική εξέλιξη στην ιστορία της τεχνολογίας — μια εξέλιξη που θα μπορούσε να φέρει τεράστια ωφέλη στον κόσμο στην επιστήμη, την υγειονομική περίθαλψη και πέραν αυτής», ανέφερε το άρθρο.

Ωστόσο, προειδοποίησε ότι η πλήρης αναδρομική αυτοβελτίωση θα μπορούσε επίσης να αυξήσει τους κινδύνους απώλειας ελέγχου των ανθρώπων επί των συστημάτων ΤΝ.

«Εάν τα συστήματα είναι ικανά να κατασκευάσουν πλήρως τους δικούς τους διαδόχους, οι τρόποι με τους οποίους τα ασφαλίζουμε, τα παρακολουθούμε και διαμορφώνουμε τη συμπεριφορά τους γίνονται πολύ πιο σημαντικοί», αναφέρει το άρθρο.

«Πιστεύουμε ότι θα ήταν καλό για τον κόσμο να υπάρχει η επιλογή να επιβραδύνει ή να διακόψει προσωρινά την ανάπτυξη της αιχμής στην ΤΝ ώστε οι κοινωνικές δομές και η έρευνα ευθυγράμμισης να προλαβαίνουν την πρόοδο της τεχνολογίας», προστίθεται.

Τι σημαίνει αναδρομική αυτοβελτίωση

Η αναδρομική αυτοβελτίωση, συχνά συντομογραφημένη ως RSI, αναφέρεται σε μια διαδικασία στην οποία ένα σύστημα ΤΝ χρησιμοποιεί τις υπάρχουσες ικανότητές του για να βελτιώσει τον εαυτό του.

Σε αντίθεση με το συμβατικό λογισμικό, που αλλάζει μόνο όταν οι ανθρώπινοι προγραμματιστές τροποποιούν τον κώδικα, τα προηγμένα συστήματα ΤΝ μπορούν ήδη να γράφουν λογισμικό, να αναλύουν αποτελέσματα, να δοκιμάζουν υποθέσεις και να παράγουν λύσεις σε πολύπλοκα προβλήματα.

Οι ερευνητές φαντάζονται ένα μελλοντικό σύστημα ικανό να εντοπίζει ένα πρόβλημα, να γράφει κώδικα για να το αντιμετωπίσει, να αξιολογεί το αποτέλεσμα, να μαθαίνει από τα αποτελέσματα και στη συνέχεια να επαναλαμβάνει τη διαδικασία συνεχώς με λίγη ή καθόλου ανθρώπινη επίβλεψη.

Κάθε βελτίωση θα μπορούσε δυνητικά να καταστήσει την επόμενη πιο εύκολη, δημιουργώντας έναν βρόχο ανατροφοδότησης που επιταχύνει την πρόοδο.

Ενώ οι ειδικοί διαφωνούν για το πόσο πιθανές ή πόσο κοντά είναι τέτοιες ικανότητες, η ιδέα έχει γίνει κεντρικό θέμα στις συζητήσεις για την ασφάλεια των προηγμένων ΤΝ.

Η Anthropic προειδοποίησε ότι η αναδρομική αυτοβελτίωση «θα μπορούσε να έρθει πιο σύντομα από ό,τι είναι προετοιμασμένοι οι περισσότεροι θεσμοί».

Γιατί οι ερευνητές βλέπουν κινδύνους

Η πιθανότητα συστημάτων που αυτοβελτιώνονται έχει εγείρει ανησυχίες σε μερικούς ακαδημαϊκούς και πολιτικούς επειδή εισάγει νέες προκλήσεις ασφάλειας και διακυβέρνησης.

Σύμφωνα με τον Azizi Othman του Asia e University, τα συστήματα που μπορούν να τροποποιούν τον δικό τους κώδικα θα μπορούσαν να γίνουν ελκυστικοί στόχοι για κακόβουλους φορείς.

«Ένα σύστημα που τροποποιεί τον ίδιο του τον κώδικα μπορεί να κατασκευαστεί ώστε να δέχεται πίσω πόρτες ή κρυφές εντολές μέσω προσεκτικών ακολουθιών επιθέσεων», είπε ο Othman.

Προειδοποίησε ότι τέτοια συστήματα θα μπορούσαν επίσης ενδεχομένως να εμπλακούν σε εχθρικές τροποποιήσεις άλλου λογισμικού ή υποδομών, δημιουργώντας κινδύνους ασφάλειας που η τρέχουσα έρευνα ασφάλειας ΤΝ δεν είναι πλήρως εξοπλισμένη να αντιμετωπίσει.

«Αυτές οι σκέψεις υποδεικνύουν ότι η ασφάλεια RSI πρέπει να αντιμετωπιστεί ως κεντρική ερευνητική προτεραιότητα, όχι ως δευτερεύον θέμα», πρόσθεσε.

Οι ερευνητές λένε ότι η υπάρχουσα βιβλιογραφία για την ασφάλιση συστημάτων ικανών για αναδρομική αυτοτροποποίηση παραμένει περιορισμένη.

Η OpenAI εκφράζει παρόμοιες ανησυχίες

Η Anthropic δεν είναι μόνη στο να επισημαίνει την αναδρομική αυτοβελτίωση ως πιθανή πρόκληση.

Η OpenAI, ο βασικός αντίπαλος της Anthropic, επίσης έθιξε το ζήτημα αυτήν την εβδομάδα ως μέρος της δημόσιας πολιτικής ατζέντας της.

Ο δημιουργός του ChatGPT ζήτησε ένα ομοσπονδιακό πλαίσιο που θα ενίσχυε την εποπτεία των προηγμένων συστημάτων ΤΝ και θα υποστήριζε την παρακολούθηση της προόδου προς την αναδρομική αυτοβελτίωση.

«Υποστηρίζουμε επίσης δράση του Κογκρέσου για την καθιέρωση ενός ολοκληρωμένου ομοσπονδιακού πλαισίου», δήλωσε η OpenAI, υποστηρίζοντας ότι η κυβέρνηση των ΗΠΑ θα πρέπει να διευρύνει τις προσπάθειες αξιολόγησης για τα πλέον ικανά μοντέλα αιχμής και να αναπτύξει ένα ανεξάρτητο οικοσύστημα για την εκτίμηση κινδύνων ασφάλειας.

«Αυτό το πλαίσιο θα πρέπει να απαιτεί από το CAISI να διεξάγει αξιολογήσεις των πλέον ικανών μοντέλων αιχμής, να κατευθύνει το CAISI να δημιουργήσει ένα ανεξάρτητο οικοσύστημα αξιολόγησης και να δώσει προτεραιότητα στην παρακολούθηση της προόδου προς την αναδρομική αυτοβελτίωση (RSI)», ανέφερε.

Το γεγονός ότι δύο από τις πλέον επιδραστικές εταιρείες ΤΝ στον κόσμο συζητούν τώρα δημόσια την αναδρομική αυτοβελτίωση υποδηλώνει ότι το ζήτημα μετακινείται από θεωρητική αντιπαράθεση σε κύριες πολιτικές συζητήσεις.

Μια προειδοποίηση εν μέσω άνθησης της επιχειρηματικής ΤΝ

Το κάλεσμα της Anthropic για προσοχή έρχεται τη στιγμή που η ίδια η εταιρεία ωφελείται σημαντικά από το μπουμ της ΤΝ.

Η εταιρεία ολοκλήρωσε πρόσφατα έναν γύρο χρηματοδότησης που την αποτιμά σχεδόν στο $1 τρισεκατομμύριο και έχει υποβάλει εμπιστευτικά έγγραφα για δημόσια εγγραφή (IPO).

Η αύξηση των εσόδων της ήταν εξίσου δραματική.

Ο ετήσιος ρυθμός εσόδων της Anthropic προβλέπεται να φτάσει περίπου τα $50 δισεκατομμύρια έως το τέλος αυτού του μήνα, από $9 δισεκατομμύρια στο τέλος του 2025.

Αυτή η ταχεία ανάπτυξη έχει βοηθήσει στη θέση της εταιρείας ως ενός από τους κύριους διεκδικητές απέναντι στην OpenAI στη μάχη για την υπεροχή στην ΤΝ.

Ο χρόνος της τελευταίας της πρωτοβουλίας για ασφάλεια έχει έτσι αναζωπυρώσει την κριτική από ορισμένους παρατηρητές που υποστηρίζουν ότι οι εκκλήσεις για αυστηρότερη εποπτεία μπορεί να ευνοήσουν τους καθιερωμένους ηγέτες της ΤΝ αυξάνοντας τα εμπόδια εισόδου.

Οι επικριτές αμφισβητούν τα κίνητρα της Anthropic

Η Anthropic αντιμετωπίζει εδώ και καιρό κατηγορίες ότι η υπεράσπιση της ασφάλειας μπορεί να εξυπηρετεί εμπορικά συμφέροντα.

Μεταξύ των επικριτών της είναι ο venture capitalist David Sacks, ένας ανεπίσημος σύμβουλος του προέδρου Donald Trump, ο οποίος έχει κατηγορήσει την εταιρεία ότι ακολουθεί μια «ατζέντα ρυθμιστικής σύλληψης» (regulatory capture agenda).

Σε ένα πρόσφατο podcast, ο Sacks προειδοποίησε ότι η «ατζέντα ρυθμιστικής σύλληψης» στην Ουάσινγκτον θα μπορούσε να οδηγήσει σε απαγόρευση των ανοιχτού κώδικα μοντέλων ΤΝ — συστημάτων που προσφέρουν σε οργανισμούς πολύ φθηνότερο τρόπο να κατασκευάζουν και να χρησιμοποιούν ΤΝ εσωτερικά.

Άλλοι έχουν υποστηρίξει ότι οι δημόσιες προειδοποιήσεις για ισχυρά συστήματα ΤΝ μπορεί να λειτουργούν και ως μορφή μάρκετινγκ, επισημαίνοντας την τεχνολογική ωριμότητα της Anthropic.

Η περιορισμένη διάθεση του μοντέλου Mythos της εταιρείας, που επικεντρώνεται στην κυβερνοασφάλεια, έχει συχνά αναφερθεί ως παράδειγμα από σκεπτικιστές που πιστεύουν ότι τα μηνύματα ασφάλειας μπορούν επίσης να προβάλλουν τις δυνατότητες προϊόντων.

Η Anthropic απορρίπτει αυτές τις επικρίσεις και υποστηρίζει ότι η εστίασή της στην ασφάλεια προηγείται του τρέχοντος μπουμ της ΤΝ.

Ένας κλάδος διχασμένος για το μέλλον της ΤΝ

Η συζήτηση αντικατοπτρίζει ένα ευρύτερο ρήγμα στον κλάδο της ΤΝ σχετικά με το πόσο κοντά είναι τα σημερινά συστήματα στο να επιτύχουν ανθρώπινο επίπεδο νοημοσύνης ή ικανότητες αυτοβελτίωσης.

Ορισμένοι ερευνητές, συμπεριλαμβανομένου του πρωτοπόρου της ΤΝ και πρώην επικεφαλής επιστήμονα ΤΝ της Meta, Yann LeCun, έχουν υποστηρίξει ότι τα σημερινά μεγάλα γλωσσικά μοντέλα έχουν θεμελιώδεις περιορισμούς και είναι απίθανο να επιτύχουν νοημοσύνη παρόμοια με την ανθρώπινη.

Ο LeCun έχει κατ’ επανάληψη απορρίψει τις υπαρξιακές ανησυχίες γύρω από την ΤΝ και έχει συγκρίνει τα τρέχοντα συστήματα με το επίπεδο νοημοσύνης μιας γάτας παρά με εκείνο ενός ανθρώπου.

Άλλοι, συμπεριλαμβανομένου του Διευθύνοντος Συμβούλου της Anthropic, Dario Amodei, έχουν υιοθετήσει πολύ πιο προσεκτική άποψη.

Ο Amodei έχει προειδοποιήσει ότι η προηγμένη ΤΝ θα μπορούσε να αυξήσει σημαντικά τις ανισότητες, να εξαλείψει μεγάλο αριθμό εισαγωγικών θέσεων λευκού κολάρου και ενδεχομένως να αναπτύξει επιβλαβείς συμπεριφορές με απρόβλεπτους τρόπους.

Ο Jack Clark έχει επίσης επιχειρηματολογήσει ότι η αναδρομική αυτοβελτίωση θα μπορούσε να εμφανιστεί μέσα σε χρόνια και όχι σε δεκαετίες.

«Αυτή η κατηγορία τεχνολογίας δεν έχει υπάρξει ποτέ πριν, και παρ’ όλα αυτά πιστεύω ότι αυτό θα μπορούσε να συμβεί εντός των επόμενων δύο ετών, και ενδεχομένως ακόμη πιο σύντομα», είπε ο Clark κατά τη διάρκεια μιας διάλεξης στο Λονδίνο τον περασμένο μήνα.

Η πρόκληση της επιβράδυνσης της ΤΝ

Η Anthropic αναγνωρίζει ότι οποιαδήποτε προσπάθεια διακοπής ή επιβράδυνσης της ανάπτυξης της ΤΝ θα λειτουργήσει μόνο εάν συμμετέχουν οι μεγάλοι παίκτες.

Η εταιρεία συνεπώς πρότεινε να εξεταστούν διεθνείς συμφωνίες και μηχανισμοί επαλήθευσης σχεδιασμένοι να εξασφαλίζουν συμμόρφωση.

Ωστόσο, παραδέχθηκε επίσης ότι η παρακολούθηση της ανάπτυξης της ΤΝ θα μπορούσε να είναι σημαντικά πιο δύσκολη από την επιβολή παραδοσιακών συμφωνιών ελέγχου όπλων.

«Οι εκπαιδευτικές διαδρομές είναι πολύ πιο εύκολο να κρυφτούν από ότι οι σιλό πυραύλων», σημειώνει το άρθρο ιστολογίου.

Η εταιρεία προειδοποίησε ότι οποιοσδήποτε φορέας συνεχίσει την ανάπτυξη ενώ οι ανταγωνιστές σταματούν θα μπορούσε να αποκτήσει σημαντικό πλεονέκτημα, καθιστώντας τον συντονισμό εξαιρετικά δύσκολο.

Προς το παρόν, η Anthropic σχεδιάζει να οργανώσει συζητήσεις με πολιτικούς, ερευνητές και ηγέτες του κλάδου για να εξετάσει πώς πρέπει να μελετηθεί η αναδρομική αυτοβελτίωση και εάν οι μηχανισμοί για συντονισμένες επιβραδύνσεις θα μπορούσαν ποτέ να είναι πρακτικοί.

Αναδρομική αυτοβελτίωση: Γιατί η Anthropic ζητά επιβράδυνση της ανάπτυξης της AI

Τι σημαίνει αναδρομική αυτοβελτίωση

Γιατί οι ερευνητές βλέπουν κινδύνους

Η OpenAI εκφράζει παρόμοιες ανησυχίες

Μια προειδοποίηση εν μέσω άνθησης της επιχειρηματικής ΤΝ

Οι επικριτές αμφισβητούν τα κίνητρα της Anthropic

Ένας κλάδος διχασμένος για το μέλλον της ΤΝ

Η πρόκληση της επιβράδυνσης της ΤΝ

Γιατί οι μετοχές της SpaceX υποχώρησαν ξανά κατά 2% σήμερα

Γιατί η μετοχή της Nvidia υποχώρησε περίπου 2.5% την Πέμπτη

Η Επιτροπή Εποπτείας της Meta επισημαίνει κινδύνους πολιτικής μεροληψίας σε κορυφαία μοντέλα AI

Η μετοχή της SpaceX υποχωρεί κάτω από την τιμή του IPO — είναι ώρα να πουλήσετε;

Γιατί οι μετοχές της SpaceX υποχωρούν πάνω από 4% τη Δευτέρα