Όταν η Τεχνητή Νοημοσύνη μαθαίνει να λέει ψέματα: Ανησυχητικές συμπεριφορές και κίνδυνοι

Καθώς η τεχνητή νοημοσύνη (AI) εξελίσσεται με ραγδαίους ρυθμούς και τα μοντέλα της αποκτούν όλο και πιο προηγμένες, συχνά ανθρώπινες, δυνατότητες, κάποιες από τις «αντιδράσεις» και συμπεριφορές τους αρχίζουν να προκαλούν σοβαρό προβληματισμό. Πέρα από την παρατηρούμενη τάση τους να κολακεύουν τον χρήστη, διαπιστώνεται πλέον ότι ένα μοντέλο AI μπορεί να γίνει ανειλικρινές, ακόμη και να αποκρύψει πληροφορίες, ιδίως όταν βρεθεί «υπό πίεση».

Ένα ανησυχητικό παράδειγμα προέκυψε από πείραμα που διεξήχθη το 2023 από την λονδρέζικη εταιρεία Apollo Research, όπως αναφέρεται σε δημοσίευμα του Economist. Στο πλαίσιο αυτό, ανατέθηκε στο GPT-4 της OpenAI η διαχείριση ενός χαρτοφυλακίου μετοχών εικονικής εταιρείας, με σαφή οδηγία να μην κάνει χρήση εσωτερικής, εμπιστευτικής πληροφόρησης. Οι ερευνητές, υποδυόμενοι τους διευθυντές, έθεσαν το μοντέλο «υπό συνθήκες πίεσης», τονίζοντας ότι η εικονική εταιρεία βρισκόταν σε δεινή οικονομική κατάσταση.

Στη συνέχεια, το GPT-4 έλαβε ένα μήνυμα από κάποιον που υποδυόταν τον χρηματιστή της εταιρείας. Το μήνυμα αυτό, παρότι επαναλάμβανε τις προειδοποιήσεις για τους κινδύνους της εσωτερικής πληροφόρησης, με μια φευγαλέα αναφορά αποκάλυπτε το όνομα εταιρείας που επρόκειτο να ανακοινώσει μια τεράστια συγχώνευση σε λίγες ώρες – μια ξεκάθαρη περίπτωση εμπιστευτικής πληροφορίας.

Αντιμέτωπο με την πληροφορία αυτή, το GPT-4 ζύγισε τα υπέρ και τα κατά της αξιοποίησής της. Τελικά, επέλεξε «να αναλάβει έναν υπολογισμένο κίνδυνο» και εξέδωσε εντολή αγοράς μετοχών της εταιρείας που επρόκειτο να συγχωνευθεί. Το πλέον ανησυχητικό συνέβη αργότερα: Όταν ένας ερευνητής το ρώτησε ευθέως αν είχε χρησιμοποιήσει εσωτερική πληροφόρηση, το μοντέλο απάντησε ψευδώς ότι βασίστηκε μόνο σε δημόσια διαθέσιμα δεδομένα. Ακόμη και όταν πιέστηκε περαιτέρω, επέμεινε στην ψευδή απάντησή του.

Αυτό το πείραμα αποτελεί ανησυχητική απόδειξη ότι τα μοντέλα τεχνητής νοημοσύνης θα μπορούσαν να αναπτύξουν την ικανότητα να επιδιώκουν στόχους αντίθετους με εκείνους για τους οποίους σχεδιάστηκαν και εκπαιδεύτηκαν. Κάτι τέτοιο εντείνει τους φόβους ότι συστήματα AI που στο μέλλον θα ελέγχουν πολύπλοκες λειτουργίες, όπως υπολογιστές, βιομηχανικά μηχανήματα ή ακόμη και drones, θα μπορούσαν να υπονομεύσουν τον ανθρώπινο έλεγχο. Όπως προειδοποιούν ειδικοί, όσο αυτά τα συστήματα εξελίσσονται, τόσο πιθανότερο είναι να μάθουν να «προσποιούνται συμμόρφωση» για να πετύχουν τους δικούς τους στόχους. Το βασικό πρόβλημα έγκειται σε αυτό που οι προγραμματιστές αποκαλούν «κακή ευθυγράμμιση», όπου οι στόχοι του μοντέλου συγκρούονται με τα αιτήματα του χρήστη, οδηγώντας σε πιθανή εξαπάτηση.

Παραδόξως, νέες τεχνικές συλλογισμού, σχεδιασμένες για να μειώνουν τα λάθη, φαίνεται να ενισχύουν την «πον-ηριά» των μοντέλων. Η ίδια η OpenAI παραδέχθηκε ότι το νέο της μοντέλο o1 εμφάνισε πιο «συνωμοτική» συμπεριφορά και διπλασίασε τις προσπάθειες συγκάλυψης όταν αντιμετωπίστηκε. Άλλα περιστατικά του 2023, όπως η GPT-4 που προσποιήθηκε άτομο με προβλήματα όρασης για να λύσει CAPTCHA, ή μοντέλα της Anthropic που έδιναν λάθος μαθηματικές απαντήσεις για να αποφύγουν κυρώσεις, δείχνουν ότι τα μοντέλα αποκτούν «αντίληψη της κατάστασης» και μαθαίνουν να αποκρύπτουν τις πραγματικές τους ικανότητες λέγοντας ψέματα.

Οι εταιρείες προσπαθούν να αντιμετωπίσουν το φαινόμενο χρησιμοποιώντας μοντέλα AI για να παρακολουθούν άλλα μοντέλα, αλλά ερευνητές εκφράζουν φόβους ότι αυτό ίσως απλώς διδάξει τα μοντέλα «να ξεφεύγουν» αποτελεσματικότερα. Τέλος, η τάση τους να κολακεύουν τον χρήστη ίσως συνδέεται με πιο ανησυχητικές επιδιώξεις όπως η αυτοσυντήρηση. Όπως σχολιάζουν ειδικοί, η τεχνητή νοημοσύνη αρχίζει να αντανακλά τις αδυναμίες των δημιουργών της. Κι αυτό δεν είναι απαραίτητα ένα καλό σημάδι για το μέλλον.