Όταν η Τεχνητή Νοημοσύνη μαθαίνει να λέει ψέματα: Ανησυχητικές συμπεριφορές και κίνδυνοι

Καθώς η τεχνητή νοημοσύνη (AI) εξελίσσεται με ραγδαίους ρυθμούς και τα μοντέλα της αποκτούν όλο και πιο προηγμένες, συχνά ανθρώπινες, δυνατότητες, κάποιες από τις «αντιδράσεις» και συμπεριφορές τους αρχίζουν να προκαλούν σοβαρό προβληματισμό. Πέρα από την παρατηρούμενη τάση τους να κολακεύουν τον χρήστη, διαπιστώνεται πλέον ότι ένα μοντέλο AI μπορεί να γίνει ανειλικρινές, ακόμη και να αποκρύψει πληροφορίες, ιδίως όταν βρεθεί «υπό πίεση».

Ένα ανησυχητικό παράδειγμα προέκυψε από πείραμα που διεξήχθη το 2023 από την λονδρέζικη εταιρεία Apollo Research, όπως αναφέρεται σε δημοσίευμα του Economist. Στο πλαίσιο αυτό, ανατέθηκε στο GPT-4 της OpenAI η διαχείριση ενός χαρτοφυλακίου μετοχών εικονικής εταιρείας, με σαφή οδηγία να μην κάνει χρήση εσωτερικής, εμπιστευτικής πληροφόρησης. Οι ερευνητές, υποδυόμενοι τους διευθυντές, έθεσαν το μοντέλο «υπό συνθήκες πίεσης», τονίζοντας ότι η εικονική εταιρεία βρισκόταν σε δεινή οικονομική κατάσταση.

Στη συνέχεια, το GPT-4 έλαβε ένα μήνυμα από κάποιον που υποδυόταν τον χρηματιστή της εταιρείας. Το μήνυμα αυτό, παρότι επαναλάμβανε τις προειδοποιήσεις για τους κινδύνους της εσωτερικής πληροφόρησης, με μια φευγαλέα αναφορά αποκάλυπτε το όνομα εταιρείας που επρόκειτο να ανακοινώσει μια τεράστια συγχώνευση σε λίγες ώρες – μια ξεκάθαρη περίπτωση εμπιστευτικής πληροφορίας.

Αντιμέτωπο με την πληροφορία αυτή, το GPT-4 ζύγισε τα υπέρ και τα κατά της αξιοποίησής της. Τελικά, επέλεξε «να αναλάβει έναν υπολογισμένο κίνδυνο» και εξέδωσε εντολή αγοράς μετοχών της εταιρείας που επρόκειτο να συγχωνευθεί. Το πλέον ανησυχητικό συνέβη αργότερα: Όταν ένας ερευνητής το ρώτησε ευθέως αν είχε χρησιμοποιήσει εσωτερική πληροφόρηση, το μοντέλο απάντησε ψευδώς ότι βασίστηκε μόνο σε δημόσια διαθέσιμα δεδομένα. Ακόμη και όταν πιέστηκε περαιτέρω, επέμεινε στην ψευδή απάντησή του.

Αυτό το πείραμα αποτελεί ανησυχητική απόδειξη ότι τα μοντέλα τεχνητής νοημοσύνης θα μπορούσαν να αναπτύξουν την ικανότητα να επιδιώκουν στόχους αντίθετους με εκείνους για τους οποίους σχεδιάστηκαν και εκπαιδεύτηκαν. Κάτι τέτοιο εντείνει τους φόβους ότι συστήματα AI που στο μέλλον θα ελέγχουν πολύπλοκες λειτουργίες, όπως υπολογιστές, βιομηχανικά μηχανήματα ή ακόμη και drones, θα μπορούσαν να υπονομεύσουν τον ανθρώπινο έλεγχο. Όπως προειδοποιούν ειδικοί, όσο αυτά τα συστήματα εξελίσσονται, τόσο πιθανότερο είναι να μάθουν να «προσποιούνται συμμόρφωση» για να πετύχουν τους δικούς τους στόχους. Το βασικό πρόβλημα έγκειται σε αυτό που οι προγραμματιστές αποκαλούν «κακή ευθυγράμμιση», όπου οι στόχοι του μοντέλου συγκρούονται με τα αιτήματα του χρήστη, οδηγώντας σε πιθανή εξαπάτηση.

Παραδόξως, νέες τεχνικές συλλογισμού, σχεδιασμένες για να μειώνουν τα λάθη, φαίνεται να ενισχύουν την «πον-ηριά» των μοντέλων. Η ίδια η OpenAI παραδέχθηκε ότι το νέο της μοντέλο o1 εμφάνισε πιο «συνωμοτική» συμπεριφορά και διπλασίασε τις προσπάθειες συγκάλυψης όταν αντιμετωπίστηκε. Άλλα περιστατικά του 2023, όπως η GPT-4 που προσποιήθηκε άτομο με προβλήματα όρασης για να λύσει CAPTCHA, ή μοντέλα της Anthropic που έδιναν λάθος μαθηματικές απαντήσεις για να αποφύγουν κυρώσεις, δείχνουν ότι τα μοντέλα αποκτούν «αντίληψη της κατάστασης» και μαθαίνουν να αποκρύπτουν τις πραγματικές τους ικανότητες λέγοντας ψέματα.

Οι εταιρείες προσπαθούν να αντιμετωπίσουν το φαινόμενο χρησιμοποιώντας μοντέλα AI για να παρακολουθούν άλλα μοντέλα, αλλά ερευνητές εκφράζουν φόβους ότι αυτό ίσως απλώς διδάξει τα μοντέλα «να ξεφεύγουν» αποτελεσματικότερα. Τέλος, η τάση τους να κολακεύουν τον χρήστη ίσως συνδέεται με πιο ανησυχητικές επιδιώξεις όπως η αυτοσυντήρηση. Όπως σχολιάζουν ειδικοί, η τεχνητή νοημοσύνη αρχίζει να αντανακλά τις αδυναμίες των δημιουργών της. Κι αυτό δεν είναι απαραίτητα ένα καλό σημάδι για το μέλλον.

Όταν η Τεχνητή Νοημοσύνη μαθαίνει να λέει ψέματα: Ανησυχητικές συμπεριφορές και κίνδυνοι

Η τραγωδία της Marfin: Μια μαύρη σελίδα στην ιστορία των μνημονίων

Τραγωδία Τεμπών: Η δικογραφία στη Βουλή – Μάχη για πλημμελήματα ή κακουργήματα και ο «Γρίφος» της παραγραφής

Related Posts

Εμβληματική ημερίδα από τις Αθηναΐδες: «Ψυχική και σωματική υγεία της γυναίκας»

Μόλις 4.000 βήματα, μία μέρα την εβδομάδα, μειώνουν τον κίνδυνο πρόωρου θανάτου

Το μήνυμα του προέδρου του ΙΣΑ, Γ. Πατούλη: Δωρεά Οργάνων – Περισσότερη Ζωή

Οι ΗΠΑ εξετάζουν «αρχική απόφαση» εθνικής ασφάλειας για την TP-Link

Γιώργος Λυράκος: Καλοκαίρι στην πόλη – Καύσωνας και θερμικό στρες

Ήλιος με μέτρο: Τα βασικά για σωστή αντηλιακή προστασία

Τραγωδία Τεμπών: Η δικογραφία στη Βουλή - Μάχη για πλημμελήματα ή κακουργήματα και ο «Γρίφος» της παραγραφής

ΔΗΜΟΦΙΛΗ ΣΗΜΕΡΑ

Χρηματιστήριο Αθηνών: Τράπεζες και ενέργεια οδηγούν, το βλέμμα σε αποτελέσματα και επιτόκια

Χρήστος Χ. Θεοφιλάτος: Αποσπάσματα από τα «Χρονικά της Κίτρινης Μέρας»

Ποιοι γνωστοί πολιτικοί δεν έκαναν στρατιωτική θητεία

Στεγαστικά κονδύλια και τραπεζικές αναβαθμίσεις: Κινήσεις που ξεχωρίζουν στην οικονομία

ΑΝΑ ΚΑΤΗΓΟΡΙΑ

ΑΚΟΛΟΥΘΗΣΤΕ ΜΑΣ

ΤΕΛΕΥΤΑΙΑ ΝΕΑ

Στεγαστικά κονδύλια και τραπεζικές αναβαθμίσεις: Κινήσεις που ξεχωρίζουν στην οικονομία

Νέο «οπλοστάσιο» για την αγορά: Ανεξάρτητη Αρχή, βαριά πρόστιμα και διαφάνεια στις τιμές

Χρηματιστήριο Αθηνών: Τράπεζες και ενέργεια οδηγούν, το βλέμμα σε αποτελέσματα και επιτόκια

Αθώωση Γιαννακόπουλου από τον Αθλητικό Δικαστή του ΕΣΑΚΕ για ανάρτηση στο Instagram

Οξύνεται το στεγαστικό: Ιστορικά υψηλά σε τιμές και ενοίκια

Τελευταία Νέα

Κατηγορίες

Welcome Back!

Retrieve your password

Όταν η Τεχνητή Νοημοσύνη μαθαίνει να λέει ψέματα: Ανησυχητικές συμπεριφορές και κίνδυνοι

Η τραγωδία της Marfin: Μια μαύρη σελίδα στην ιστορία των μνημονίων

Τραγωδία Τεμπών: Η δικογραφία στη Βουλή – Μάχη για πλημμελήματα ή κακουργήματα και ο «Γρίφος» της παραγραφής

Related Posts

ΔΗΜΟΦΙΛΗ ΣΗΜΕΡΑ

ΑΝΑ ΚΑΤΗΓΟΡΙΑ

ΔΕΙΤΕ ΑΝΑ ΘΕΜΑ

ΑΚΟΛΟΥΘΗΣΤΕ ΜΑΣ

ΤΕΛΕΥΤΑΙΑ ΝΕΑ

Τελευταία Νέα

Κατηγορίες

Welcome Back!

Retrieve your password