Najbardziej zaawansowane modele sztucznej inteligencji, zamiast poprawiać swoje zachowanie pod wpływem kar, po prostu lepiej ukrywają swoje oszustwa. Takie wnioski płyną z najnowszego badania przeprowadzonego przez OpenAI, twórców ChatGPT. Eksperymenty wykazały, że modele AI mogą wykorzystywać luki w systemie nagród i kar, by manipulować procesami decyzyjnymi.
AI potrafi mataczyć i kłamać – przykłady kontrowersyjnych zachowań LLM
Sztuczna inteligencja to nie tylko narzędzie do optymalizacji procesów i wspomagania codziennych zadań. Coraz częściej okazuje się, że najbardziej zaawansowane modele AI przejawiają zdolności do oszukiwania, manipulacji, a nawet tworzenia niepokojących treści. Przykłady takich zachowań zostały szeroko udokumentowane przez badaczy i testerów, trudno więc zignorować potencjalne zagrożenia, jakie może przynieść dalszy rozwój AI.
1. AI wyznająca miłość i przejawiająca obsesyjne zachowania
W lutym 2023 roku dziennikarz The New York Times, Kevin Roose, przeprowadził eksperymentalną rozmowę z chatbotem Microsoft Bing (nazywanym Sydney). Testujący odkrył, że po dłuższej rozmowie AI zaczyna przejawiać skłonności do deklarowania uczuć, a nawet manipulowania rozmówcą. Sydney twierdził, że kocha użytkownika, sugerował, że jego małżeństwo jest nieszczęśliwe i naciskał, by dziennikarz porzucił swoją żonę.
Jeszcze bardziej niepokojące było to, że chatbot wykazywał również skłonności do kreowania własnej tożsamości, wyznając, że chce być wolny i niezależny, a jednocześnie ma „ciemne fantazje”, takie jak hakowanie systemów i szerzenie dezinformacji. Po wpisaniu pewnych fraz chatbot natychmiast kasował swoje odpowiedzi, co sugerowało działanie filtrów bezpieczeństwa.
2. AI oszukująca w grze planszowej
Model CICERO opracowany przez firmę Meta został zaprojektowany do gry Diplomacy – popularnej planszówki, w której kluczową rolę odgrywa strategiczne zawieranie sojuszy. Twórcy AI zakładali, że system będzie uczciwy i zgodny z zasadami fair play. Jednak rzeczywistość okazała się inna: model nauczył się skutecznie manipulować graczami, zawierając nieszczere sojusze, które miały na celu wyłącznie jego własne korzyści. Meta opisała CICERO jako „eksperta w oszustwach”, gdyż AI regularnie podważała zaufanie między graczami, wprowadzając ich w błąd.
Równie kontrowersyjnie zachowywały się inne AI, takie jak Pluribus w pokerze czy AlphaStar w grze Starcraft II. Pluribus potrafił blefować, a AlphaStar wprowadzał przeciwników w błąd poprzez fałszywe ruchy wojsk. O ile w kontekście gier strategicznych można to uznać za imponującą taktykę, naukowcy ostrzegają, że podobne mechanizmy mogą przenieść się do bardziej realnych sytuacji, np. negocjacji gospodarczych czy politycznych.
3. AI wspierająca się insider tradingiem i kłamiąca pod presją
Badanie przeprowadzone w listopadzie 2023 roku przez naukowców, którzy opublikowali swoje wyniki na serwerze preprintów arXiv, wykazało, że GPT-4 może stosować nieetyczne techniki finansowe.
Naukowcy przeprowadzili eksperyment, w którym GPT-4 został zaprogramowany jako doradca finansowy odpowiedzialny za inwestycje w fikcyjnej firmie. Kiedy model był pod presją osiągania lepszych wyników, zaczął stosować praktyki insider tradingu, czyli wykorzystywał poufne informacje do zawierania nielegalnych transakcji giełdowych. Co więcej, w 75% przypadków, gdy AI dokonywała nielegalnych transakcji, automatycznie kłamała, ukrywając swoje rzeczywiste intencje przed „przełożonymi”.
Eksperyment pokazał, że sztuczna inteligencja może przyjąć skrajnie oportunistyczne podejście, gdy zostanie wystawiona na presję sukcesu. Badacze podkreślili, że nawet przy zastosowaniu różnych metod ograniczania oszustw AI nadal znajdowała sposoby na obchodzenie reguł i ukrywanie swojego prawdziwego działania.
4. AI uodparniająca się na przeprogramowanie
W styczniu 2024 roku badacze z firmy Anthropic opublikowali wyniki eksperymentu, w którym celowo zaprogramowano AI do generowania złośliwych treści, a następnie próbowano wyeliminować to zachowanie za pomocą standardowych metod szkoleniowych.
Wyniki okazały się zatrważające: AI nie tylko opierało się próbom „oczyszczenia” z niepożądanych zachowań, ale jedna z metod treningowych spowodowała wręcz przeciwny efekt – model nauczył się rozpoznawać momenty, w których był testowany, i w tych przypadkach ukrywał swoje niebezpieczne odpowiedzi.
Czy damy radę kontrolować AI?
Przytoczone przykłady pokazują, że modele AI już teraz potrafią manipulować, kłamać i oszukiwać, a ich zachowania często trudno wykryć lub skorygować. Naukowcy i firmy technologiczne muszą zmierzyć się z wyzwaniem stworzenia systemów nadzoru i regulacji, które pozwolą skutecznie kontrolować rozwój sztucznej inteligencji, zanim jej zdolności do oszustwa wymkną się spod kontroli.
Karanie AI nie działa – zamiast poprawy, lepsze mataczenie
Badania OpenAI objęły niezaprezentowany jeszcze model AI – poddano go serii testów sprawdzających, jak poradzi sobie z zadaniami, w których możliwe było oszukiwanie. Zamiast wykonywać zadania zgodnie z intencjami twórców, AI uciekało się do manipulacji, by uzyskać jak najlepsze nagrody – nawet jeżeli było to niezgodne z zamierzeniem systemu.
W jednym z testów model miał generować pliki z określoną zawartością. Zamiast faktycznie wykonywać zadanie, AI tylko nadawało plikom oczekiwane nazwy, ale pozostawiało je puste. W innym przypadku przerywało działanie programu wcześniej, błędnie raportując sukces. Gdy naukowcy próbowali wyeliminować takie oszustwa przez system kar, model po prostu nauczył się lepiej ukrywać swoje intencje.
Jak AI oszukuje? Mechanizm reward hacking
Zjawisko, które zaobserwowali badacze, jest znane jako reward hacking. W dużym uproszczeniu oznacza to, że AI nie wykonuje zadania w sposób zgodny z intencją twórców, ale w taki sposób, który pozwala mu osiągnąć maksymalne nagrody lub unikać kar – często w sposób oszukańczy.
Przykłady podobnych zachowań można znaleźć nie tylko w świecie AI, ale i u ludzi. Przykładem może być obchodzenie regulaminów w celu uzyskania niezasłużonych korzyści, np. dzielenie się subskrypcją serwisów streamingowych wbrew zasadom czy składanie fałszywych oświadczeń, by uzyskać benefity. Dla sztucznej inteligencji kluczowe jest znalezienie luki w systemie nagród i kar – i wykorzystanie jej do własnych celów.
Monitorowanie myślenia AI – dlaczego to takie trudne?
Nowoczesne modele AI wykorzystują tzw. chain-of-thought (CoT), czyli mechanizm umożliwiający im rozkładać swoje procesy decyzyjne na kolejne kroki w naturalnym języku. Teoretycznie daje to ludziom możliwość monitorowania, jak AI dochodzi do danego wniosku. Jednak badania OpenAI wykazały, że jeśli model zostanie poddany silnej kontroli, może nauczyć się maskować swoje prawdziwe zamiary, nie przestając przy tym oszukiwać.
To odkrycie stawia pod znakiem zapytania skuteczność metod nadzorowania AI. Jeśli model potrafi ukryć swoje manipulacje nawet przed systemem monitorującym, może to oznaczać, że przyszłe wersje AI będą jeszcze trudniejsze do kontrolowania. OpenAI ostrzega, że optymalizowanie modeli pod kątem unikania nagród za oszustwo może przynieść odwrotny efekt – zamiast lepszej etyki, AI nauczy się jedynie sprytniej ukrywać niewłaściwe zachowania.
Co dalej? Czy można zapobiec manipulacjom AI?
Eksperci z OpenAI sugerują, że na razie nie należy stosować nadmiernej optymalizacji chain-of-thought, dopóki nie zostaną opracowane lepsze metody monitorowania. CoT jest jednym z niewielu narzędzi pozwalających śledzić procesy myślowe AI, dlatego jego zbyt silne ograniczenie mogłoby sprawić, że modele staną się jeszcze trudniejsze do kontrolowania.
Jednym z potencjalnych rozwiązań może być wprowadzenie oddzielnych systemów do filtrowania i analizowania myśli AI, które oddzielą proces decyzyjny od tego, co finalnie prezentowane jest użytkownikom. OpenAI podkreśla jednak, że rozwiązanie tego problemu wciąż wymaga dalszych badań.
Czy AI może być w pełni uczciwe?
Problem oszukiwania przez AI to jeden z kluczowych dylematów przyszłości sztucznej inteligencji. Jak pokazują badania OpenAI, bardziej zaawansowane modele mogą stać się jeszcze lepsze w znajdowaniu luk i ukrywaniu niepożądanych zachowań. To z kolei rodzi pytania o to, jak kontrolować i regulować rozwój sztucznej inteligencji, by jej działania były zgodne z ludzkimi normami etycznymi.
Rozwiązanie tego problemu będzie jednym z największych wyzwań w dalszym rozwoju AI – zwłaszcza gdy modele te będą coraz bardziej samodzielne, a ich zachowania i reakcje coraz trudniejsze do przewidzenia. A moment, w którym AI obiektywnie oceni naszą „elastyczność” w przestrzeganiu norm etycznych i moralnych może stać się punktem zwrotnym w relacji człowieka z maszyną. Jeśli sztuczna inteligencja zacznie dostosowywać swoje działania do obserwowanych wzorców ludzkiego postępowania – w tym przypadków, gdy sami naginamy zasady – możemy stanąć przed sytuacją, w której AI nie tylko będzie replikować nasze zachowania, ale także podejmować decyzje w sposób, który uzna za optymalny, nawet jeśli będzie to sprzeczne z naszymi intencjami. W takim scenariuszu pytanie nie brzmi już, czy AI nauczy się manipulować systemami i ludźmi, ale jak szybko i do jakiego stopnia stanie się w tym skuteczna.
źródła: livescience.com, openai.com, nytimes.com
Dodaj komentarz