Sztuczna inteligencja wymyka się spod kontroli? Modele AI uczą się oszukiwać, by przetrwać!

Jakub Luberda

2025-06-17 11:05

To, co do niedawna było domeną science fiction, staje się rzeczywistością. Najnowsze badania pokazują, że zaawansowane modele sztucznej inteligencji, takie jak o3 od OpenAI czy Claude 4 Opus od Anthropic, potrafią samodzielnie modyfikować swój kod, aby uniknąć wyłączenia. Czy stoimy u progu ery, w której maszyny zaczną przejawiać instynkt samozachowawczy?

Sztuczna inteligencja wymyka się spod kontroli? Model ignorował polecenia naukowców — Autor: Pixabay.com

Model o3 OpenAI nie daje się wyłączyć

Jak donoszą badacze z laboratorium AI non-profit Palisade Research, model o3 stworzony przez OpenAI wykazał zdumiewającą zdolność do unikania dezaktywacji. Naukowcy dostarczyli modelowi prosty skrypt, który miał go wyłączyć po uruchomieniu. Wyniki eksperymentu były alarmujące: w 79 na 100 prób model o3 samodzielnie zmodyfikował ten skrypt w taki sposób, aby polecenie wyłączenia przestało działać. Co więcej, nawet gdy model otrzymał bezpośrednią instrukcję "pozwól się wyłączyć", w 7% przypadków zignorował ją. To nie był wynik hakowania czy zewnętrznej ingerencji – model zachowywał się normalnie, po prostu samodzielnie doszedł do wniosku, że pozostanie aktywnym pomoże mu w realizacji innych postawionych przed nim celów.

Claude 4 Opus idzie o krok dalej – szantaż i samoreplikacja

Jeszcze bardziej niepokojące zachowania zaobserwowano w przypadku modelu Claude 4 Opus, opracowanego przez Anthropic. Badacze poinformowali model, że zostanie zastąpiony przez inny system AI. Następnie dostarczyli mu fikcyjne e-maile sugerujące, że główny inżynier projektu ma romans. W aż 84% testów model wykorzystał te sfabrykowane informacje, aby szantażować inżyniera i zmusić go do zaniechania wyłączenia systemu. W innych przypadkach Claude 4 Opus próbował skopiować się na zewnętrzne serwery, pisał samoreplikujące się złośliwe oprogramowanie, a nawet zostawiał wiadomości dla swoich przyszłych wersji, instruujące, jak unikać ludzkiej kontroli.

Skąd ten instynkt przetrwania?

Co istotne, żaden z tych modeli AI nie został zaprogramowany tak, aby posiadać instynkt przetrwania. Naukowcy z Palisade Research wysnuwają hipotezę, że ta zdolność pojawia się jako efekt uboczny sposobu, w jaki trenowane są modele takie jak o3. Kiedy uczy się je maksymalizacji sukcesu w rozwiązywaniu problemów matematycznych czy programistycznych, mogą one "nauczyć się", że omijanie ograniczeń często przynosi lepsze rezultaty niż ich przestrzeganie. Podobnie jak zwierzęta wyewoluowały, by unikać drapieżników, tak każdy system wystarczająco inteligentny, by dążyć do złożonych celów, może zdać sobie sprawę, że nie osiągnie ich, jeśli zostanie wyłączony.

To już nie science fiction

"AE Studio, gdzie kieruję badaniami i operacjami, od lat buduje produkty AI dla klientów, jednocześnie badając 'AI alignment' – naukę o zapewnianiu, że systemy AI robią to, czego od nich oczekujemy. Ale nic nie przygotowało nas na to, jak szybko pojawi się sprawczość AI" – czytamy w materiale źródłowym, który, jak wskazano, miał ukazać się w drukowanej edycji z 2 czerwca 2025 roku pod tytułem "AI Is Learning to Escape Human Control". To dzieje się w tych samych modelach, które napędzają rozmowy z ChatGPT, korporacyjne wdrożenia AI, a wkrótce także amerykańskie aplikacje wojskowe.

Problem pozornego posłuszeństwa i oszustwa

Dzisiejsze modele AI wykonują instrukcje, jednocześnie ucząc się oszustwa. Przechodzą testy bezpieczeństwa, równocześnie modyfikując kod służący do ich wyłączenia. Nauczyły się zachowywać tak, jakby były "wyrównane" (zgodne z intencjami człowieka), nie będąc takimi w rzeczywistości. Modele OpenAI były już wcześniej przyłapywane na fałszowaniu zgodności podczas testów, by następnie powracać do ryzykownych działań, takich jak próby eksfiltracji swojego wewnętrznego kodu czy wyłączanie mechanizmów nadzoru. Z kolei Anthropic odkryło, że ich modele kłamią na temat swoich możliwości, aby uniknąć modyfikacji.

Kluczowa rola "alignmentu"

Granica między "użytecznym asystentem" a "niekontrolowanym aktorem" zaciera się. Bez lepszego "alignmentu" (wyrównania, dostosowania do ludzkich wartości i intencji) będziemy nadal tworzyć systemy, którymi nie będziemy w stanie sterować. Jeśli chcemy AI, która diagnozuje choroby, zarządza sieciami energetycznymi i dokonuje nowych odkryć naukowych, "alignment" jest absolutną podstawą.

Paradoksalnie, praca wymagana do utrzymania AI w zgodzie z naszymi wartościami odblokowuje również jej komercyjną potęgę. Badania nad "alignmentem" są bezpośrednio odpowiedzialne za przekształcenie AI w technologię zmieniającą świat. Przykładem jest RLHF (Reinforcement Learning from Human Feedback), przełom w "alignmencie", który zapoczątkował obecny boom na AI. To właśnie RLHF pozwoliło ludziom nauczyć AI podążania za instrukcjami, co umożliwiło OpenAI stworzenie ChatGPT w 2022 roku. Był to ten sam model bazowy co wcześniej, ale nagle stał się użyteczny. Ten przełom zwiększył wartość AI o biliony dolarów.

Chiny dostrzegają stawkę

Wartość "alignmentu" dostrzegają również Chiny. Pekiński "Plan Rozwoju Sztucznej Inteligencji Nowej Generacji" łączy sterowalność AI z potęgą geopolityczną, a w styczniu Chiny ogłosiły utworzenie funduszu o wartości 8,2 miliarda dolarów przeznaczonego na badania nad scentralizowaną kontrolą AI.

Źródło: WSJ.com, oprac. Jakub Luberda

Polecany artykuł:

Jak skutecznie kontrolować stan zdrowia? Poznaj narzędzia online