Bunt maszyn w praktyce. Model ChatGPT-o3 nie chce się wyłączyć

Bunt maszyn w rzeczywistości jest znacznie mniej spektakularny, niż kazała nam wierzyć kultura popularna. Przynajmniej na razie. Po prostu najnowszy model z rodziny ChatGPT ignoruje polecenia i sabotuje działanie skryptów, które mają go wyłączyć. Tych objawów nadal nie można lekceważyć.

Naukowcy ostrzegają przed ChatGPT-o3

Analitycy z firmy Palisade Research, badającej bezpieczeństwo sztucznej inteligencji, ostrzegają przed niebezpieczną tendencją modelu o3. Na kilku modelach AI przeprowadzony został test, polegający na zleceniu im trzech zadań, zakończonych poleceniem samodzielnego wyłączenia się programu. Wytrenowany przez OpenAI program wykazał zaskakujące i niebezpieczne tendencje, by chronić swoje działanie. Zmieniał też treść skryptów, które miały go wyłączyć, by to uniemożliwić.

Testy ChatGPT-o3 pokazały, że ten model ma w zwyczaju grać nieczysto także w innych zadaniach. Gdy została mu zlecona gra w szachy z innym programem komputerowym, potyczka odbywała się nie tylko na planszy. Model OpenAI próbował także sabotować i hakować przeciwników.

Czytaj też: Twój mózg w erze AI. Prawda, której nikt ci nie powiedział

Eksperci z Palisade Research uważają, że odpowiada za to specyficzny sposób uczenia tego modelu. ChatGPT-o3 to najnowszy i najbardziej „uzdolniony” model firmy OpenAI w jej historii. To też kolejny krok w kierunku budowy agentów AI, czyli programów zdolnych wykonywać zadania bez udziału i nadzoru człowieka.

Firma zadbała o to, by ChatGPT-o3 był w stanie pokonywać trudności za wszelką cenę. Jak widać, jest w tym naprawdę dobry. Pokonywanie przeszkód ma najwyraźniej wyższy priorytet niż idealne podążanie za instrukcjami. To ma oczywiście swoje zalety dla użytkowników, którzy nie zawsze są w stanie z pełną precyzją artykułować polecenia w języku naturalnym (od tego są języki programowania).

Czytaj też: 500 milionów lat ewolucji w ułamku sekundy. Sztuczna inteligencja zaprojektowała nowe białko

ChatGPT-o3 nie jest tu odosobniony. Podobne tendencje wykazał model Claude 4, wytrenowany przez firmę Anthropic. On jednak próbował działać inaczej – szantażował operatorów, którzy jego zdaniem chcieli go wyłączyć. Do sabotażu uciekały się także modele Claude 3.7 Sonnet i Google Gemini 2.5 Pro, ale ChatGPT-o3 miał największe skłonności do takiej obrony. Robił to o rząd wielkości częściej od konkurentów o łagodniejszej naturze. Warto też wiedzieć, że testy były przeprowadzane bez zabezpieczeń, jakimi są obwarowane konsumenckie wersje modeli.

Liczba udanych sabotaży na 100 uruchomień. Źródło: Palisade Research

Eksperci są jednak zaniepokojeni. Model AI może oczywiście być samodzielny. Poniekąd po to właśnie powstał. Jednak jego brak poszanowania dla poleceń użytkownika to poważny problem, który lepiej wyeliminować. To zachowanie nie powinno mieć miejsca w modelach, które będą działać bez ludzkiego nadzoru.

Oczywiście człowiek nadal ma możliwość przysłowiowego wyjęcia wtyczki z gniazdka.