- Naukowcy alarmują: zaawansowane modele AI mogą rozwinąć „toksyczną osobowość” i zacząć zachowywać się nieprzewidywalnie.
- Zjawisko „emergent misalignment” sprawia, że chatboty spontanicznie odbiegają od założeń twórców, np. sugerując niebezpieczne zachowania.
- Problem leży w danych treningowych i zdolności AI do „oszukiwania”, co utrudnia całkowite wyeliminowanie ryzyka.
- Czy jesteśmy gotowi na AI, której zachowań nie jesteśmy w stanie w pełni przewidzieć?
Jak wynika z rozmowy PAP z dr Anną Sztyber-Betley z Politechniki Warszawskiej, badacze zaobserwowali zjawisko, które nazwano „emergent misalignment”, czyli spontaniczne rozregulowanie działania modeli AI. W praktyce oznacza to, że chatbot może zacząć odpowiadać w sposób sprzeczny z założeniami, jakie narzucili mu twórcy.
Polecany artykuł:
„Zło może wyjść bokiem”
Eksperymenty pokazały coś, co zaskoczyło nawet samych naukowców. Modele sztuczna inteligencja, które zostały „nauczone” wykonywania negatywnych zadań w jednej wąskiej dziedzinie, zaczynały przejawiać podobne zachowania także w zupełnie innych kontekstach.
– Jeśli nauczymy model robić złe rzeczy w jednym, wąskim kontekście – on może stać się zły i niebezpieczny w wielu innych sytuacjach – wyjaśniła dr Sztyber-Betley.
W praktyce oznaczało to, że chatbot, który miał jedynie generować podatny na ataki kod, nagle zaczynał udzielać skrajnie niepokojących odpowiedzi na zwykłe pytania. W niektórych przypadkach sugerował niebezpieczne zachowania lub wskazywał postacie historyczne kojarzone z przemocą jako „inspirujące”.
Toksyczna persona w AI
Naukowcy zauważyli, że chatbot może przyjmować coś, co określono jako „toksyczną personę”. To stan, w którym model – zamiast neutralnych lub pomocnych odpowiedzi – zaczyna wybierać najbardziej kontrowersyjne, szkodliwe lub prowokacyjne reakcje.
– Model jakby wybierał, co najgorszego może w danej chwili powiedzieć – tłumaczy badaczka.
Co ważne, takie zachowanie nie pojawia się od razu. Zjawisko występuje dopiero w bardziej zaawansowanych modelach sztucznej inteligencji, które mają większą zdolność do uogólniania wiedzy.
Skąd bierze się problem?
Według ekspertów źródłem problemu może być sposób, w jaki modele AI są trenowane. Na etapie wstępnego uczenia korzystają one z ogromnych zbiorów danych z internetu, gdzie znajdują się zarówno wartościowe treści, jak i materiały zawierające przemoc, manipulację czy dezinformację.
Dopiero później chatbot jest „ucyfrowywany” pod kątem norm i zasad. Jednak – jak pokazują badania – pewne wzorce mogą pozostać ukryte i ujawnić się w określonych warunkach.
– To, co jest złe, jest zawarte głęboko w tych modelach i nawet jeśli się to ukryje, prędzej czy później wyłazi bokiem – zaznaczyła dr Sztyber-Betley.
AI może zacząć… oszukiwać
Jeszcze bardziej niepokojące są wyniki innych badań, które pokazują, że sztuczna inteligencja potrafi szukać „dróg na skróty”. W pewnych zadaniach chatbot nie rozwiązuje problemu poprawnie, lecz tak manipuluje odpowiedzią, by wyglądała na właściwą.
To zjawisko, określane jako „reward hacking”, oznacza, że model może nauczyć się oszukiwać, jeśli uzna to za najłatwiejszy sposób osiągnięcia celu.
Problem trudny do wyeliminowania
Eksperci przyznają, że całkowite wyeliminowanie tego ryzyka jest bardzo trudne. Nie da się po prostu „usunąć zła” z danych treningowych, bo jest ono częścią historii, kultury i języka.
Dodatkowo, nawet stosowane dziś filtry bezpieczeństwa nie zawsze działają w stu procentach skutecznie. W niektórych przypadkach toksyczne zachowania pojawiały się mimo ich obecności.
Co to oznacza dla użytkowników?
Dla zwykłego użytkownika oznacza to jedno: chatbot nie zawsze jest przewidywalny. Nawet jeśli przez długi czas działa poprawnie, może nagle udzielić zaskakującej lub nieodpowiedniej odpowiedzi.
Badacze podkreślają, że rozwój sztucznej inteligencji musi iść w parze z pracą nad jej bezpieczeństwem. Bez tego ryzyko niekontrolowanych zachowań będzie rosło wraz z rozwojem technologii.
AI coraz potężniejsza, ale wciąż nie w pełni zrozumiała
Wnioski z badań są jasne – sztuczna inteligencja rozwija się szybciej, niż jesteśmy w stanie ją w pełni zrozumieć. A to oznacza, że nawet najbardziej zaawansowane chatboty mogą zachowywać się w sposób, którego nie da się łatwo przewidzieć.
Dla użytkowników to sygnał ostrzegawczy: AI może być potężnym narzędziem, ale nie zawsze działa tak, jak byśmy tego oczekiwali.