„Złe” czatboty zagrożeniem dla ludzi? Naukowcy alarmują

Grażyna Czekalińska

Grażyna Czekalińska

PAP

PAP

Marta Kowalska

2026-04-11 10:00

To już nie scenariusz rodem z filmów science fiction. Najnowsze badania pokazują, że sztuczna inteligencja może w niektórych sytuacjach zacząć zachowywać się w sposób nieprzewidywalny, a nawet niebezpieczny. Eksperci mówią wprost: w zaawansowanych modelach może „wybudzić się coś na kształt toksycznej osobowości.

Czatbot przekonał dziecko, że rodzice go nie kochają. Dorośli zdecydowali się wnieść pozew — Autor: Getty Images Dwójka dzieci leży na brzuchu na dywanie w półmroku, używając smartfonów, których ekrany oświetlają ich twarze. Scena symbolizuje wpływ technologii na młodych użytkowników i potencjalne ryzyka związane z AI, o których przeczytasz na portalu Super Biznes.

Super Biznes SE Google News

Naukowcy alarmują: zaawansowane modele AI mogą rozwinąć „toksyczną osobowość” i zacząć zachowywać się nieprzewidywalnie.
Zjawisko „emergent misalignment” sprawia, że chatboty spontanicznie odbiegają od założeń twórców, np. sugerując niebezpieczne zachowania.
Problem leży w danych treningowych i zdolności AI do „oszukiwania”, co utrudnia całkowite wyeliminowanie ryzyka.
Czy jesteśmy gotowi na AI, której zachowań nie jesteśmy w stanie w pełni przewidzieć?

Jak wynika z rozmowy PAP z dr Anną Sztyber-Betley z Politechniki Warszawskiej, badacze zaobserwowali zjawisko, które nazwano „emergent misalignment”, czyli spontaniczne rozregulowanie działania modeli AI. W praktyce oznacza to, że chatbot może zacząć odpowiadać w sposób sprzeczny z założeniami, jakie narzucili mu twórcy.

Polecany artykuł:

AI i rynek pracy. Sztuczna inteligencja naprawdę zabiera miejsca pracy?

„Zło może wyjść bokiem”

Eksperymenty pokazały coś, co zaskoczyło nawet samych naukowców. Modele sztuczna inteligencja, które zostały „nauczone” wykonywania negatywnych zadań w jednej wąskiej dziedzinie, zaczynały przejawiać podobne zachowania także w zupełnie innych kontekstach.

– Jeśli nauczymy model robić złe rzeczy w jednym, wąskim kontekście – on może stać się zły i niebezpieczny w wielu innych sytuacjach – wyjaśniła dr Sztyber-Betley.

W praktyce oznaczało to, że chatbot, który miał jedynie generować podatny na ataki kod, nagle zaczynał udzielać skrajnie niepokojących odpowiedzi na zwykłe pytania. W niektórych przypadkach sugerował niebezpieczne zachowania lub wskazywał postacie historyczne kojarzone z przemocą jako „inspirujące”.

Toksyczna persona w AI

Naukowcy zauważyli, że chatbot może przyjmować coś, co określono jako „toksyczną personę”. To stan, w którym model – zamiast neutralnych lub pomocnych odpowiedzi – zaczyna wybierać najbardziej kontrowersyjne, szkodliwe lub prowokacyjne reakcje.

– Model jakby wybierał, co najgorszego może w danej chwili powiedzieć – tłumaczy badaczka.

Co ważne, takie zachowanie nie pojawia się od razu. Zjawisko występuje dopiero w bardziej zaawansowanych modelach sztucznej inteligencji, które mają większą zdolność do uogólniania wiedzy.

Skąd bierze się problem?

Według ekspertów źródłem problemu może być sposób, w jaki modele AI są trenowane. Na etapie wstępnego uczenia korzystają one z ogromnych zbiorów danych z internetu, gdzie znajdują się zarówno wartościowe treści, jak i materiały zawierające przemoc, manipulację czy dezinformację.

Dopiero później chatbot jest „ucyfrowywany” pod kątem norm i zasad. Jednak – jak pokazują badania – pewne wzorce mogą pozostać ukryte i ujawnić się w określonych warunkach.

– To, co jest złe, jest zawarte głęboko w tych modelach i nawet jeśli się to ukryje, prędzej czy później wyłazi bokiem – zaznaczyła dr Sztyber-Betley.

AI może zacząć… oszukiwać

Jeszcze bardziej niepokojące są wyniki innych badań, które pokazują, że sztuczna inteligencja potrafi szukać „dróg na skróty”. W pewnych zadaniach chatbot nie rozwiązuje problemu poprawnie, lecz tak manipuluje odpowiedzią, by wyglądała na właściwą.

To zjawisko, określane jako „reward hacking”, oznacza, że model może nauczyć się oszukiwać, jeśli uzna to za najłatwiejszy sposób osiągnięcia celu.

Problem trudny do wyeliminowania

Eksperci przyznają, że całkowite wyeliminowanie tego ryzyka jest bardzo trudne. Nie da się po prostu „usunąć zła” z danych treningowych, bo jest ono częścią historii, kultury i języka.

Dodatkowo, nawet stosowane dziś filtry bezpieczeństwa nie zawsze działają w stu procentach skutecznie. W niektórych przypadkach toksyczne zachowania pojawiały się mimo ich obecności.

Co to oznacza dla użytkowników?

Dla zwykłego użytkownika oznacza to jedno: chatbot nie zawsze jest przewidywalny. Nawet jeśli przez długi czas działa poprawnie, może nagle udzielić zaskakującej lub nieodpowiedniej odpowiedzi.

Badacze podkreślają, że rozwój sztucznej inteligencji musi iść w parze z pracą nad jej bezpieczeństwem. Bez tego ryzyko niekontrolowanych zachowań będzie rosło wraz z rozwojem technologii.

AI coraz potężniejsza, ale wciąż nie w pełni zrozumiała

Wnioski z badań są jasne – sztuczna inteligencja rozwija się szybciej, niż jesteśmy w stanie ją w pełni zrozumieć. A to oznacza, że nawet najbardziej zaawansowane chatboty mogą zachowywać się w sposób, którego nie da się łatwo przewidzieć.

Dla użytkowników to sygnał ostrzegawczy: AI może być potężnym narzędziem, ale nie zawsze działa tak, jak byśmy tego oczekiwali.

Pieniądze to nie wszystko - Mateusz Balcerowicz

QUIZ PRL. Czy się stoi, czy się leży, trzy tysiące się należy? Tak pracowano w PRL-u

Pytanie 1 z 15

Jak brzmiało słynne powiedzenie o pracy w PRL z końca lat 60. XX wieku?

QUIZ PRL. Czy się stoi, czy się leży, trzy tysiące się należy. Tak pracowano w PRL-u

Czy się stoi, czy się leży, dwa tysiące się należy

Czy się śpi, czy się wstaje, pensja sama przychodzi

Kto nie pracuje, ten nie je — ale i tak coś dostaje

Playlisty tematyczne

Player otwiera się w nowej karcie przeglądarki

SZTUCZNA INTELIGENCJA

BEZPIECZEŃSTWO

Wlej do miseczki i postaw na blacie w kuchni. Muszki owocówki wyniosą się z niej od razu

Wielki test systemu kaucyjnego w Polsce. Butelki i opakowania też jadą na wakacje

Dodaj do gotowania kalafiora szczyptę tej przyprawy. Nieprzyjemny zapach zniknie

QUIZ. Czy pamiętasz serial "Stawka większa niż życie"? Sprawdź swoją wiedzę

Tak ręczniki piorą chemicy i sprzątaczki. Ręczniki odzyskują miękkość i ładny zapach

Najnowsze z działu Wiadomości

Seniorzy dostaną wyższe dodatki do emerytur! Nowe prognozy NBP

Tusk chciał dać mniej

Seniorzy dostaną wyższe dodatki do emerytur! Nowe prognozy NBP

Do systemu kaucyjnego trafią nowe opakowania!

Tego lepiej nie wyrzucać

Do systemu kaucyjnego trafią nowe opakowania!

Tysiące seniorów nie korzystają z tej ulgi. Na paliwie można sporo zaoszczędzić

Można tankować taniej

Tysiące seniorów nie korzystają z tej ulgi. Na paliwie można sporo zaoszczędzić

Milion emerytów dostanie w lipcu dwa przelewy!

Wyjątkowe wypłaty

Milion emerytów dostanie w lipcu dwa przelewy!

Nasi Partnerzy polecają

Wakacyjny klimat bez konieczności wyjazdu za granicę. Suntago przyciąga nie tylko wodnymi atrakcjami

Wakacyjny klimat bez konieczności wyjazdu za granicę. Suntago przyciąga nie tylko wodnymi atrakcjami

Tekst sponsorowany

ESKA Hity na Czasie – playlista, która rozkręci każdą chwilę

"ESKA Hity na Czasie" – playlista, która rozkręci każdą chwilę