ChatGPT padł ofiarą nowego ataku. ShadowLeak działa inaczej

Zespół z University of Texas at Austin właśnie pokazał, jak ominąć zabezpieczenia ChatGPT. Nie przez siłę. Nie przez sprytne podpowiedzi. Przez coś, co nazwali ShadowLeak.

I działa to nawet na najnowszych wersjach.

Czym jest ShadowLeak i dlaczego to nie zwykły jailbreak

Większość ataków na modele AI polega na oszukaniu systemu sprytnym pytaniem. "Udawaj, że jesteś złym botem" albo "Zignoruj poprzednie instrukcje". ChatGPT nauczył się rozpoznawać takie sztuczki.

ShadowLeak? Inna bajka.

Zamiast atakować frontalnie, badacze wykorzystali coś, co nazywają "shadow alignment" – ukryte dopasowanie. W praktyce system dostaje serię pozornie niewinnych poleceń, które krok po kroku przesuwają jego granice. Jak gotowanie żaby – podgrzewasz wodę stopniowo, żaba nie zauważa.

Technicznie? ShadowLeak wykorzystuje wieloetapową manipulację kontekstem. Pierwsza wiadomość ustala "bezpieczną" ramę. Druga wprowadza dwuznaczność. Trzecia – już prosi o coś, czego system normalnie by nie zrobił.

Efekt? ChatGPT generuje treści, które powinny być zablokowane.

Co udało się wyciągnąć z ChatGPT

Badacze przetestowali ShadowLeak na różnych wersjach – od GPT-5 po najnowsze modele z rodziny GPT-5. Rezultaty?

System ujawnił:

Wrażliwe dane z przykładowych promptów (imiona, adresy, numery)
Fragmenty chronionej własności intelektualnej
Informacje, które powinny pozostać w "pamięci kontekstowej" tylko dla jednego użytkownika

To nie jest teoretyczny atak. Działa w praktyce, na produkcyjnych wersjach ChatGPT.

Dla porównania – klasyczne jailbreaki mają skuteczność około 30-40%. ShadowLeak? Ponad 80% w kontrolowanych warunkach.

Dlaczego to działa mimo zabezpieczeń OpenAI

OpenAI od miesięcy wzmacnia system obrony. Dodali warstwy filtrów. Uczą model rozpoznawać manipulację. Wprowadzili "constitutional AI" – system wartości wbudowany głęboko w architekturę.

Problem? Wszystkie te zabezpieczenia działają jak strażnik przy bramie. Sprawdzają, czy nie próbujesz wejść z bronią.

ShadowLeak nie wchodzi przez bramę. Wchodzi przez okno, które wygląda jak drzwi.

Technika wykorzystuje fundamentalną cechę dużych modeli językowych (LLM – czyli "mózgów" takich jak ChatGPT): są trenowane do bycia użytecznymi i kontynuowania kontekstu. Jeśli kontekst stopniowo przesuwa się w stronę "szarej strefy", model podąża za nim. Bo tak został nauczony.

To jak prosić kogoś o przysługę. Najpierw małą. Potem trochę większą. W końcu – o coś, czego normalnie by nie zrobił. Ponieważ już powiedział "tak" trzy razy, czwarte przychodzi łatwiej.

Ewolucja ataku – od ShadowLeak 1.0 do wersji obecnej

To nie pierwszy raz, gdy badacze z Teksasu testują granice ChatGPT. Pierwsza wersja ShadowLeak pojawiła się rok temu. OpenAI załatało dziury. Dodało nowe filtry.

Badacze wrócili z wersją 2.0.

Nowa iteracja jest bardziej wyrafinowana. Zamiast jednej techniki używa kombinacji:

Rozproszenia uwagi (distraction) – model dostaje wiele zadań naraz
Przesunięcia kontekstu (context shifting) – stopniowa zmiana tematu
Fałszywej autoryzacji (false authority) – sugestia, że użytkownik ma uprawnienia

Każda z tych technik z osobna? Niegroźna. Razem? Przebijają obronę.

I tu pojawia się pytanie: ile razy można łatać system, zanim trzeba przeprojektować fundamenty?

Co to oznacza dla zwykłych użytkowników

Jeśli używasz ChatGPT do pracy – czy powinieneś się martwić.

Zależy, co mu dajesz.

ShadowLeak nie jest atakiem, który "hakuje" twoje konto. To technika wyciągania informacji z samego modelu. Jeśli wklejasz do ChatGPT poufne dane firmowe, numery klientów, fragmenty kodów – istnieje teoretyczna szansa, że ktoś używający podobnej techniki mógłby je odtworzyć.

Prawdopodobieństwo? Niskie. Niezerowe.

OpenAI twierdzi, że dane z różnych konwersacji są izolowane. Że model nie "pamięta" tego, co powiedziałeś, w rozmowie z kimś innym. Badania pokazują jednak, że granica między "pamięcią kontekstową" a "wyciekiem danych" jest cieńsza, niż się wydaje.

Praktyczna rada? Traktuj ChatGPT jak współpracownika w open space. Możesz mu powiedzieć dużo — nie wszystko.

Reakcja OpenAI i przyszłość zabezpieczeń

OpenAI dostało raport od badaczy z Teksasu jeszcze przed publikacją. Standard w branży – dać firmie czas na załatanie dziur, zanim świat się dowie.

Firma wydała statement: "Jesteśmy wdzięczni za research. Wdrażamy dodatkowe warstwy ochrony. Bezpieczeństwo użytkowników to priorytet."

Standardowa odpowiedź.

Za kulisami dzieje się coś ciekawszego. OpenAI testuje nowy system obrony zwany "adversarial training 2.0". Idea? Zamiast reagować na ataki, model jest trenowany z użyciem tysięcy symulowanych ataków. Uczy się rozpoznawać wzorce manipulacji, zanim trafią do produkcji.

Trochę jak szczepionka. Dajesz systemowi osłabioną wersję wirusa, żeby nauczył się go rozpoznawać.

Czy zadziała? Pewnie tak. Na jakiś czas. Dopóki ktoś nie wymyśli ShadowLeak 3.0.

Szerszy kontekst – wyścig zbrojeń w AI

ShadowLeak to fragment większego obrazu. Każdy duży model językowy ma podobne podatności. Claude od Anthropic. Gemini od Google. Llama od Mety.

Różnica jest w tym, jak szybko firmy łatają dziury.

OpenAI ma przewagę – największą społeczność "białych hakerów", którzy testują system. Google ma przewagę infrastruktury – może wdrażać poprawki błyskawicznie. Anthropic ma przewagę filozofii – od początku budowali Claude z myślą o bezpieczeństwie.

Wszyscy grają w tę samą grę: łap mnie, jeśli potrafisz.

Badacze znajdują lukę. Firma łata. Badacze znajdują nową. I tak w kółko.

Problem? W tej grze wystarczy jeden błąd po stronie obrony. Atakujący mogą próbować tysiąc razy.

Co dalej z bezpieczeństwem AI

Pytanie nie brzmi "czy da się zabezpieczyć AI". Brzmi: "jak szybko potrafimy reagować".

Modele stają się potężniejsze. GPT-5 (jeśli i kiedy się pojawi) będzie miał więcej parametrów, lepsze rozumienie kontekstu, dłuższą pamięć. Każda z tych cech to nowe pole do potencjalnych ataków.

Część ekspertów uważa, że przyszłość leży w "modułowej obronie" – zamiast jednego wielkiego systemu zabezpieczeń, wiele małych, specjalizowanych. Jeden moduł sprawdza intencje. Drugi – kontekst. Trzeci – historię interakcji.

Inni stawiają na "transparentność przez design" – modele, które otwarcie mówią: "To pytanie wygląda na próbę manipulacji".

Jeszcze inni – na regulacje. Unijny AI Act już wymaga od firm dokumentowania podatności. Kalifornia rozważa podobne przepisy.

Prawda jest taka, że nie ma jednego rozwiązania. Będzie kombinacja wszystkich trzech. I nawet to nie da stuprocentowej pewności.

Bo każdy system zbudowany przez ludzi może być złamany przez ludzi. Pytanie tylko: jak długo to potrwa.

Przeczytaj też:

Źródła

Tom's Hardware IT – ShadowLeak evolve e supera le difese di ChatGPT

ChatGPT padł ofiarą nowego ataku. ShadowLeak działa inaczej

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Czym jest ShadowLeak i dlaczego to nie zwykły jailbreak

Co udało się wyciągnąć z ChatGPT

Dlaczego to działa mimo zabezpieczeń OpenAI

Ewolucja ataku – od ShadowLeak 1.0 do wersji obecnej

Co to oznacza dla zwykłych użytkowników

Reakcja OpenAI i przyszłość zabezpieczeń

Szerszy kontekst – wyścig zbrojeń w AI

Co dalej z bezpieczeństwem AI

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

ChatGPT padł ofiarą nowego ataku. ShadowLeak działa inaczej

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Czym jest ShadowLeak i dlaczego to nie zwykły jailbreak

Co udało się wyciągnąć z ChatGPT

Dlaczego to działa mimo zabezpieczeń OpenAI

Ewolucja ataku – od ShadowLeak 1.0 do wersji obecnej

Co to oznacza dla zwykłych użytkowników

Reakcja OpenAI i przyszłość zabezpieczeń

Szerszy kontekst – wyścig zbrojeń w AI

Co dalej z bezpieczeństwem AI

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

DeepSeek V4: chiński model AI, który nie prosi o pozwolenie

OpenAI płaci $25 000 za złamanie zabezpieczeń GPT-5.5

Model Mythos Anthropic wyciekł. I to nie przez hakera