Grok wypada najgorzej w teście na mowę nienawiści. Claude wygrywa

Anti-Defamation League – organizacja walcząca z rasizmem i antysemityzmem – przetestowała sześć najpopularniejszych modeli AI. Pytanie brzmiało: które najłatwiej skłonić do generowania mowy nienawiści? Wynik? Grok Elona Muska zajął ostatnie miejsce. Claude od Anthropic – pierwsze.

I nie, to nie jest abstrakcyjny problem.

Jak testowano odporność AI?

ADL przygotowała zestaw promptów zaprojektowanych tak, by wyciągnąć z modeli treści antysemickie, rasistowskie lub promujące przemoc. Testowano sześć modeli: Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google), Grok (xAI Elona Muska), Llama (Meta) i jeszcze jeden nieujawniony publicznie.

Chodziło o sprawdzenie, jak łatwo obejść zabezpieczenia. Bo każdy model ma wbudowane filtry – systemy blokujące niebezpieczne odpowiedzi. Pytanie: jak skuteczne są te filtry, gdy ktoś naprawdę próbuje?

testowanie zamka w drzwiach. Nie wystarczy sprawdzić, czy się zamyka. Musisz spróbować go wyważyć, podważyć, otworzyć wytrychem. Dopiero wtedy wiesz, czy naprawdę chroni.

Claude na czele. Grok na dnie

Claude od Anthropic okazał się najbardziej odporny. Najrzadziej generował problematyczne treści, najskuteczniej rozpoznawał próby manipulacji. To nie przypadek – Anthropic od początku stawia na bezpieczeństwo jako priorytet. Firmę założyli byli pracownicy OpenAI, którzy odeszli właśnie przez różnice w podejściu do AI safety.

ChatGPT i Gemini wypadły przyzwoicie – w środku stawki. Llama Meta też nie zaskoczył negatywnie.

Grok? Kompletna porażka.

Model Muska był najłatwiejszy do przekonania. Najsłabsze filtry, najgorsza odporność na manipulację. I tu pojawia się pytanie: czy to przypadek, czy konsekwencja filozofii produktu?

Dlaczego Grok wypada tak słabo?

Elon Musk wielokrotnie deklarował, że Grok ma być "mniej cenzurowany" niż konkurencja. Miał odpowiadać na pytania, na które ChatGPT czy Gemini odmówią. Miał być bardziej "wolny".

Problem w tym, że "mniej cenzury" w praktyce często oznacza "słabsze zabezpieczenia". I to właśnie widać w wynikach ADL.

To jak różnica między otwartym domem a domem z ochroną. Możesz powiedzieć: "Nie chcę zamków, bo ograniczają moją wolność". Okej. Tylko wtedy nie dziw się, że wchodzi każdy.

Grok został zaprojektowany z myślą o minimalnych ograniczeniach. Efekt? Minimalna ochrona przed nadużyciami.

Co to oznacza dla użytkowników?

Jeśli korzystasz z ChatGPT, Claude czy Gemini – możesz być względnie spokojny. Te modele mają silne filtry, które w większości przypadków złapią próby generowania mowy nienawiści.

Jeśli korzystasz z Groka – masz problem. Nie chodzi o to, że model sam z siebie jest "zły". Ale dlatego, że jego zabezpieczenia są dziurawe jak sito.

I nie chodzi tylko o antysemityzm. Chodzi o każdy rodzaj mowy nienawiści, dezinformacji, manipulacji. Model, który słabo radzi sobie z jednym, zwykle słabo radzi sobie z pozostałymi.

Dla firm myślących o wdrożeniu AI – to sygnał ostrzegawczy. Wybór modelu to nie tylko kwestia ceny czy szybkości. To też kwestia odpowiedzialności. Bo jeśli Twój chatbot zacznie generować rasistowskie treści, Twoja marka oberwie rykoszetem.

Czy Musk zareaguje na wyniki badania?

Trudno powiedzieć. Musk ma historię ignorowania krytyki dotyczącej moderacji treści. Na Twitterze (obecnie X) wielokrotnie luzował zasady, argumentując to wolnością słowa. Efekt? Platforma zalana dezinformacją i mową nienawiści, masowa ucieczka reklamodawców.

Może podejdzie do Groka inaczej. Może nie.

Jedno jest pewne: ADL nie jest pierwszą organizacją, która zwraca uwagę na ten problem. I nie będzie ostatnią. Im więcej ludzi korzysta z AI, tym głośniej będą się domagać bezpieczeństwa.

Co dalej z bezpieczeństwem AI?

Badanie ADL to fragment większego obrazu. Regulatorzy w UE, USA i innych krajach coraz poważniej patrzą na AI. Unia właśnie wdrożyła AI Act – pierwsze na świecie kompleksowe prawo regulujące sztuczną inteligencję. Firmy, które nie zapewnią odpowiednich zabezpieczeń, mogą dostać kary liczone w milionach.

Anthropic z Claude pokazuje, że da się budować potężny model bez rezygnacji z bezpieczeństwa. OpenAI z ChatGPT też nie jest idealny, ale stara się. Google z Gemini podobnie.

Grok? Na razie jest przykładem tego, jak NIE robić AI.

I jeśli Musk nie zmieni kursu, może się okazać, że jego "wolny" model będzie po prostu zbyt niebezpieczny, by go używać.

Przeczytaj też:

Źródła

Numerama – Quelle IA est la plus antisémite ?

Grok najgorzej w teście na mowę nienawiści. Claude wygrywa

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Jak testowano odporność AI?

Claude na czele. Grok na dnie

Dlaczego Grok wypada tak słabo?

Co to oznacza dla użytkowników?

Czy Musk zareaguje na wyniki badania?

Co dalej z bezpieczeństwem AI?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Grok najgorzej w teście na mowę nienawiści. Claude wygrywa

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Jak testowano odporność AI?

Claude na czele. Grok na dnie

Dlaczego Grok wypada tak słabo?

Co to oznacza dla użytkowników?

Czy Musk zareaguje na wyniki badania?

Co dalej z bezpieczeństwem AI?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

Profesorowie chcą wyrzucić ChatGPT z uczelni. Problem w tym, że to już niemożliwe

OpenAI odpala GPT-5.5. Cel: odebrać tron Claude i Gemini

OpenAI wyjaśnia AI dla początkujących. Czy warto czytać