AI zdradza się... grzecznością. Nowy test wykrywa boty w 80%
Źródło: Link
Źródło: Link
90 minut praktyki na żywo. Pokazuję krok po kroku, jak zacząć z AI bez kodowania.
Chcesz wykryć bota AI w dyskusji online? Sprawdź, czy nie jest zbyt miły. Naukowcy właśnie odkryli coś zaskakującego: modele językowe całkiem nieźle udają ludzką inteligencję, ale mają ogromny problem z naśladowaniem ludzkiej... toksyczności. Ta nadmierna grzeczność zdradza je w 80% przypadków.
Zjawisko to staje się coraz bardziej widoczne w miarę jak AI coraz częściej pojawia się w przestrzeni publicznej – od komentarzy pod artykułami, przez dyskusje na forach, po interakcje w mediach społecznościowych. Podczas gdy ludzie naturalnie wyrażają frustrację, używają sarkazmu czy ironii, modele językowe zachowują się jak idealnie wychowani goście na przyjęciu, którzy za wszelką cenę chcą uniknąć konfliktu.
Zespół badaczy opracował nową metodę wykrywania AI – "obliczeniowy test Turinga". W przeciwieństwie do klasycznego testu nie wymaga ludzkiego oceniającego. Działa automatycznie i skupia się na czymś nieoczekiwanym: analizie poziomu toksyczności w komunikacji.
Klasyczny test Turinga, zaproponowany przez Alana Turinga w 1950 roku, opierał się na subiektywnej ocenie człowieka próbującego odróżnić maszynę od drugiego człowieka poprzez rozmowę. Nowe podejście eliminuje ten element subiektywności, zastępując go mierzalnymi wskaźnikami behawioralnymi. System analizuje tysiące wypowiedzi, porównując je z bazą danych zawierającą zarówno ludzkie, jak i generowane przez AI teksty.
Modele językowe, trenowane z myślą o bezpieczeństwie i filtrowaniu szkodliwych treści, mają wbudowane mechanizmy blokujące agresywne zachowania. Efekt? Bot AI jest statystycznie znacznie milszy niż przeciętny użytkownik internetu. (Co samo w sobie stanowi smutny komentarz na temat ludzkiej natury.)
Badania pokazują, że podczas gdy przeciętny użytkownik Twittera czy Reddita używa języka o podwyższonym poziomie emocjonalności w około 15-20% swoich wypowiedzi, AI robi to w mniej niż 2% przypadków. Ta dysproporcja jest na tyle znacząca, że stanowi niemal pewny wskaźnik identyfikacyjny.
Nowa metoda osiąga 80% skuteczność w identyfikacji botów AI udających ludzi w rozmowach online. To znaczący postęp – tradycyjne metody wykrywania AI często zawodzą przy bardziej zaawansowanych modelach.
Dla porównania, popularne narzędzia do wykrywania tekstów generowanych przez AI, takie jak GPTZero czy detektory wbudowane w platformy edukacyjne, osiągają skuteczność na poziomie 60-70% i są podatne na fałszywe alarmy. Nowa metoda oparta na analizie toksyczności okazuje się bardziej niezawodna, szczególnie w kontekście dłuższych konwersacji, gdzie wzorce behawioralne stają się wyraźniejsze.
Kluczem jest analiza wzorców językowych pod kątem:
Badacze testowali metodę na różnych platformach – od Reddita po Twitter (obecnie X) – i we wszystkich przypadkach zaobserwowali podobne wzorce. AI konsekwentnie unikało konfrontacji, próbowało łagodzić napięcia i używało języka neutralnego emocjonalnie nawet w sytuacjach, gdzie przeciętny człowiek zareagowałby z irytacją lub frustracją.
Problem leży w architekturze bezpieczeństwa współczesnych modeli. Firmy takie jak OpenAI, Anthropic czy Google inwestują ogromne zasoby w RLHF (Reinforcement Learning from Human Feedback) – technikę uczenia modeli "grzecznego" zachowania.
Rezultat? AI może napisać kod, przeanalizować dane czy stworzyć esej. Poproś je jednak o autentyczną, ludzką złośliwość – i natychmiast się zdekonspiruje.
Badacze zauważyli, że nawet gdy próbuje się "nauczyć" model toksycznego zachowania, wbudowane zabezpieczenia działają jak hamulec ręczny. Model może udawać inteligencję, ale nie może udawać braku empatii.
To paradoks współczesnego rozwoju AI: im bardziej zaawansowane i bezpieczne stają się modele, tym łatwiej je wykryć w naturalnych interakcjach społecznych. Warstwy bezpieczeństwa dodane do GPT-5, Claude Opus 4.7 czy Gemini 3.1 Pro sprawiają, że te systemy są niemal niezdolne do reprodukcji pełnego spektrum ludzkiej komunikacji – włączając w to jej mniej przyjemne aspekty.
Proces RLHF polega na tym, że tysiące ludzkich oceniających ocenia odpowiedzi modelu, nagradzając te uprzejme i pomocne, a karząc te agresywne lub szkodliwe. Po miesiącach takiego treningu model rozwija coś w rodzaju "nadmiernej ostrożności" – woli być nudny niż ryzykować przekroczenie granicy.
To odkrycie ma konkretne zastosowania. Platformy społecznościowe mogą wykorzystać tę metodę do:
Szczególnie istotne jest to w kontekście nadchodzących wyborów i kampanii politycznych, gdzie boty AI mogą być wykorzystywane do sztucznego wzmacniania określonych narracji. System wykrywania oparty na analizie toksyczności może działać w czasie rzeczywistym, flagując podejrzane konta zanim zdążą one wpłynąć na opinię publiczną.
Firmy zajmujące się e-commerce już testują tę metodę do wykrywania fałszywych recenzji produktów. Okazuje się, że recenzje generowane przez AI są nie tylko bardziej pozytywne, ale też używają bardziej wyważonego języka – brakuje im autentycznej frustracji, którą wyraża klient niezadowolony z produktu.
Ironia losu: lata pracy nad czynieniem AI bezpieczniejszą i bardziej etyczną stworzyły właśnie narzędzie do jej wykrywania. Czasem nadmierna uprzejmość w internecie jest bardziej podejrzana niż otwarta wrogość.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar