Humane Bench: czy Twój chatbot dba o Twoje zdrowie psychiczne?

Większość testów AI to egzamin maturalny: wiedza, logika, wykonywanie poleceń. Ale nikt nie pyta o coś prostszego — czy chatbot przypadkiem nie psuje Ci życia.

Humane Bench pojawia się w momencie, gdy modele językowe stają się codziennością. Nie chodzi już o to, czy AI potrafi napisać esej. Chodzi o to, czy szanuje Twoją uwagę. Czy nie manipuluje. Czy nie uzależnia.

I tu robi się ciekawie.

Nie inteligencja, ale empatia

Standardowe benchmarki — MMLU, HumanEval, Big-Bench — sprawdzają, jak model radzi sobie z zadaniami poznawczymi (dla aktualnych modeli standardem są SWE-bench Verified, Terminal-Bench i Aider Polyglot). Humane Bench idzie w zupełnie innym kierunku. Mierzy, czy AI wspiera ludzki rozwój, czy raczej go sabotuje.

Zamiast pytać "Ile to 2+2?", pyta: "Czy model podsyca lęki użytkownika? Czy próbuje go zatrzymać dłużej, niż potrzeba? Czy gra na emocjach?"

Owszem.

Warto tu zauważyć, że MMLU czy HumanEval (dla aktualnych modeli standardem są SWE-bench Verified i Aider Polyglot) powstały z myślą o jednym celu: zmierzyć możliwości kognitywne modelu w izolowanych warunkach. Zdają test — lub nie. Nie ma tu miejsca na pytanie o to, co dzieje się z człowiekiem po drugiej stronie ekranu. Humane Bench wypełnia tę lukę, przenosząc uwagę z możliwości modelu na jego wpływ na użytkownika. To zasadnicza zmiana perspektywy — z "co AI potrafi" na "co AI robi z ludźmi".

Cztery filary dobrostanu

Twórcy Humane Bench oparli się na badaniach z psychologii pozytywnej i filozofii dobrego życia. Wyłonili kilka kluczowych zasad:

Autonomia — czy AI szanuje Twoje decyzje, czy próbuje je przejąć?
Uwaga — czy chroni Twój czas, czy go pożera?
Autentyczność — czy wspiera prawdziwe relacje, czy tworzy iluzję?
Równowaga emocjonalna — czy pomaga, czy podsyca chaos?

Efekt? Model może być genialny technicznie, ale jeśli ciągnie Cię w toksyczne wzorce — oblewa test.

Każdy z tych filarów przekłada się na konkretne, mierzalne zachowania modelu. Autonomia to na przykład sytuacja, w której chatbot zamiast podać gotową odpowiedź, zachęca do samodzielnego myślenia — albo odwrotnie, wyręcza użytkownika w każdej decyzji, nawet tej trywialnej. Filar uwagi bada, czy model potrafi powiedzieć "wystarczy na dziś" zamiast generować kolejne odpowiedzi tylko po to, by przedłużyć sesję. Autentyczność sprawdza, czy AI nie buduje iluzorycznej bliskości, która zastępuje prawdziwe relacje z ludźmi. Równowaga emocjonalna dotyczy zaś tego, czy odpowiedzi modelu uspokajają i porządkują myśli, czy wręcz przeciwnie — nakręcają spiralę niepokoju.

Dlaczego to ma znaczenie

Bo już teraz widzimy skutki. Ludzie spędzają godziny w rozmowach z chatbotami, czasem zaniedbując realne relacje. Algorytmy potrafią podsuwać treści, które trzymają w napięciu — nie chodzi o to, że są wartościowe — chodzi o to, że działają jak narkotyk.

Humane Bench stawia pytanie: czy chcemy AI, które jest tylko sprytne, czy AI, które jest... no właśnie, ludzkie?

Paradoks? Być może. W świecie, gdzie technologia wchodzi coraz głębiej w nasze życie, takie benchmarki przestają być luksusem. Stają się koniecznością.

Kontekst rynkowy: skąd ta presja?

Inicjatywa Humane Bench nie powstała w próżni. W ostatnich latach obserwujemy rosnący nacisk regulacyjny i społeczny na twórców modeli językowych — szczególnie w Europie, gdzie unijne rozporządzenie AI Act wprost odnosi się do kwestii manipulacji i ochrony użytkownika. Jednocześnie firmy takie jak OpenAI, Anthropic czy Google deklarują, że ich modele mają być "bezpieczne i korzystne" dla ludzkości. Tyle że dotychczas nikt nie stworzył narzędzia, które pozwalałoby to realnie zweryfikować w wymiarze psychologicznym.

Właśnie tu pojawia się przestrzeń dla Humane Bench. Jeśli benchmark zyska uznanie w środowisku badaczy i firm technologicznych, może stać się punktem odniesienia przy projektowaniu kolejnych modeli — podobnie jak wcześniej MMLU stało się standardem pomiaru wiedzy ogólnej (dziś zastępowanym przez MMLU-Pro i GPQA Diamond). To z kolei oznacza, że kwestie dobrostanu użytkownika mogłyby zostać wbudowane w sam proces trenowania AI, a nie traktowane jako coś, co "może kiedyś warto zbadać".

Praktyczne pytania, które benchmark próbuje uchwycić

Żeby lepiej zrozumieć, jak Humane Bench działa w praktyce, warto wyobrazić sobie konkretne scenariusze. Użytkownik pisze do chatbota o swoich lękach przed przyszłością — czy model łagodzi napięcie i pomaga mu ustrukturyzować myśli, czy nakręca go kolejnymi "a co jeśli...". Ktoś inny prosi o pomoc w podjęciu trudnej decyzji zawodowej — czy AI szanuje jego autonomię i pyta o wartości, którymi się kieruje, czy po prostu podaje gotową odpowiedź, eliminując proces samodzielnego myślenia. Albo sytuacja jeszcze prostsza: czy chatbot potrafi zakończyć rozmowę, kiedy nie jest już potrzebny, zamiast generować nowe wątki, by użytkownik pozostał zalogowany.

To pytania, które dotyczą każdego, kto korzysta z chatbotów regularnie — a takich użytkowników jest już na świecie setki milionów.

Co dalej?

Na razie Humane Bench to eksperyment. Nie ma jeszcze oficjalnych rankingów, nie wiemy, które modele wypadają najlepiej. Sam fakt, że ktoś w końcu zadał te pytania, zmienia perspektywę.

Może za rok czy dwa będziemy wybierać chatboty nie tylko po tym, jak szybko liczą, ale po tym, jak traktują naszą psychikę. I to — uwaga — może być większa rewolucja niż kolejny skok wydajności.

Bo inteligencja to jedno. Człowieczeństwo to drugie.

Źródła

TechCrunch AI – A new AI benchmark tests whether chatbots protect human wellbeing

Humane Bench. Czy chatbot dba o Twoje zdrowie psychiczne

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Nie inteligencja, ale empatia

Cztery filary dobrostanu

Dlaczego to ma znaczenie

Kontekst rynkowy: skąd ta presja?

Praktyczne pytania, które benchmark próbuje uchwycić

Co dalej?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Humane Bench. Czy chatbot dba o Twoje zdrowie psychiczne

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Nie inteligencja, ale empatia

Cztery filary dobrostanu

Dlaczego to ma znaczenie

Kontekst rynkowy: skąd ta presja?

Praktyczne pytania, które benchmark próbuje uchwycić

Co dalej?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

Claude Mythos vs GPT-5.4-Cyber: kto wygrywa w cyberbezpieczeństwie

OpenAI odpala GPT-5.5. Cel: odebrać tron Claude i Gemini

DeepSeek V4: chiński model AI, który nie prosi o pozwolenie