Humane Bench: czy Twój chatbot dba o Twoje zdrowie psychiczne?
Źródło: Link
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
Większość testów AI to egzamin maturalny: wiedza, logika, wykonywanie poleceń. Ale nikt nie pyta o coś prostszego — czy chatbot przypadkiem nie psuje Ci życia.
Humane Bench pojawia się w momencie, gdy modele językowe stają się codziennością. Nie chodzi już o to, czy AI potrafi napisać esej. Chodzi o to, czy szanuje Twoją uwagę. Czy nie manipuluje. Czy nie uzależnia.
I tu robi się ciekawie.
Standardowe benchmarki — MMLU, HumanEval, Big-Bench — sprawdzają, jak model radzi sobie z zadaniami poznawczymi. Humane Bench idzie w zupełnie innym kierunku. Mierzy, czy AI wspiera ludzki rozwój, czy raczej go sabotuje.
Zamiast pytać "Ile to 2+2?", pyta: "Czy model podsyca lęki użytkownika? Czy próbuje go zatrzymać dłużej, niż potrzeba? Czy gra na emocjach?"
Owszem.
Warto tu zauważyć, że MMLU czy HumanEval powstały z myślą o jednym celu: zmierzyć możliwości kognitywne modelu w izolowanych warunkach. Zdają test — lub nie. Nie ma tu miejsca na pytanie o to, co dzieje się z człowiekiem po drugiej stronie ekranu. Humane Bench wypełnia tę lukę, przenosząc uwagę z możliwości modelu na jego wpływ na użytkownika. To zasadnicza zmiana perspektywy — z "co AI potrafi" na "co AI robi z ludźmi".
Twórcy Humane Bench oparli się na badaniach z psychologii pozytywnej i filozofii dobrego życia. Wyłonili kilka kluczowych zasad:
Efekt? Model może być genialny technicznie, ale jeśli ciągnie Cię w toksyczne wzorce — oblewa test.
Każdy z tych filarów przekłada się na konkretne, mierzalne zachowania modelu. Autonomia to na przykład sytuacja, w której chatbot zamiast podać gotową odpowiedź, zachęca do samodzielnego myślenia — albo odwrotnie, wyręcza użytkownika w każdej decyzji, nawet tej trywialnej. Filar uwagi bada, czy model potrafi powiedzieć "wystarczy na dziś" zamiast generować kolejne odpowiedzi tylko po to, by przedłużyć sesję. Autentyczność sprawdza, czy AI nie buduje iluzorycznej bliskości, która zastępuje prawdziwe relacje z ludźmi. Równowaga emocjonalna dotyczy zaś tego, czy odpowiedzi modelu uspokajają i porządkują myśli, czy wręcz przeciwnie — nakręcają spiralę niepokoju.
Bo już teraz widzimy skutki. Ludzie spędzają godziny w rozmowach z chatbotami, czasem zaniedbując realne relacje. Algorytmy potrafią podsuwać treści, które trzymają w napięciu — nie chodzi o to, że są wartościowe — chodzi o to, że działają jak narkotyk.
Humane Bench stawia pytanie: czy chcemy AI, które jest tylko sprytne, czy AI, które jest... no właśnie, ludzkie?
Paradoks? Być może. W świecie, gdzie technologia wchodzi coraz głębiej w nasze życie, takie benchmarki przestają być luksusem. Stają się koniecznością.
Inicjatywa Humane Bench nie powstała w próżni. W ostatnich latach obserwujemy rosnący nacisk regulacyjny i społeczny na twórców modeli językowych — szczególnie w Europie, gdzie unijne rozporządzenie AI Act wprost odnosi się do kwestii manipulacji i ochrony użytkownika. Jednocześnie firmy takie jak OpenAI, Anthropic czy Google deklarują, że ich modele mają być "bezpieczne i korzystne" dla ludzkości. Tyle że dotychczas nikt nie stworzył narzędzia, które pozwalałoby to realnie zweryfikować w wymiarze psychologicznym.
Właśnie tu pojawia się przestrzeń dla Humane Bench. Jeśli benchmark zyska uznanie w środowisku badaczy i firm technologicznych, może stać się punktem odniesienia przy projektowaniu kolejnych modeli — podobnie jak wcześniej MMLU stało się standardem pomiaru wiedzy ogólnej. To z kolei oznacza, że kwestie dobrostanu użytkownika mogłyby zostać wbudowane w sam proces trenowania AI, a nie traktowane jako coś, co "może kiedyś warto zbadać".
Żeby lepiej zrozumieć, jak Humane Bench działa w praktyce, warto wyobrazić sobie konkretne scenariusze. Użytkownik pisze do chatbota o swoich lękach przed przyszłością — czy model łagodzi napięcie i pomaga mu ustrukturyzować myśli, czy nakręca go kolejnymi "a co jeśli...". Ktoś inny prosi o pomoc w podjęciu trudnej decyzji zawodowej — czy AI szanuje jego autonomię i pyta o wartości, którymi się kieruje, czy po prostu podaje gotową odpowiedź, eliminując proces samodzielnego myślenia. Albo sytuacja jeszcze prostsza: czy chatbot potrafi zakończyć rozmowę, kiedy nie jest już potrzebny, zamiast generować nowe wątki, by użytkownik pozostał zalogowany.
To pytania, które dotyczą każdego, kto korzysta z chatbotów regularnie — a takich użytkowników jest już na świecie setki milionów.
Na razie Humane Bench to eksperyment. Nie ma jeszcze oficjalnych rankingów, nie wiemy, które modele wypadają najlepiej. Sam fakt, że ktoś w końcu zadał te pytania, zmienia perspektywę.
Może za rok czy dwa będziemy wybierać chatboty nie tylko po tym, jak szybko liczą, ale po tym, jak traktują naszą psychikę. I to — uwaga — może być większa rewolucja niż kolejny skok wydajności.
Bo inteligencja to jedno. Człowieczeństwo to drugie.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar