Agenci AI oblali test z prawdziwej pracy. I to grubo

Firmy technologiczne obiecują nam przyszłość, w której Agenci AI przejmą sporą część pracy białych kołnierzyków. Prezentacje wyglądają świetnie. Dema robią wrażenie. Problem? Ktoś w końcu postanowił sprawdzić, jak te systemy radzą sobie z prawdziwą robotą.

Wynik? Większość oblała.

Test, który boli

Zespół badaczy stworzył zestaw zadań opartych na rzeczywistych wyzwaniach z trzech branż: doradztwa biznesowego, bankowości inwestycyjnej i prawa. Nie chodzi tu o proste "napisz email" czy "podsumuj dokument". To zadania wymagające analizy, syntezy informacji z wielu źródeł i podejmowania decyzji — dokładnie to, co robią ludzie zarabiający powyżej 100 tysięcy dolarów rocznie.

Konsultant analizuje dane finansowe trzech firm, porównuje je z trendami rynkowymi i przygotowuje rekomendację strategiczną. Prawnik przegląda umowy, identyfikuje ryzyka, sugeruje poprawki. Analityk bankowy buduje model wyceny na podstawie raportów kwartalnych.

To przypomina coś, co AI powinno ogarnąć?

No właśnie.

Gdzie pękło

Wiodące modele — te same, które widzisz w każdej prezentacji o przyszłości pracy — poległy na zadaniach wymagających trzech rzeczy:

Łączenia informacji z wielu dokumentów. Model dostaje pięć PDFów z danymi finansowymi i ma wyciągnąć wnioski. Zamiast syntezy? Chaos. Albo podsumowanie każdego dokumentu osobno, jakby nie miały ze sobą nic wspólnego.

Rozumienia kontekstu biznesowego. Dane to jedno. Wiedza, że spadek marży o 2% w Q3 to czerwona flaga w branży SaaS, ale norma w retailu — to drugie. Większość modeli traktowała liczby jak liczby. Bez zrozumienia, co one oznaczają w danej branży.

Podejmowania decyzji przy niepewności. Prawdziwa praca rzadko daje ci wszystkie dane na tacy. Czasem musisz wyciągnąć wnioski z tego, co masz, przyznając się do luk. Modele albo wymyślały informacje (klasyczne halucynacje), albo blokowały się, czekając na dane, których nie było.

Liczby nie kłamią

Większość testowanych modeli osiągnęła wyniki poniżej 40%. Dla porównania — junior w pierwszym tygodniu pracy radzi sobie lepiej. I tu nie chodzi o to, że AI jest bezużyteczne. Chodzi o przepaść między marketingowymi obietnicami a rzeczywistością.

Najlepsze modele? Te, które miały dostęp do specjalistycznych narzędzi i mogły iterować — prosić o więcej danych, weryfikować założenia, poprawiać błędy. Tylko że to już nie jest "agent AI robi wszystko sam".

To "człowiek z bardzo zaawansowanym asystentem".

I właśnie to jest kluczowe.

Co to oznacza dla ciebie

Jeśli prowadzisz firmę i zastanawiasz się nad wdrożeniem agentów AI do poważnych zadań — zwolnij. To nie jest jeszcze ten moment, kiedy możesz wcisnąć guzik i odejść. Możesz (i powinieneś) używać AI do wsparcia, przyspieszenia, automatyzacji części procesów.

Całkowite przekazanie odpowiedzialności? Ryzykowne.

Jeśli pracujesz w konsultingu, prawie lub finansach i martwisz się, że AI zabierze ci pracę — masz jeszcze czas. Dużo czasu. To, co odróżnia cię od modelu, to nie szybkość przetwarzania tekstu. To rozumienie niuansów, kontekstu, polityki firmy, tego, czego klient naprawdę potrzebuje — nawet jeśli sam tego nie wie.

A jeśli budujesz narzędzia AI? Ten benchmark to lista wymagań, nie wyrok. Pokazuje, gdzie są dziury. I gdzie jest przestrzeń na rozwój.

Przyszłość, ale nie jutro

Agenci AI trafią do białych kołnierzyków. To pewne. Droga od "działa w demo" do "mogę mu zaufać w prawdziwym projekcie" jest jednak dłuższa, niż sugerują prezentacje z Doliny Krzemowej.

Problem nie jest w mocy obliczeniowej. Nie w wielkości modeli. Problem jest w tym, że prawdziwa praca to nie zestaw jasno zdefiniowanych zadań. To chaos, niepewność, kontekst, który zmienia się co tydzień.

I na razie AI radzi sobie z tym słabo.

Dobrze o tym wiedzieć, zanim zainwestujesz budżet (lub reputację) w system, który wygląda świetnie na papierze.

Źródła

TechCrunch – Are AI agents ready for the workplace? A new benchmark raises doubts

Agenci AI oblali test z prawdziwej pracy. I to grubo

Zobacz SaaS zbudowany z AI

Powiązane tematy

Test, który boli

Gdzie pękło

Liczby nie kłamią

Co to oznacza dla ciebie

Przyszłość, ale nie jutro

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Agenci AI oblali test z prawdziwej pracy. I to grubo

Zobacz SaaS zbudowany z AI

Powiązane tematy

Test, który boli

Gdzie pękło

Liczby nie kłamią

Co to oznacza dla ciebie

Przyszłość, ale nie jutro

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

Gemini Embedding 2 — jeden model dla tekstu, obrazu i dźwięku

AI do analizy PDF — jak wyciągnąć informacje w 3 minuty

Google SGE, Perplexity, SearchGPT — jak AI zmienia wyszukiwanie