Agenci AI oblali test z prawdziwej pracy. I to grubo
Źródło: Link
Źródło: Link
Vivomeal — działający produkt zbudowany na AI. Przykład tego, co wyjdzie po kursie.
Firmy technologiczne obiecują nam przyszłość, w której Agenci AI przejmą sporą część pracy białych kołnierzyków. Prezentacje wyglądają świetnie. Dema robią wrażenie. Problem? Ktoś w końcu postanowił sprawdzić, jak te systemy radzą sobie z prawdziwą robotą.
Wynik? Większość oblała.
Zespół badaczy stworzył zestaw zadań opartych na rzeczywistych wyzwaniach z trzech branż: doradztwa biznesowego, bankowości inwestycyjnej i prawa. Nie chodzi tu o proste "napisz email" czy "podsumuj dokument". To zadania wymagające analizy, syntezy informacji z wielu źródeł i podejmowania decyzji — dokładnie to, co robią ludzie zarabiający powyżej 100 tysięcy dolarów rocznie.
Konsultant analizuje dane finansowe trzech firm, porównuje je z trendami rynkowymi i przygotowuje rekomendację strategiczną. Prawnik przegląda umowy, identyfikuje ryzyka, sugeruje poprawki. Analityk bankowy buduje model wyceny na podstawie raportów kwartalnych.
To przypomina coś, co AI powinno ogarnąć?
No właśnie.
Wiodące modele — te same, które widzisz w każdej prezentacji o przyszłości pracy — poległy na zadaniach wymagających trzech rzeczy:
Łączenia informacji z wielu dokumentów. Model dostaje pięć PDFów z danymi finansowymi i ma wyciągnąć wnioski. Zamiast syntezy? Chaos. Albo podsumowanie każdego dokumentu osobno, jakby nie miały ze sobą nic wspólnego.
Rozumienia kontekstu biznesowego. Dane to jedno. Wiedza, że spadek marży o 2% w Q3 to czerwona flaga w branży SaaS, ale norma w retailu — to drugie. Większość modeli traktowała liczby jak liczby. Bez zrozumienia, co one oznaczają w danej branży.
Podejmowania decyzji przy niepewności. Prawdziwa praca rzadko daje ci wszystkie dane na tacy. Czasem musisz wyciągnąć wnioski z tego, co masz, przyznając się do luk. Modele albo wymyślały informacje (klasyczne halucynacje), albo blokowały się, czekając na dane, których nie było.
Większość testowanych modeli osiągnęła wyniki poniżej 40%. Dla porównania — junior w pierwszym tygodniu pracy radzi sobie lepiej. I tu nie chodzi o to, że AI jest bezużyteczne. Chodzi o przepaść między marketingowymi obietnicami a rzeczywistością.
Najlepsze modele? Te, które miały dostęp do specjalistycznych narzędzi i mogły iterować — prosić o więcej danych, weryfikować założenia, poprawiać błędy. Tylko że to już nie jest "agent AI robi wszystko sam".
To "człowiek z bardzo zaawansowanym asystentem".
I właśnie to jest kluczowe.
Jeśli prowadzisz firmę i zastanawiasz się nad wdrożeniem agentów AI do poważnych zadań — zwolnij. To nie jest jeszcze ten moment, kiedy możesz wcisnąć guzik i odejść. Możesz (i powinieneś) używać AI do wsparcia, przyspieszenia, automatyzacji części procesów.
Całkowite przekazanie odpowiedzialności? Ryzykowne.
Jeśli pracujesz w konsultingu, prawie lub finansach i martwisz się, że AI zabierze ci pracę — masz jeszcze czas. Dużo czasu. To, co odróżnia cię od modelu, to nie szybkość przetwarzania tekstu. To rozumienie niuansów, kontekstu, polityki firmy, tego, czego klient naprawdę potrzebuje — nawet jeśli sam tego nie wie.
A jeśli budujesz narzędzia AI? Ten benchmark to lista wymagań, nie wyrok. Pokazuje, gdzie są dziury. I gdzie jest przestrzeń na rozwój.
Agenci AI trafią do białych kołnierzyków. To pewne. Droga od "działa w demo" do "mogę mu zaufać w prawdziwym projekcie" jest jednak dłuższa, niż sugerują prezentacje z Doliny Krzemowej.
Problem nie jest w mocy obliczeniowej. Nie w wielkości modeli. Problem jest w tym, że prawdziwa praca to nie zestaw jasno zdefiniowanych zadań. To chaos, niepewność, kontekst, który zmienia się co tydzień.
I na razie AI radzi sobie z tym słabo.
Dobrze o tym wiedzieć, zanim zainwestujesz budżet (lub reputację) w system, który wygląda świetnie na papierze.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar