AI oceniają AI. GPT-5.1 wygrał – ale kto głosował?

Konkurs piękności, w którym jury to… konkurencja. To przypomina przepis na konflikt interesów?

Dokładnie to zrobił Andrej Karpathy – były szef AI w Tesli i OpenAI – w weekendowym eksperymencie nazwanym "LLM Council". Kilka modeli AI (Gemini 3.0, Claude, Grok i inne) dostaje to samo pytanie. Odpowiadają anonimowo. Potem same oceniają odpowiedzi konkurencji, nie wiedząc, kto je napisał.

Zwycięzca? GPT-5.1.

Jak działa ten pojedynek

Karpathy użył zestawu pytań testowych – od logicznych zagadek po zadania wymagające kreatywności. Każdy model generował odpowiedź, a następnie wszystkie modele oceniały wszystkie odpowiedzi w skali punktowej.

Twist: anonimizacja.

Model nie wie, czy ocenia samego siebie, GPT-a, czy Claude'a. Teoria mówi, że eliminuje to tribal bias – tendencję do faworyzowania "swojego obozu".

I co? GPT-5.1 zdobył najwyższe średnie noty od… Gemini 3.0, Claude'a i Groka. Ironia chce, że konkurencja uznała produkt OpenAI za najlepszy.

Warto zauważyć, że sam pomysł "rady LLM" nawiązuje do klasycznych technik oceny eksperckiej, gdzie anonimowość recenzentów ma zapewnić bezstronność. Karpathy przeniósł ten mechanizm – znany choćby z recenzji naukowych czy konkursów literackich – na grunt modeli językowych. Różnica polega na tym, że tutaj recenzenci sami są produktami tej samej technologii, którą oceniają. To eksperyment tyleż pomysłowy, co filozoficznie kłopotliwy.

Czemu to nie jest takie proste

Zanim ogłosimy GPT-5.1 królem wzgórza – stop.

Metoda ma dziury. Po pierwsze: modele mogą rozpoznawać własny styl pisania. Nawet bez etykiety "GPT" czy "Claude" – charakterystyczne sformułowania, długość odpowiedzi, struktura zdań. To trochę jak rozpoznanie czyjegoś pisma ręcznego.

Po drugie: kto ustawia kryteria oceny? Jeśli model A preferuje zwięzłość, a model B rozwlekłość – wyniki będą zależeć od tego, kto dominuje w jury. To nie jest obiektywna miara jakości, tylko konsensus grupy.

Po trzecie: wielkość próbki. Weekendowy eksperyment to nie peer-reviewed badanie. Kilkadziesiąt pytań? Za mało, by wyciągać wnioski o "najlepszym modelu".

Jest jeszcze czwarty problem, rzadziej omawiany: modele językowe były trenowane na podobnych danych. Oznacza to, że mogą dzielić zbliżone preferencje estetyczne i stylistyczne – nie dlatego, że są bezstronne, ale dlatego, że wywodzą się z podobnych źródeł. Konsensus jury może więc odzwierciedlać nie tyle obiektywną jakość, co wspólny "gust" wynikający ze wspólnego rodowodu treningowego.

Dlaczego benchmarki AI są dziś takie trudne

Problem oceny modeli językowych jest starszy niż sam LLM Council. Branża od lat zmaga się z tym, że tradycyjne benchmarki – jak MMLU, HumanEval czy HellaSwag – szybko tracą na wartości (dla aktualnych modeli standardem są SWE-bench Verified, Terminal-Bench i Aider Polyglot). Modele są coraz częściej trenowane z uwzględnieniem tych testów, co sprawia, że wysokie wyniki przestają oznaczać rzeczywistą użyteczność.

Dlatego pojawiają się coraz bardziej kreatywne próby pomiaru jakości:

LMSYS Chatbot Arena – prawdziwi użytkownicy oceniają odpowiedzi dwóch anonimowych modeli w bezpośrednim starciu
Evals od OpenAI – zestaw zadań ocenianych automatycznie, ale projektowanych przez ludzi
LLM-as-a-judge – szeroka kategoria, do której należy właśnie eksperyment Karpathy'ego, gdzie jeden model ocenia drugi

Każda z tych metod ma swoje ślepe plamki. LLM Council wpisuje się w ten krajobraz jako propozycja ciekawa, ale nierozwiązująca fundamentalnego pytania: czy AI może być rzetelnym sędzią dla AI?

Co z tego wynika dla Ciebie

Szukasz "obiektywnego" rankingu AI? LLM Council nie jest odpowiedzią.

Pokazuje coś innego: modele zaczynają być na tyle dobre, że różnice między nimi stają się subtelne. I coraz trudniej je mierzyć. Może to dobrze – bo znaczy, że walka toczy się już o niuanse, nie podstawy.

Praktyczna lekcja? Nie wybieraj AI na podstawie jednego benchmarku. Testuj na własnych zadaniach. GPT-5.1 może wygrać w logice, ale Claude 3.5 Sonnet – w pisaniu. Grok – w szybkości. Gemini – w integracji z Google.

Jeśli prowadzisz firmę i rozważasz wdrożenie konkretnego modelu, warto zbudować własny, miniaturowy "council" – zestaw kilkunastu zadań reprezentatywnych dla Twoich rzeczywistych potrzeb. Obsługa klienta rządzi się innymi prawami niż analiza danych finansowych czy generowanie kodu. Żaden ogólny ranking tego nie zastąpi.

Najlepszy model to ten, który rozwiązuje Twój konkretny problem. Nie ten, który wygrał w cudzym teście.

A Karpathy? Udowodnił, że nawet weekendowe eksperymenty potrafią wywołać debatę o tym, jak w ogóle oceniać inteligencję maszyn. I to może być cenniejsze niż sam ranking – bo pytanie "jak mierzyć AI" jest dziś ważniejsze niż "które AI jest najlepsze".

Przeczytaj też:

Źródła

Analytics India Magazine

AI oceniają AI. GPT-5.1 wygrał – ale kto głosował?

AI dla Twojej firmy

Powiązane tematy

Jak działa ten pojedynek

Czemu to nie jest takie proste

Dlaczego benchmarki AI są dziś takie trudne

Co z tego wynika dla Ciebie

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

AI oceniają AI. GPT-5.1 wygrał – ale kto głosował?

AI dla Twojej firmy

Powiązane tematy

Jak działa ten pojedynek

Czemu to nie jest takie proste

Dlaczego benchmarki AI są dziś takie trudne

Co z tego wynika dla Ciebie

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

OpenAI odpala GPT-5.5. Cel: odebrać tron Claude i Gemini

DeepSeek V4: chiński model AI, który nie prosi o pozwolenie

OpenAI płaci $25 000 za złamanie zabezpieczeń GPT-5.5