Modele AI
Modele AI · 4 min czytania · 24 listopada 2025

AI oceniają AI. GPT-5.1 wygrał – ale kto głosował?

Grafika ilustrująca: AI oceniają AI. GPT-5.1 wygrał – ale kto głosował?

Źródło: Link

AI dla Twojej firmy

Audyty, wdrożenia, szkolenia sprzedażowe i AI. Dopasowane do zespołu i procesów.

Sprawdź ofertę →

Konkurs piękności, w którym jury to… konkurencja. To przypomina przepis na konflikt interesów?

Dokładnie to zrobił Andrej Karpathy – były szef AI w Tesli i OpenAI – w weekendowym eksperymencie nazwanym "LLM Council". Kilka modeli AI (Gemini 3.0, Claude, Grok i inne) dostaje to samo pytanie. Odpowiadają anonimowo. Potem same oceniają odpowiedzi konkurencji, nie wiedząc, kto je napisał.

Zwycięzca? GPT-5.1.

Jak działa ten pojedynek

Karpathy użył zestawu pytań testowych – od logicznych zagadek po zadania wymagające kreatywności. Każdy model generował odpowiedź, a następnie wszystkie modele oceniały wszystkie odpowiedzi w skali punktowej.

Twist: anonimizacja.

Model nie wie, czy ocenia samego siebie, GPT-a, czy Claude'a. Teoria mówi, że eliminuje to tribal bias – tendencję do faworyzowania "swojego obozu".

I co? GPT-5.1 zdobył najwyższe średnie noty od… Gemini 3.0, Claude'a i Groka. Ironia chce, że konkurencja uznała produkt OpenAI za najlepszy.

Warto zauważyć, że sam pomysł "rady LLM" nawiązuje do klasycznych technik oceny eksperckiej, gdzie anonimowość recenzentów ma zapewnić bezstronność. Karpathy przeniósł ten mechanizm – znany choćby z recenzji naukowych czy konkursów literackich – na grunt modeli językowych. Różnica polega na tym, że tutaj recenzenci sami są produktami tej samej technologii, którą oceniają. To eksperyment tyleż pomysłowy, co filozoficznie kłopotliwy.

Czemu to nie jest takie proste

Zanim ogłosimy GPT-5.1 królem wzgórza – stop.

Metoda ma dziury. Po pierwsze: modele mogą rozpoznawać własny styl pisania. Nawet bez etykiety "GPT" czy "Claude" – charakterystyczne sformułowania, długość odpowiedzi, struktura zdań. To trochę jak rozpoznanie czyjegoś pisma ręcznego.

Po drugie: kto ustawia kryteria oceny? Jeśli model A preferuje zwięzłość, a model B rozwlekłość – wyniki będą zależeć od tego, kto dominuje w jury. To nie jest obiektywna miara jakości, tylko konsensus grupy.

Po trzecie: wielkość próbki. Weekendowy eksperyment to nie peer-reviewed badanie. Kilkadziesiąt pytań? Za mało, by wyciągać wnioski o "najlepszym modelu".

Jest jeszcze czwarty problem, rzadziej omawiany: modele językowe były trenowane na podobnych danych. Oznacza to, że mogą dzielić zbliżone preferencje estetyczne i stylistyczne – nie dlatego, że są bezstronne, ale dlatego, że wywodzą się z podobnych źródeł. Konsensus jury może więc odzwierciedlać nie tyle obiektywną jakość, co wspólny "gust" wynikający ze wspólnego rodowodu treningowego.

Dlaczego benchmarki AI są dziś takie trudne

Problem oceny modeli językowych jest starszy niż sam LLM Council. Branża od lat zmaga się z tym, że tradycyjne benchmarki – jak MMLU, HumanEval czy HellaSwag – szybko tracą na wartości (dla aktualnych modeli standardem są SWE-bench Verified, Terminal-Bench i Aider Polyglot). Modele są coraz częściej trenowane z uwzględnieniem tych testów, co sprawia, że wysokie wyniki przestają oznaczać rzeczywistą użyteczność.

Dlatego pojawiają się coraz bardziej kreatywne próby pomiaru jakości:

  • LMSYS Chatbot Arena – prawdziwi użytkownicy oceniają odpowiedzi dwóch anonimowych modeli w bezpośrednim starciu
  • Evals od OpenAI – zestaw zadań ocenianych automatycznie, ale projektowanych przez ludzi
  • LLM-as-a-judge – szeroka kategoria, do której należy właśnie eksperyment Karpathy'ego, gdzie jeden model ocenia drugi

Każda z tych metod ma swoje ślepe plamki. LLM Council wpisuje się w ten krajobraz jako propozycja ciekawa, ale nierozwiązująca fundamentalnego pytania: czy AI może być rzetelnym sędzią dla AI?

Co z tego wynika dla Ciebie

Szukasz "obiektywnego" rankingu AI? LLM Council nie jest odpowiedzią.

Pokazuje coś innego: modele zaczynają być na tyle dobre, że różnice między nimi stają się subtelne. I coraz trudniej je mierzyć. Może to dobrze – bo znaczy, że walka toczy się już o niuanse, nie podstawy.

Praktyczna lekcja? Nie wybieraj AI na podstawie jednego benchmarku. Testuj na własnych zadaniach. GPT-5.1 może wygrać w logice, ale Claude 3.5 Sonnet – w pisaniu. Grok – w szybkości. Gemini – w integracji z Google.

Jeśli prowadzisz firmę i rozważasz wdrożenie konkretnego modelu, warto zbudować własny, miniaturowy "council" – zestaw kilkunastu zadań reprezentatywnych dla Twoich rzeczywistych potrzeb. Obsługa klienta rządzi się innymi prawami niż analiza danych finansowych czy generowanie kodu. Żaden ogólny ranking tego nie zastąpi.

Najlepszy model to ten, który rozwiązuje Twój konkretny problem. Nie ten, który wygrał w cudzym teście.

A Karpathy? Udowodnił, że nawet weekendowe eksperymenty potrafią wywołać debatę o tym, jak w ogóle oceniać inteligencję maszyn. I to może być cenniejsze niż sam ranking – bo pytanie "jak mierzyć AI" jest dziś ważniejsze niż "które AI jest najlepsze".

Źródła

Informacje o artykule

Podoba Ci się ten artykuł?

Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!

Ten temat omawiam szerzej na webinarze

90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.

Zapisz sie na webinar
Udostępnij:
Jan Gajos

Ekspert AI & Founder, AI Evolution

Pasjonat sztucznej inteligencji, który od ponad 15 lat działa z sukcesem biznesowo i szkoleniowo. Wprowadzam AI do swoich firm oraz codziennego życia. Fascynują mnie nowe technologie, gry wideo i składanie klocków Lego – tam też widzę logikę i kreatywność, które AI potrafi wzmacniać. Wierzę, że dobrze użyta sztuczna inteligencja to nie ogłupiające ułatwienie, lecz prawdziwy przełom w sposobie, w jaki myślimy, tworzymy i pracujemy.