AI oceniają AI. GPT-5.1 wygrał – ale kto głosował?
Źródło: Link
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
Konkurs piękności, w którym jury to… konkurencja. To przypomina przepis na konflikt interesów?
Dokładnie to zrobił Andrej Karpathy – były szef AI w Tesli i OpenAI – w weekendowym eksperymencie nazwanym "LLM Council". Kilka modeli AI (Gemini 3.0, Claude, Grok i inne) dostaje to samo pytanie. Odpowiadają anonimowo. Potem same oceniają odpowiedzi konkurencji, nie wiedząc, kto je napisał.
Zwycięzca? GPT-5.1.
Karpathy użył zestawu pytań testowych – od logicznych zagadek po zadania wymagające kreatywności. Każdy model generował odpowiedź, a następnie wszystkie modele oceniały wszystkie odpowiedzi w skali punktowej.
Twist: anonimizacja.
Model nie wie, czy ocenia samego siebie, GPT-a, czy Claude'a. Teoria mówi, że eliminuje to tribal bias – tendencję do faworyzowania "swojego obozu".
I co? GPT-5.1 zdobył najwyższe średnie noty od… Gemini 3.0, Claude'a i Groka. Ironia chce, że konkurencja uznała produkt OpenAI za najlepszy.
Warto zauważyć, że sam pomysł "rady LLM" nawiązuje do klasycznych technik oceny eksperckiej, gdzie anonimowość recenzentów ma zapewnić bezstronność. Karpathy przeniósł ten mechanizm – znany choćby z recenzji naukowych czy konkursów literackich – na grunt modeli językowych. Różnica polega na tym, że tutaj recenzenci sami są produktami tej samej technologii, którą oceniają. To eksperyment tyleż pomysłowy, co filozoficznie kłopotliwy.
Zanim ogłosimy GPT-5.1 królem wzgórza – stop.
Metoda ma dziury. Po pierwsze: modele mogą rozpoznawać własny styl pisania. Nawet bez etykiety "GPT" czy "Claude" – charakterystyczne sformułowania, długość odpowiedzi, struktura zdań. To trochę jak rozpoznanie czyjegoś pisma ręcznego.
Po drugie: kto ustawia kryteria oceny? Jeśli model A preferuje zwięzłość, a model B rozwlekłość – wyniki będą zależeć od tego, kto dominuje w jury. To nie jest obiektywna miara jakości, tylko konsensus grupy.
Po trzecie: wielkość próbki. Weekendowy eksperyment to nie peer-reviewed badanie. Kilkadziesiąt pytań? Za mało, by wyciągać wnioski o "najlepszym modelu".
Jest jeszcze czwarty problem, rzadziej omawiany: modele językowe były trenowane na podobnych danych. Oznacza to, że mogą dzielić zbliżone preferencje estetyczne i stylistyczne – nie dlatego, że są bezstronne, ale dlatego, że wywodzą się z podobnych źródeł. Konsensus jury może więc odzwierciedlać nie tyle obiektywną jakość, co wspólny "gust" wynikający ze wspólnego rodowodu treningowego.
Problem oceny modeli językowych jest starszy niż sam LLM Council. Branża od lat zmaga się z tym, że tradycyjne benchmarki – jak MMLU, HumanEval czy HellaSwag – szybko tracą na wartości. Modele są coraz częściej trenowane z uwzględnieniem tych testów, co sprawia, że wysokie wyniki przestają oznaczać rzeczywistą użyteczność.
Dlatego pojawiają się coraz bardziej kreatywne próby pomiaru jakości:
Każda z tych metod ma swoje ślepe plamki. LLM Council wpisuje się w ten krajobraz jako propozycja ciekawa, ale nierozwiązująca fundamentalnego pytania: czy AI może być rzetelnym sędzią dla AI?
Szukasz "obiektywnego" rankingu AI? LLM Council nie jest odpowiedzią.
Pokazuje coś innego: modele zaczynają być na tyle dobre, że różnice między nimi stają się subtelne. I coraz trudniej je mierzyć. Może to dobrze – bo znaczy, że walka toczy się już o niuanse, nie podstawy.
Praktyczna lekcja? Nie wybieraj AI na podstawie jednego benchmarku. Testuj na własnych zadaniach. GPT-5.1 może wygrać w logice, ale Claude 3.5 Sonnet – w pisaniu. Grok – w szybkości. Gemini – w integracji z Google.
Jeśli prowadzisz firmę i rozważasz wdrożenie konkretnego modelu, warto zbudować własny, miniaturowy "council" – zestaw kilkunastu zadań reprezentatywnych dla Twoich rzeczywistych potrzeb. Obsługa klienta rządzi się innymi prawami niż analiza danych finansowych czy generowanie kodu. Żaden ogólny ranking tego nie zastąpi.
Najlepszy model to ten, który rozwiązuje Twój konkretny problem. Nie ten, który wygrał w cudzym teście.
A Karpathy? Udowodnił, że nawet weekendowe eksperymenty potrafią wywołać debatę o tym, jak w ogóle oceniać inteligencję maszyn. I to może być cenniejsze niż sam ranking – bo pytanie "jak mierzyć AI" jest dziś ważniejsze niż "które AI jest najlepsze".
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar