AI oceniają AI. GPT-5.1 wygrał – ale kto głosował?
Źródło: Link
Źródło: Link
Konkurs piękności, w którym jury to… konkurencja. To przypomina przepis na konflikt interesów?
Dokładnie to zrobił Andrej Karpathy – były szef AI w Tesli i OpenAI – w weekendowym eksperymencie nazwanym "LLM Council". Kilka modeli AI (Gemini 3.0, Claude, Grok i inne) dostaje to samo pytanie. Odpowiadają anonimowo. Potem same oceniają odpowiedzi konkurencji, nie wiedząc, kto je napisał.
Zwycięzca? GPT-5.1.
Karpathy użył zestawu pytań testowych – od logicznych zagadek po zadania wymagające kreatywności. Każdy model generował odpowiedź, a następnie wszystkie modele oceniały wszystkie odpowiedzi w skali punktowej.
Twist: anonimizacja.
Model nie wie, czy ocenia samego siebie, GPT-a, czy Claude'a. Teoria mówi, że eliminuje to tribal bias – tendencję do faworyzowania "swojego obozu".
I co? GPT-5.1 zdobył najwyższe średnie noty od… Gemini 3.0, Claude'a i Groka. Ironia chce, że konkurencja uznała produkt OpenAI za najlepszy.
Zanim ogłosimy GPT-5.1 królem wzgórza – stop.
Metoda ma dziury. Po pierwsze: modele mogą rozpoznawać własny styl pisania. Nawet bez etykiety "GPT" czy "Claude" – charakterystyczne sformułowania, długość odpowiedzi, struktura zdań. To trochę jak rozpoznanie czyjegoś pisma ręcznego.
Po drugie: kto ustawia kryteria oceny? Jeśli model A preferuje zwięzłość, a model B rozwlekłość – wyniki będą zależeć od tego, kto dominuje w jury. To nie jest obiektywna miara jakości, tylko konsensus grupy.
Po trzecie: wielkość próbki. Weekendowy eksperyment to nie peer-reviewed badanie. Kilkadziesiąt pytań? Za mało, by wyciągać wnioski o "najlepszym modelu".
Szukasz "obiektywnego" rankingu AI? LLM Council nie jest odpowiedzią.
Pokazuje coś innego: modele zaczynają być na tyle dobre, że różnice między nimi stają się subtelne. I coraz trudniej je mierzyć. Może to dobrze – bo znaczy, że walka toczy się już o niuanse, nie podstawy.
Praktyczna lekcja? Nie wybieraj AI na podstawie jednego benchmarku. Testuj na własnych zadaniach. GPT-5.1 może wygrać w logice, ale Claude 3.5 Sonnet – w pisaniu. Grok – w szybkości. Gemini – w integracji z Google.
Najlepszy model to ten, który rozwiązuje Twój konkretny problem. Nie ten, który wygrał w cudzym teście.
A Karpathy? Udowodnił, że nawet weekendowe eksperymenty potrafią wywołać debatę o tym, jak w ogóle oceniać inteligencję maszyn. I to może być cenniejsze niż sam ranking – bo pytanie "jak mierzyć AI" jest dziś ważniejsze niż "które AI jest najlepsze".
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar