GPT-5 Orion myśli jak doktorant. Dane z benchmarków nie kłamią
Źródło: Link
Źródło: Link
118 lekcji bez kodowania. ChatGPT, Claude, Gemini, automatyzacje. Notatnik AI i AI Coach w cenie.
Szefowa działu HR zapytała mnie w zeszłym tygodniu, czy ChatGPT może teraz zastąpić konsultanta prawnego. Odpowiedziałem: „Jeszcze nie, ale GPT-5 właśnie zmniejszył tę przepaść do minimum”. Według danych z 11 maja 2026, OpenAI uruchomiło model, który w testach naukowych osiąga wyniki lepsze niż większość ludzi z doktoratem.
Jeśli śledzisz rozwój AI, wiesz że skok z GPT-3 do GPT-4 był gigantyczny. Teraz widzimy podobny skok. Tym razem chodzi o coś więcej niż płynność tekstu - chodzi o precyzję w miejscach, gdzie błąd kosztuje.

GPT-5 Pro wprowadza tryb „Thinking” - mechanizm, który pozwala modelowi samodzielnie ocenić, ile czasu potrzebuje na odpowiedź. Prosisz o przepis na makaron? Dostajesz odpowiedź od razu. Prosisz o analizę prawną umowy? Model „myśli” dłużej, zanim wypluje tekst.
To nie kosmetyka. Według raportu Vellum.ai, GPT-5 Pro w trybie Thinking osiągnął w teście GPQA Diamond wynik 89,4%. Dla porównania: GPT-4o uzyskał 70,1%. GPQA Diamond to test z pytaniami na poziomie doktoratu z nauk ścisłych - matematyka, fizyka, chemia. Różnica 19,3 punktu procentowego to przepaść między „brzmi mądrze” a „faktycznie rozwiązuje problem”.
Sam Altman od lat powtarzał, że alucinacje to największy ból głowy OpenAI. Teraz firma twierdzi, że błędy w kluczowych tematach spadły poniżej 1,6%. Jeśli to prawda, ChatGPT przestaje być zabawką i staje się narzędziem dla profesjonalistów.

Drugi element układanki to „enrutador” (router) działający w czasie rzeczywistym. System automatycznie zarządza tzw. Reasoning Effort - wysiłkiem rozumowania. W praktyce oznacza to jedno: nie płacisz za moc obliczeniową, której nie potrzebujesz.
Wcześniejsze modele albo myślały za długo przy prostych pytaniach (marnując czas i pieniądze), albo za krótko przy skomplikowanych (dając błędne odpowiedzi). GPT-5 Pro ma rozróżniać te sytuacje automatycznie. Jeśli działa tak, jak obiecuje OpenAI, to pierwszy model, który nie wymaga od Ciebie ustawiania parametrów „na czuja”.
Raport Epoch AI sugeruje, że GPT-5 to skok porównywalny z tym między GPT-3 a GPT-4. Tamten przeskok sprawił, że ChatGPT wszedł do uczelni, biur i szkół. Ten może sprawić, że wejdzie do kancelarii prawnych, laboratoriów i gabinetów lekarskich.
Jeszcze rok temu nikt przy zdrowych zmysłach nie powierzyłby AI analizy kontraktu wart milion złotych. Teraz? Jeśli błąd faktyczny spada poniżej 2%, a model osiąga wyniki lepsze niż 89% doktorantów w testach naukowych, granica między „asystentem” a „ekspertem” zaczyna się rozmywać.
Nie oznacza to, że AI zastąpi prawników czy naukowców. Oznacza, że ci, którzy nauczą się używać GPT-5 Pro, będą pracować szybciej i dokładniej niż ci, którzy tego nie zrobią. Różnica w produktywności może być dwu-, trzykrotna. W branżach, gdzie czas to pieniądz, to przepaść nie do nadrobienia.

OpenAI nie ma monopolu. DeepSeek V4-Pro oferuje porównywalną jakość w kodowaniu i matematyce za ułamek ceny. Gemini 3.1 Pro wygrywa w testach wiedzy ogólnej. Claude Opus 4.7 ma milion tokenów kontekstu i bije GPT-5 w niektórych zadaniach programistycznych.
GPT-5 Pro ma jednak jedną przewagę: ekosystem. ChatGPT używa ponad 200 milionów ludzi miesięcznie. Integracje z Microsoft, Slack, Notion, Zapier. Jeśli model działa lepiej, a infrastruktura już istnieje, adopcja będzie błyskawiczna.
Pytanie brzmi: czy OpenAI utrzyma przewagę, czy konkurencja znów je dogoni za pół roku? Historia pokazuje, że w AI przewaga technologiczna topi się szybko. Przewaga w dystrybucji - ta zostaje.
Według źródeł, OpenAI rozpoczęło wdrażanie modelu 11 maja 2026. Nie ma oficjalnego potwierdzenia pełnej dostępności, ale benchmarki sugerują, że model jest w fazie testów lub ograniczonego rollout'u.
OpenAI nie podało jeszcze oficjalnego cennika. Jeśli model wymaga więcej mocy obliczeniowej (przez tryb Thinking), prawdopodobnie będzie droższy niż GPT-4o - ale router w czasie rzeczywistym ma optymalizować koszty.
Według danych z raportu, błędy faktyczne spadły poniżej 1,6% w kluczowych tematach. To ogromny postęp, ale „poniżej 1,6%” to wciąż nie zero. W krytycznych zastosowaniach (medycyna, prawo) weryfikacja człowieka pozostaje konieczna.
W teście GPQA Diamond GPT-5 Pro osiągnął 89,4%, co plasuje go wysoko. Claude Opus 4.7 i Gemini 3.1 Pro mają swoje mocne strony (np. Claude w kodowaniu, Gemini w wiedzy ogólnej), ale brak bezpośrednich porównań w tym samym benchmarku.
Na podstawie: FayerWayer
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar