Modele AI
Modele AI · 4 min czytania · 3 grudnia 2025

Claude 3.5 Sonnet naprawia kod lepiej niż ludzie. Oto wynik

Claude 3.5 Sonnet naprawia kod lepiej niż ludzie. Oto wynik

Źródło: Link

Anthropic właśnie opublikował wyniki, które brzmią jak science fiction. Ich model Claude 3.5 Sonnet rozwiązał samodzielnie 49% rzeczywistych problemów programistycznych z GitHuba.

Pół roku temu najlepsze modele AI radziły sobie z 20-30% takich zadań.

Zaraz zobaczysz, co to oznacza w praktyce.

SWE-bench Verified — test z prawdziwego życia

SWE-bench to nie akademickie łamigłówki. To prawdziwe problemy z popularnych projektów open source na GitHubie. Z tych, których używasz codziennie, nawet o tym nie wiedząc.

ktoś zgłasza błąd w bibliotece, której używają tysiące aplikacji. Programista musi przeczytać zgłoszenie, znaleźć przyczynę, napisać poprawkę i przetestować, czy nic nie zepsuł przy okazji.

SWE-bench Verified to zbiór 500 takich właśnie problemów. Każdy został ręcznie sprawdzony — nie ma tu dwuznaczności czy błędów w testach.

I tu pojawia się Claude.

49% — nie kolejny marketingowy numer

Claude 3.5 Sonnet rozwiązał 244 z 500 problemów. Samodzielnie.

Bez pomocy człowieka.

Nie chodzi o podpowiedzi czy autouzupełnianie. Model dostał opis problemu, znalazł odpowiednie pliki w projekcie — czasem w bazie kodu liczącej tysiące plików — zrozumiał kontekst, napisał poprawkę i upewnił się, że testy przechodzą.

To jakby dać komuś dostęp do obcego projektu i powiedzieć: "Napraw to". Bez dodatkowych wyjaśnień.

Poprzednia wersja Claude'a radziła sobie w 40,6%. Wzrost o 8 punktów procentowych w kilka miesięcy.

Co się zmieniło pod maską

Anthropic nie ujawnia wszystkich szczegółów — konkurencja nie śpi — ale wspominają o kilku kluczowych ulepszeniach.

Po pierwsze: lepsze rozumienie kontekstu. Model skuteczniej nawiguje po strukturze projektu, wie, gdzie szukać przyczyny problemu.

Po drugie: udoskonalone "myślenie" przed działaniem. Claude analizuje problem dłużej, zanim zaproponuje rozwiązanie. Różnica między natychmiastową odpowiedzią a chwilą zastanowienia.

Po trzecie: lepsza walidacja własnych rozwiązań. Model sprawdza, czy jego poprawka nie wprowadza nowych problemów.

Co to oznacza, jeśli nie piszesz kodu

Jasne, przypomina wiadomość dla programistów. Konsekwencje są szersze.

Prowadzisz firmę i potrzebujesz dostosować narzędzie do swoich potrzeb? Dotychczas miałeś dwie opcje: zatrudnić programistę — drogo, czasochłonne — albo zrezygnować.

Za rok możesz mieć trzecią: opisać problem AI, które samo wprowadzi zmiany w kodzie.

Albo jesteś freelancerem używającym WordPressa. Plugin przestał działać po aktualizacji. Zamiast czekać na wsparcie techniczne, AI może naprawić problem w minuty.

To nie odległa przyszłość. Działa już teraz, w laboratorium.

Dlaczego to nie kolejny benchmark do zbijania

Branża AI ma problem z benchmarkami — testami wydajności. Firmy optymalizują modele pod konkretne testy, czasem kosztem praktycznej użyteczności.

SWE-bench Verified jest inny z trzech powodów.

Jeden: problemy pochodzą z rzeczywistych projektów. Nikt ich nie wymyślił specjalnie na potrzeby testu.

Dwa: każde zadanie zostało ręcznie zweryfikowane przez ludzi. Nie ma tu sztuczek ani dwuznaczności.

Trzy: sukces oznacza działający kod, który przechodzi wszystkie testy. Nie wystarczy "prawie dobrze".

Różnica między egzaminem teoretycznym na prawo jazdy a jazdą po prawdziwym mieście.

Gdzie jest haczyk

49% to imponujący wynik.

Pozostałe 51% to wciąż porażka.

Niektóre problemy są zbyt złożone. Wymagają zrozumienia subtelnych zależności między częściami systemu, których nawet doświadczeni programiści szukają godzinami.

Inne potrzebują kontekstu, którego nie ma w kodzie — wiedzy o tym, jak użytkownicy faktycznie korzystają z aplikacji, albo nieformalnych decyzjach podjętych miesiące temu.

I jest jeszcze kwestia kosztów. Każde uruchomienie Claude'a na takim zadaniu to setki tysięcy tokenów — jednostek tekstu — do przeanalizowania. Model musi przeczytać dokumentację, kod, testy. To nie jest darmowe.

Dla porównania: GPT-4 osiąga na tym samym teście około 28%. Gemini 2.0 Flash — 46,5%. Claude prowadzi, ale konkurencja jest tuż za rogiem.

Co dalej

Anthropic wspomina o "agentic workflows" — systemach, gdzie AI nie tylko pisze kod, ale też testuje go, poprawia błędy i iteruje po rozwiązaniu.

To zmienia perspektywę. Nie chodzi już o asystenta, który podpowiada. Chodzi o współpracownika, który samodzielnie realizuje zadania.

Za pół roku ktoś inny pobije ten wynik. Za rok 49% będzie wydawać się śmiesznie niskie.

Wykładniczy wzrost w czystej postaci.

Pytanie nie brzmi "czy AI będzie pisać kod". Pytanie brzmi: "jak szybko nauczymy się z nim współpracować".

Bo programiści, którzy to zrozumieją, nie stracą pracy. Staną się dziesięć razy bardziej produktywni.

A reszta? Cóż, rynek pracy nie lubi czekać.

Źródła

Informacje o artykule

Ten temat omawiam szerzej na webinarze

90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.

Zapisz sie na webinar
Udostępnij:
Jan Gajos

Ekspert AI & Founder, AI Evolution

Pasjonat sztucznej inteligencji, który od ponad 15 lat działa z sukcesem biznesowo i szkoleniowo. Wprowadzam AI do swoich firm oraz codziennego życia. Fascynują mnie nowe technologie, gry wideo i składanie klocków Lego – tam też widzę logikę i kreatywność, które AI potrafi wzmacniać. Wierzę, że dobrze użyta sztuczna inteligencja to nie ogłupiające ułatwienie, lecz prawdziwy przełom w sposobie, w jaki myślimy, tworzymy i pracujemy.