Claude 3.5 Sonnet naprawia kod lepiej niż ludzie. Oto wynik

Anthropic właśnie opublikował wyniki, które brzmią jak science fiction. Ich model Claude Sonnet 4.6 rozwiązał samodzielnie 49% rzeczywistych problemów programistycznych z GitHuba.

Pół roku temu najlepsze modele AI radziły sobie z 20-30% takich zadań.

Zaraz zobaczysz, co to oznacza w praktyce.

SWE-bench Verified — test z prawdziwego życia

SWE-bench to nie akademickie łamigłówki. To prawdziwe problemy z popularnych projektów open source na GitHubie. Z tych, których używasz codziennie, nawet o tym nie wiedząc.

ktoś zgłasza błąd w bibliotece, której używają tysiące aplikacji. Programista musi przeczytać zgłoszenie, znaleźć przyczynę, napisać poprawkę i przetestować, czy nic nie zepsuł przy okazji.

SWE-bench Verified to zbiór 500 takich właśnie problemów. Każdy został ręcznie sprawdzony — nie ma tu dwuznaczności czy błędów w testach.

I tu pojawia się Claude.

49% — nie kolejny marketingowy numer

Claude Sonnet 4.6 rozwiązał 244 z 500 problemów. Samodzielnie.

Bez pomocy człowieka.

Nie chodzi o podpowiedzi czy autouzupełnianie. Model dostał opis problemu, znalazł odpowiednie pliki w projekcie — czasem w bazie kodu liczącej tysiące plików — zrozumiał kontekst, napisał poprawkę i upewnił się, że testy przechodzą.

To jakby dać komuś dostęp do obcego projektu i powiedzieć: "Napraw to". Bez dodatkowych wyjaśnień.

Poprzednia wersja Claude'a radziła sobie w 40,6%. Wzrost o 8 punktów procentowych w kilka miesięcy.

Co się zmieniło pod maską

Anthropic nie ujawnia wszystkich szczegółów — konkurencja nie śpi — ale wspominają o kilku kluczowych ulepszeniach.

Po pierwsze: lepsze rozumienie kontekstu. Model skuteczniej nawiguje po strukturze projektu, wie, gdzie szukać przyczyny problemu.

Po drugie: udoskonalone "myślenie" przed działaniem. Claude analizuje problem dłużej, zanim zaproponuje rozwiązanie. Różnica między natychmiastową odpowiedzią a chwilą zastanowienia.

Po trzecie: lepsza walidacja własnych rozwiązań. Model sprawdza, czy jego poprawka nie wprowadza nowych problemów.

Co to oznacza, jeśli nie piszesz kodu

Jasne, przypomina wiadomość dla programistów. Konsekwencje są szersze.

Prowadzisz firmę i potrzebujesz dostosować narzędzie do swoich potrzeb? Dotychczas miałeś dwie opcje: zatrudnić programistę — drogo, czasochłonne — albo zrezygnować.

Za rok możesz mieć trzecią: opisać problem AI, które samo wprowadzi zmiany w kodzie.

Albo jesteś freelancerem używającym WordPressa. Plugin przestał działać po aktualizacji. Zamiast czekać na wsparcie techniczne, AI może naprawić problem w minuty.

To nie odległa przyszłość. Działa już teraz, w laboratorium.

Dlaczego to nie kolejny benchmark do zbijania

Branża AI ma problem z benchmarkami — testami wydajności. Firmy optymalizują modele pod konkretne testy, czasem kosztem praktycznej użyteczności.

SWE-bench Verified jest inny z trzech powodów.

Jeden: problemy pochodzą z rzeczywistych projektów. Nikt ich nie wymyślił specjalnie na potrzeby testu.

Dwa: każde zadanie zostało ręcznie zweryfikowane przez ludzi. Nie ma tu sztuczek ani dwuznaczności.

Trzy: sukces oznacza działający kod, który przechodzi wszystkie testy. Nie wystarczy "prawie dobrze".

Różnica między egzaminem teoretycznym na prawo jazdy a jazdą po prawdziwym mieście.

Gdzie jest haczyk

49% to imponujący wynik.

Pozostałe 51% to wciąż porażka.

Niektóre problemy są zbyt złożone. Wymagają zrozumienia subtelnych zależności między częściami systemu, których nawet doświadczeni programiści szukają godzinami.

Inne potrzebują kontekstu, którego nie ma w kodzie — wiedzy o tym, jak użytkownicy faktycznie korzystają z aplikacji, albo nieformalnych decyzjach podjętych miesiące temu.

I jest jeszcze kwestia kosztów. Każde uruchomienie Claude'a na takim zadaniu to setki tysięcy tokenów — jednostek tekstu — do przeanalizowania. Model musi przeczytać dokumentację, kod, testy. To nie jest darmowe.

Dla porównania: GPT-5 osiąga na tym samym teście około 28%. Gemini 3.1 Flash — 46,5%. Claude prowadzi, ale konkurencja jest tuż za rogiem.

Co dalej

Anthropic wspomina o "agentic workflows" — systemach, gdzie AI nie tylko pisze kod, ale też testuje go, poprawia błędy i iteruje po rozwiązaniu.

To zmienia perspektywę. Nie chodzi już o asystenta, który podpowiada. Chodzi o współpracownika, który samodzielnie realizuje zadania.

Za pół roku ktoś inny pobije ten wynik. Za rok 49% będzie wydawać się śmiesznie niskie.

Wykładniczy wzrost w czystej postaci.

Pytanie nie brzmi "czy AI będzie pisać kod". Pytanie brzmi: "jak szybko nauczymy się z nim współpracować".

Bo programiści, którzy to zrozumieją, nie stracą pracy. Staną się dziesięć razy bardziej produktywni.

A reszta? Cóż, rynek pracy nie lubi czekać.

Przeczytaj też:

Źródła

Anthropic Engineering Blog - SWE-bench Verified Results

Claude 3.5 Sonnet naprawia kod lepiej niż ludzie. Oto wynik

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

SWE-bench Verified — test z prawdziwego życia

49% — nie kolejny marketingowy numer

Co się zmieniło pod maską

Co to oznacza, jeśli nie piszesz kodu

Dlaczego to nie kolejny benchmark do zbijania

Gdzie jest haczyk

Co dalej

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Claude 3.5 Sonnet naprawia kod lepiej niż ludzie. Oto wynik

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

SWE-bench Verified — test z prawdziwego życia

49% — nie kolejny marketingowy numer

Co się zmieniło pod maską

Co to oznacza, jeśli nie piszesz kodu

Dlaczego to nie kolejny benchmark do zbijania

Gdzie jest haczyk

Co dalej

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

Profesorowie chcą wyrzucić ChatGPT z uczelni. Problem w tym, że to już niemożliwe

OpenAI odpala GPT-5.5. Cel: odebrać tron Claude i Gemini

OpenAI wyjaśnia AI dla początkujących. Czy warto czytać