Claude 3.5 Sonnet naprawia kod lepiej niż ludzie. Oto wynik
Źródło: Link
Źródło: Link
Anthropic właśnie opublikował wyniki, które brzmią jak science fiction. Ich model Claude 3.5 Sonnet rozwiązał samodzielnie 49% rzeczywistych problemów programistycznych z GitHuba.
Pół roku temu najlepsze modele AI radziły sobie z 20-30% takich zadań.
Zaraz zobaczysz, co to oznacza w praktyce.
SWE-bench to nie akademickie łamigłówki. To prawdziwe problemy z popularnych projektów open source na GitHubie. Z tych, których używasz codziennie, nawet o tym nie wiedząc.
ktoś zgłasza błąd w bibliotece, której używają tysiące aplikacji. Programista musi przeczytać zgłoszenie, znaleźć przyczynę, napisać poprawkę i przetestować, czy nic nie zepsuł przy okazji.
SWE-bench Verified to zbiór 500 takich właśnie problemów. Każdy został ręcznie sprawdzony — nie ma tu dwuznaczności czy błędów w testach.
I tu pojawia się Claude.
Claude 3.5 Sonnet rozwiązał 244 z 500 problemów. Samodzielnie.
Bez pomocy człowieka.
Nie chodzi o podpowiedzi czy autouzupełnianie. Model dostał opis problemu, znalazł odpowiednie pliki w projekcie — czasem w bazie kodu liczącej tysiące plików — zrozumiał kontekst, napisał poprawkę i upewnił się, że testy przechodzą.
To jakby dać komuś dostęp do obcego projektu i powiedzieć: "Napraw to". Bez dodatkowych wyjaśnień.
Poprzednia wersja Claude'a radziła sobie w 40,6%. Wzrost o 8 punktów procentowych w kilka miesięcy.
Anthropic nie ujawnia wszystkich szczegółów — konkurencja nie śpi — ale wspominają o kilku kluczowych ulepszeniach.
Po pierwsze: lepsze rozumienie kontekstu. Model skuteczniej nawiguje po strukturze projektu, wie, gdzie szukać przyczyny problemu.
Po drugie: udoskonalone "myślenie" przed działaniem. Claude analizuje problem dłużej, zanim zaproponuje rozwiązanie. Różnica między natychmiastową odpowiedzią a chwilą zastanowienia.
Po trzecie: lepsza walidacja własnych rozwiązań. Model sprawdza, czy jego poprawka nie wprowadza nowych problemów.
Jasne, przypomina wiadomość dla programistów. Konsekwencje są szersze.
Prowadzisz firmę i potrzebujesz dostosować narzędzie do swoich potrzeb? Dotychczas miałeś dwie opcje: zatrudnić programistę — drogo, czasochłonne — albo zrezygnować.
Za rok możesz mieć trzecią: opisać problem AI, które samo wprowadzi zmiany w kodzie.
Albo jesteś freelancerem używającym WordPressa. Plugin przestał działać po aktualizacji. Zamiast czekać na wsparcie techniczne, AI może naprawić problem w minuty.
To nie odległa przyszłość. Działa już teraz, w laboratorium.
Branża AI ma problem z benchmarkami — testami wydajności. Firmy optymalizują modele pod konkretne testy, czasem kosztem praktycznej użyteczności.
SWE-bench Verified jest inny z trzech powodów.
Jeden: problemy pochodzą z rzeczywistych projektów. Nikt ich nie wymyślił specjalnie na potrzeby testu.
Dwa: każde zadanie zostało ręcznie zweryfikowane przez ludzi. Nie ma tu sztuczek ani dwuznaczności.
Trzy: sukces oznacza działający kod, który przechodzi wszystkie testy. Nie wystarczy "prawie dobrze".
Różnica między egzaminem teoretycznym na prawo jazdy a jazdą po prawdziwym mieście.
49% to imponujący wynik.
Pozostałe 51% to wciąż porażka.
Niektóre problemy są zbyt złożone. Wymagają zrozumienia subtelnych zależności między częściami systemu, których nawet doświadczeni programiści szukają godzinami.
Inne potrzebują kontekstu, którego nie ma w kodzie — wiedzy o tym, jak użytkownicy faktycznie korzystają z aplikacji, albo nieformalnych decyzjach podjętych miesiące temu.
I jest jeszcze kwestia kosztów. Każde uruchomienie Claude'a na takim zadaniu to setki tysięcy tokenów — jednostek tekstu — do przeanalizowania. Model musi przeczytać dokumentację, kod, testy. To nie jest darmowe.
Dla porównania: GPT-4 osiąga na tym samym teście około 28%. Gemini 2.0 Flash — 46,5%. Claude prowadzi, ale konkurencja jest tuż za rogiem.
Anthropic wspomina o "agentic workflows" — systemach, gdzie AI nie tylko pisze kod, ale też testuje go, poprawia błędy i iteruje po rozwiązaniu.
To zmienia perspektywę. Nie chodzi już o asystenta, który podpowiada. Chodzi o współpracownika, który samodzielnie realizuje zadania.
Za pół roku ktoś inny pobije ten wynik. Za rok 49% będzie wydawać się śmiesznie niskie.
Wykładniczy wzrost w czystej postaci.
Pytanie nie brzmi "czy AI będzie pisać kod". Pytanie brzmi: "jak szybko nauczymy się z nim współpracować".
Bo programiści, którzy to zrozumieją, nie stracą pracy. Staną się dziesięć razy bardziej produktywni.
A reszta? Cóż, rynek pracy nie lubi czekać.
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar