MiniMax M3: milion tokenów kontekstu i 12 godzin pracy bez nadzoru
Źródło: Link
Źródło: Link
90 minut praktyki na żywo. Pokazuję krok po kroku, jak zacząć z AI bez kodowania.
MiniMax (Shanghai Hixi Technology) wypuścił 1 czerwca 2026 model M3, który łączy w jednej architekturze cztery rzeczy: zaawansowane kodowanie, możliwości agencyjne, milion tokenów kontekstu i natywne przetwarzanie multimedialne. Lista życzeń? Sprawdźmy, co z tego działa naprawdę.

M3 bazuje na autorskiej architekturze Sparse Attention (MSA) i oferuje przez API do 1 miliona tokenów kontekstu, z gwarantowanym minimum 512K tokenów. Dla porównania - wystarczy, żeby wrzucić do modelu całą książkę i jeszcze zostanie miejsce na rozmowę o niej.
W praktyce taki kontekst przydaje się w trzech scenariuszach: długotrwałe zadania dla agentów AI, rozbudowane sesje kodowania (gdzie model musi pamiętać całą strukturę projektu) i analiza długich filmów. MiniMax twierdzi, że osiąga wiodącą w branży wydajność w benchmarkach kodowania i agentów - choć konkretnych liczb dla wszystkich testów nie podali.
W benchmarku BrowseComp (testy dla agentów AI) M3 uzyskał 83.5 punktów, bijąc Claude Opus 4.7 (79.3). To solidny wynik. Jeden benchmark to nie cała historia - podobnie jak w przypadku modeli wideo, gdzie liczby to jedno, a użyteczność w praktyce to drugie.

MiniMax przeprowadził ciekawy eksperyment: dali M3 zadanie odtworzenia artykułu naukowego z ICLR 2025 o dynamice uczenia się modeli językowych. Model pracował samodzielnie przez prawie 12 godzin, stworzył 18 commitów w repozytorium i wygenerował 23 wykresów eksperymentalnych.
Kluczowe słowo: "odtworzył". Nie wymyślił nowej metodologii, nie zaproponował ulepszeń - wykonał to, co było już opisane w papierze. Zrobił to jednak bez ciągłego dopytywania "co teraz?", co w przypadku większości obecnych modeli AI wciąż wymaga ludzkiego nadzoru.
W kolejnym teście M3 dostał cztery wytrenowane modele bazowe i polecenie: wykonaj syntezę danych, trening, ewaluację i iterację w ciągu 12 godzin. Bez interwencji człowieka. Wynik: 37.1 punktów, trzecie miejsce za Claude Opus 4.7 (42.4) i GPT-5.5 (39.3).
Różnica między pierwszym a trzecim miejscem to niecałe 5 punktów. W praktyce wszystkie trzy modele są na podobnym poziomie - wybór zależy raczej od ceny i dostępności niż od surowej wydajności.
M3 to model natywnie multimodalny - trenowany od podstaw na danych tekstowych i wizualnych jednocześnie. MiniMax przebudował cały pipeline danych, skalując dane do setek terabajtów i osiągając ścisłe wyrównanie między przestrzeniami semantycznymi tekstu i obrazu.
W praktyce chodzi o to, że model nie traktuje obrazów jako "dodatku" do tekstu (jak robią to modele, które najpierw uczą się tekstu, a potem doklejają wizję). Rozumie obie modalności równocześnie, co teoretycznie powinno dawać lepsze wyniki w analizie wideo i zadaniach wymagających łączenia informacji z różnych źródeł.

M3 jest dostępny w dwóch wersjach API: M3 (standardowa) i M3-highspeed (szybsza inferencja, identyczne wyniki). Obie wspierają automatyczne cachowanie, włączone domyślnie - przydatne, jeśli wielokrotnie przetwarzasz te same dane.
Cennik dla kontekstu do 512K tokenów (z 50% zniżką przez pierwsze 7 dni):
Dla kontekstu, juan to około 0.55 złotego (czerwiec 2026). MiniMax planuje też udostępnić M3 jako open-source na HuggingFace i GitHub, z możliwością deploymentu na prywatnych klastrach i fine-tuningu.
MiniMax twierdzi, że M3 to pierwszy chiński model AI łączący zaawansowane kodowanie, możliwości agencyjne, milionowy kontekst i natywne przetwarzanie multimedialne w jednej architekturze. Ważne stwierdzenie - nie "pierwszy na świecie", ale "pierwszy chiński".
Dlaczego to ma znaczenie? Chiński rynek AI rozwija się w częściowej izolacji od zachodnich modeli (GPT, Claude, Gemini mają ograniczony dostęp w Chinach). Lokalne firmy muszą budować własne rozwiązania - i M3 pokazuje, że robią to coraz lepiej. W niektórych benchmarkach (jak BrowseComp) M3 wyprzedza Claude Opus 4.7, co jeszcze rok temu byłoby nie do pomyślenia.
Dla reszty świata oznacza to jedno: konkurencja rośnie, a monopol kilku zachodnich firm na zaawansowane modele AI się kończy. Podobnie jak w przypadku integracji różnych narzędzi AI, liczy się ekosystem i dostępność - nie tylko surowa moc obliczeniowa.
Jeśli pracujesz z długimi dokumentami, kodem lub wideo - M3 może być ciekawą alternatywą dla Claude czy GPT. Milion tokenów kontekstu to realna przewaga w zadaniach wymagających "pamięci" o całym projekcie.
Jeśli testujesz agentów AI do automatyzacji zadań - wyniki M3 w BrowseComp (83.5) są lepsze niż Claude Opus 4.7 (79.3). Pamiętaj jednak: jeden benchmark to nie całość. Przetestuj na swoich danych, zanim zainwestujesz czas w migrację.
Jeśli jesteś w Polsce i nie masz dostępu do chińskiego API - poczekaj na wersję open-source na HuggingFace. MiniMax obiecuje ją udostępnić, co pozwoli na deployment na własnej infrastrukturze bez geoblokad.
Obecnie M3 działa przez API chińskie, co może oznaczać ograniczenia w dostępie z Polski. MiniMax zapowiedział jednak udostępnienie modelu jako open-source na HuggingFace i GitHub, co pozwoli na lokalne wdrożenie bez geoblokad.
Przy kursie 1 juan = 0.55 zł, input kosztuje około 1.16 zł za milion tokenów (standard) lub 1.73 zł (priorytet) przez pierwsze 7 dni (z 50% zniżką). To znacznie taniej niż Claude Opus 4.7 (około 82 zł za milion tokenów input) czy GPT-5.
Model był trenowany od początku na danych tekstowych i wizualnych jednocześnie, nie jako dwa osobne systemy połączone później. Teoretycznie daje to lepsze rozumienie relacji między tekstem a obrazem, szczególnie w analizie wideo i zadaniach wymagających łączenia informacji z różnych źródeł.
Nie. M3 potrafi odtworzyć istniejące eksperymenty i wykonać zadania według instrukcji, ale wymaga jasno określonego celu. Nie zastępuje kreatywności, podejmowania decyzji biznesowych ani rozumienia kontekstu projektu - rzeczy, które wciąż wymagają człowieka.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar