MiniMax M3: milion tokenów kontekstu i 12 godzin pracy bez

MiniMax (Shanghai Hixi Technology) wypuścił 1 czerwca 2026 model M3, który łączy w jednej architekturze cztery rzeczy: zaawansowane kodowanie, możliwości agencyjne, milion tokenów kontekstu i natywne przetwarzanie multimedialne. Lista życzeń? Sprawdźmy, co z tego działa naprawdę.

Model M3 łączy kodowanie, agentów AI i przetwarzanie multimedialne w jednej architekturze

Milion tokenów kontekstu - co to w ogóle znaczy?

M3 bazuje na autorskiej architekturze Sparse Attention (MSA) i oferuje przez API do 1 miliona tokenów kontekstu, z gwarantowanym minimum 512K tokenów. Dla porównania - wystarczy, żeby wrzucić do modelu całą książkę i jeszcze zostanie miejsce na rozmowę o niej.

W praktyce taki kontekst przydaje się w trzech scenariuszach: długotrwałe zadania dla agentów AI, rozbudowane sesje kodowania (gdzie model musi pamiętać całą strukturę projektu) i analiza długich filmów. MiniMax twierdzi, że osiąga wiodącą w branży wydajność w benchmarkach kodowania i agentów - choć konkretnych liczb dla wszystkich testów nie podali.

Jak wypada w testach?

W benchmarku BrowseComp (testy dla agentów AI) M3 uzyskał 83.5 punktów, bijąc Claude Opus 4.7 (79.3). To solidny wynik. Jeden benchmark to nie cała historia - podobnie jak w przypadku modeli wideo, gdzie liczby to jedno, a użyteczność w praktyce to drugie.

M3 w teście autonomicznego odtworzenia eksperymentu naukowego - 12 godzin pracy bez interwencji człowieka

12 godzin bez nadzoru - test z prawdziwego świata

MiniMax przeprowadził ciekawy eksperyment: dali M3 zadanie odtworzenia artykułu naukowego z ICLR 2025 o dynamice uczenia się modeli językowych. Model pracował samodzielnie przez prawie 12 godzin, stworzył 18 commitów w repozytorium i wygenerował 23 wykresów eksperymentalnych.

Kluczowe słowo: "odtworzył". Nie wymyślił nowej metodologii, nie zaproponował ulepszeń - wykonał to, co było już opisane w papierze. Zrobił to jednak bez ciągłego dopytywania "co teraz?", co w przypadku większości obecnych modeli AI wciąż wymaga ludzkiego nadzoru.

Asystent badawczy - drugi test

W kolejnym teście M3 dostał cztery wytrenowane modele bazowe i polecenie: wykonaj syntezę danych, trening, ewaluację i iterację w ciągu 12 godzin. Bez interwencji człowieka. Wynik: 37.1 punktów, trzecie miejsce za Claude Opus 4.7 (42.4) i GPT-5.5 (39.3).

Różnica między pierwszym a trzecim miejscem to niecałe 5 punktów. W praktyce wszystkie trzy modele są na podobnym poziomie - wybór zależy raczej od ceny i dostępności niż od surowej wydajności.

Natywne przetwarzanie multimedialne - co to zmienia?

M3 to model natywnie multimodalny - trenowany od podstaw na danych tekstowych i wizualnych jednocześnie. MiniMax przebudował cały pipeline danych, skalując dane do setek terabajtów i osiągając ścisłe wyrównanie między przestrzeniami semantycznymi tekstu i obrazu.

W praktyce chodzi o to, że model nie traktuje obrazów jako "dodatku" do tekstu (jak robią to modele, które najpierw uczą się tekstu, a potem doklejają wizję). Rozumie obie modalności równocześnie, co teoretycznie powinno dawać lepsze wyniki w analizie wideo i zadaniach wymagających łączenia informacji z różnych źródeł.

Cennik API M3 - z 50% zniżką przez pierwsze 7 dni

Dostępność i cena - ile to kosztuje?

M3 jest dostępny w dwóch wersjach API: M3 (standardowa) i M3-highspeed (szybsza inferencja, identyczne wyniki). Obie wspierają automatyczne cachowanie, włączone domyślnie - przydatne, jeśli wielokrotnie przetwarzasz te same dane.

Cennik dla kontekstu do 512K tokenów (z 50% zniżką przez pierwsze 7 dni):

Input: 2.1 juana za milion tokenów (standard) lub 3.15 juana (priorytet)
Output: 8.4 juana (standard) lub 12.6 juana (priorytet)
Odczyt z cache: 0.42 juana (standard) lub 0.63 juana (priorytet) za milion tokenów

Dla kontekstu, juan to około 0.55 złotego (czerwiec 2026). MiniMax planuje też udostępnić M3 jako open-source na HuggingFace i GitHub, z możliwością deploymentu na prywatnych klastrach i fine-tuningu.

Pierwszy chiński model z pełnym zestawem możliwości

MiniMax twierdzi, że M3 to pierwszy chiński model AI łączący zaawansowane kodowanie, możliwości agencyjne, milionowy kontekst i natywne przetwarzanie multimedialne w jednej architekturze. Ważne stwierdzenie - nie "pierwszy na świecie", ale "pierwszy chiński".

Dlaczego to ma znaczenie? Chiński rynek AI rozwija się w częściowej izolacji od zachodnich modeli (GPT, Claude, Gemini mają ograniczony dostęp w Chinach). Lokalne firmy muszą budować własne rozwiązania - i M3 pokazuje, że robią to coraz lepiej. W niektórych benchmarkach (jak BrowseComp) M3 wyprzedza Claude Opus 4.7, co jeszcze rok temu byłoby nie do pomyślenia.

Dla reszty świata oznacza to jedno: konkurencja rośnie, a monopol kilku zachodnich firm na zaawansowane modele AI się kończy. Podobnie jak w przypadku integracji różnych narzędzi AI, liczy się ekosystem i dostępność - nie tylko surowa moc obliczeniowa.

Jak wykorzystać M3 w Twojej pracy?

Jeśli pracujesz z długimi dokumentami, kodem lub wideo - M3 może być ciekawą alternatywą dla Claude czy GPT. Milion tokenów kontekstu to realna przewaga w zadaniach wymagających "pamięci" o całym projekcie.

Jeśli testujesz agentów AI do automatyzacji zadań - wyniki M3 w BrowseComp (83.5) są lepsze niż Claude Opus 4.7 (79.3). Pamiętaj jednak: jeden benchmark to nie całość. Przetestuj na swoich danych, zanim zainwestujesz czas w migrację.

Jeśli jesteś w Polsce i nie masz dostępu do chińskiego API - poczekaj na wersję open-source na HuggingFace. MiniMax obiecuje ją udostępnić, co pozwoli na deployment na własnej infrastrukturze bez geoblokad.

Najczęstsze pytania

Czy M3 jest dostępny w Polsce?

Obecnie M3 działa przez API chińskie, co może oznaczać ograniczenia w dostępie z Polski. MiniMax zapowiedział jednak udostępnienie modelu jako open-source na HuggingFace i GitHub, co pozwoli na lokalne wdrożenie bez geoblokad.

Ile kosztuje używanie M3 w porównaniu do Claude czy GPT?

Przy kursie 1 juan = 0.55 zł, input kosztuje około 1.16 zł za milion tokenów (standard) lub 1.73 zł (priorytet) przez pierwsze 7 dni (z 50% zniżką). To znacznie taniej niż Claude Opus 4.7 (około 82 zł za milion tokenów input) czy GPT-5.

Co oznacza "natywnie multimodalny" w praktyce?

Model był trenowany od początku na danych tekstowych i wizualnych jednocześnie, nie jako dwa osobne systemy połączone później. Teoretycznie daje to lepsze rozumienie relacji między tekstem a obrazem, szczególnie w analizie wideo i zadaniach wymagających łączenia informacji z różnych źródeł.

Czy M3 zastąpi programistów?

Nie. M3 potrafi odtworzyć istniejące eksperymenty i wykonać zadania według instrukcji, ale wymaga jasno określonego celu. Nie zastępuje kreatywności, podejmowania decyzji biznesowych ani rozumienia kontekstu projektu - rzeczy, które wciąż wymagają człowieka.

Na podstawie: Pandaily - MiniMax Launches M3 Model With 1M Context and Native Multimodal Capabilities

Przeczytaj też:

MiniMax Music 2.6: generuj covery AI i podłączaj do agentów

MiniMax M3: milion tokenów kontekstu i 12 godzin pracy bez nadzoru

Powiązane tematy