Wideo AI
Wideo AI · 6 min czytania · 1 czerwca 2026

MiniMax M3: milion tokenów kontekstu i 12 godzin pracy bez nadzoru

MiniMax M3: milion tokenów kontekstu i 12 godzin pracy bez nadzoru

Źródło: Link

Darmowy webinar - AI od zera

90 minut praktyki na żywo. Pokazuję krok po kroku, jak zacząć z AI bez kodowania.

Zapisz się →

Powiązane tematy

MiniMax (Shanghai Hixi Technology) wypuścił 1 czerwca 2026 model M3, który łączy w jednej architekturze cztery rzeczy: zaawansowane kodowanie, możliwości agencyjne, milion tokenów kontekstu i natywne przetwarzanie multimedialne. Lista życzeń? Sprawdźmy, co z tego działa naprawdę.

Model M3 łączy kodowanie, agentów AI i przetwarzanie multimedialne w jednej architekturze
Model M3 łączy kodowanie, agentów AI i przetwarzanie multimedialne w jednej architekturze

Milion tokenów kontekstu - co to w ogóle znaczy?

M3 bazuje na autorskiej architekturze Sparse Attention (MSA) i oferuje przez API do 1 miliona tokenów kontekstu, z gwarantowanym minimum 512K tokenów. Dla porównania - wystarczy, żeby wrzucić do modelu całą książkę i jeszcze zostanie miejsce na rozmowę o niej.

W praktyce taki kontekst przydaje się w trzech scenariuszach: długotrwałe zadania dla agentów AI, rozbudowane sesje kodowania (gdzie model musi pamiętać całą strukturę projektu) i analiza długich filmów. MiniMax twierdzi, że osiąga wiodącą w branży wydajność w benchmarkach kodowania i agentów - choć konkretnych liczb dla wszystkich testów nie podali.

Jak wypada w testach?

W benchmarku BrowseComp (testy dla agentów AI) M3 uzyskał 83.5 punktów, bijąc Claude Opus 4.7 (79.3). To solidny wynik. Jeden benchmark to nie cała historia - podobnie jak w przypadku modeli wideo, gdzie liczby to jedno, a użyteczność w praktyce to drugie.

M3 w teście autonomicznego odtworzenia eksperymentu naukowego - 12 godzin pracy bez interwencji człowieka
M3 w teście autonomicznego odtworzenia eksperymentu naukowego - 12 godzin pracy bez interwencji człowieka

12 godzin bez nadzoru - test z prawdziwego świata

MiniMax przeprowadził ciekawy eksperyment: dali M3 zadanie odtworzenia artykułu naukowego z ICLR 2025 o dynamice uczenia się modeli językowych. Model pracował samodzielnie przez prawie 12 godzin, stworzył 18 commitów w repozytorium i wygenerował 23 wykresów eksperymentalnych.

Kluczowe słowo: "odtworzył". Nie wymyślił nowej metodologii, nie zaproponował ulepszeń - wykonał to, co było już opisane w papierze. Zrobił to jednak bez ciągłego dopytywania "co teraz?", co w przypadku większości obecnych modeli AI wciąż wymaga ludzkiego nadzoru.

Asystent badawczy - drugi test

W kolejnym teście M3 dostał cztery wytrenowane modele bazowe i polecenie: wykonaj syntezę danych, trening, ewaluację i iterację w ciągu 12 godzin. Bez interwencji człowieka. Wynik: 37.1 punktów, trzecie miejsce za Claude Opus 4.7 (42.4) i GPT-5.5 (39.3).

Różnica między pierwszym a trzecim miejscem to niecałe 5 punktów. W praktyce wszystkie trzy modele są na podobnym poziomie - wybór zależy raczej od ceny i dostępności niż od surowej wydajności.

Natywne przetwarzanie multimedialne - co to zmienia?

M3 to model natywnie multimodalny - trenowany od podstaw na danych tekstowych i wizualnych jednocześnie. MiniMax przebudował cały pipeline danych, skalując dane do setek terabajtów i osiągając ścisłe wyrównanie między przestrzeniami semantycznymi tekstu i obrazu.

W praktyce chodzi o to, że model nie traktuje obrazów jako "dodatku" do tekstu (jak robią to modele, które najpierw uczą się tekstu, a potem doklejają wizję). Rozumie obie modalności równocześnie, co teoretycznie powinno dawać lepsze wyniki w analizie wideo i zadaniach wymagających łączenia informacji z różnych źródeł.

Cennik API M3 - z 50% zniżką przez pierwsze 7 dni
Cennik API M3 - z 50% zniżką przez pierwsze 7 dni

Dostępność i cena - ile to kosztuje?

M3 jest dostępny w dwóch wersjach API: M3 (standardowa) i M3-highspeed (szybsza inferencja, identyczne wyniki). Obie wspierają automatyczne cachowanie, włączone domyślnie - przydatne, jeśli wielokrotnie przetwarzasz te same dane.

Cennik dla kontekstu do 512K tokenów (z 50% zniżką przez pierwsze 7 dni):

  • Input: 2.1 juana za milion tokenów (standard) lub 3.15 juana (priorytet)
  • Output: 8.4 juana (standard) lub 12.6 juana (priorytet)
  • Odczyt z cache: 0.42 juana (standard) lub 0.63 juana (priorytet) za milion tokenów

Dla kontekstu, juan to około 0.55 złotego (czerwiec 2026). MiniMax planuje też udostępnić M3 jako open-source na HuggingFace i GitHub, z możliwością deploymentu na prywatnych klastrach i fine-tuningu.

Pierwszy chiński model z pełnym zestawem możliwości

MiniMax twierdzi, że M3 to pierwszy chiński model AI łączący zaawansowane kodowanie, możliwości agencyjne, milionowy kontekst i natywne przetwarzanie multimedialne w jednej architekturze. Ważne stwierdzenie - nie "pierwszy na świecie", ale "pierwszy chiński".

Dlaczego to ma znaczenie? Chiński rynek AI rozwija się w częściowej izolacji od zachodnich modeli (GPT, Claude, Gemini mają ograniczony dostęp w Chinach). Lokalne firmy muszą budować własne rozwiązania - i M3 pokazuje, że robią to coraz lepiej. W niektórych benchmarkach (jak BrowseComp) M3 wyprzedza Claude Opus 4.7, co jeszcze rok temu byłoby nie do pomyślenia.

Dla reszty świata oznacza to jedno: konkurencja rośnie, a monopol kilku zachodnich firm na zaawansowane modele AI się kończy. Podobnie jak w przypadku integracji różnych narzędzi AI, liczy się ekosystem i dostępność - nie tylko surowa moc obliczeniowa.

Jak wykorzystać M3 w Twojej pracy?

Jeśli pracujesz z długimi dokumentami, kodem lub wideo - M3 może być ciekawą alternatywą dla Claude czy GPT. Milion tokenów kontekstu to realna przewaga w zadaniach wymagających "pamięci" o całym projekcie.

Jeśli testujesz agentów AI do automatyzacji zadań - wyniki M3 w BrowseComp (83.5) są lepsze niż Claude Opus 4.7 (79.3). Pamiętaj jednak: jeden benchmark to nie całość. Przetestuj na swoich danych, zanim zainwestujesz czas w migrację.

Jeśli jesteś w Polsce i nie masz dostępu do chińskiego API - poczekaj na wersję open-source na HuggingFace. MiniMax obiecuje ją udostępnić, co pozwoli na deployment na własnej infrastrukturze bez geoblokad.

Najczęstsze pytania

Czy M3 jest dostępny w Polsce?

Obecnie M3 działa przez API chińskie, co może oznaczać ograniczenia w dostępie z Polski. MiniMax zapowiedział jednak udostępnienie modelu jako open-source na HuggingFace i GitHub, co pozwoli na lokalne wdrożenie bez geoblokad.

Ile kosztuje używanie M3 w porównaniu do Claude czy GPT?

Przy kursie 1 juan = 0.55 zł, input kosztuje około 1.16 zł za milion tokenów (standard) lub 1.73 zł (priorytet) przez pierwsze 7 dni (z 50% zniżką). To znacznie taniej niż Claude Opus 4.7 (około 82 zł za milion tokenów input) czy GPT-5.

Co oznacza "natywnie multimodalny" w praktyce?

Model był trenowany od początku na danych tekstowych i wizualnych jednocześnie, nie jako dwa osobne systemy połączone później. Teoretycznie daje to lepsze rozumienie relacji między tekstem a obrazem, szczególnie w analizie wideo i zadaniach wymagających łączenia informacji z różnych źródeł.

Czy M3 zastąpi programistów?

Nie. M3 potrafi odtworzyć istniejące eksperymenty i wykonać zadania według instrukcji, ale wymaga jasno określonego celu. Nie zastępuje kreatywności, podejmowania decyzji biznesowych ani rozumienia kontekstu projektu - rzeczy, które wciąż wymagają człowieka.

Na podstawie: Pandaily - MiniMax Launches M3 Model With 1M Context and Native Multimodal Capabilities

Informacje o artykule

Podoba Ci się ten artykuł?

Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!

Ten temat omawiam szerzej na webinarze

90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.

Zapisz sie na webinar
Udostępnij:
Jan Gajos

Ekspert AI & Founder, AI Evolution

Pasjonat sztucznej inteligencji, który od 18 lat działa z sukcesem biznesowo i szkoleniowo. Wprowadzam AI do swoich firm oraz codziennego życia. Fascynują mnie nowe technologie, gry wideo i składanie klocków Lego - tam też widzę logikę i kreatywność, które AI potrafi wzmacniać. Wierzę, że dobrze użyta sztuczna inteligencja to nie ogłupiające ułatwienie, lecz prawdziwy przełom w sposobie, w jaki myślimy, tworzymy i pracujemy.