DeepSeek V4 ma wyjść w tym tygodniu. Tekst, obraz i wideo
Źródło: Link
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
Moja znajoma z agencji kreatywnej wczoraj narzekała, że musi skakać między trzema narzędziami. ChatGPT do tekstu, Midjourney do grafik, Runway do wideo. Każde z innym interfejsem, każde z osobnym abonamentem. DeepSeek najwyraźniej to słyszał.
Chiński lab z Hangzhou planuje wypuścić model V4 jeszcze w tym tygodniu. Według źródeł znających sprawę, ma to być pierwszy naprawdę multimodalny model z ich stajni – zdolny do generowania tekstu, obrazów i wideo. Pierwsza duża premiera od stycznia 2025, kiedy pokazali poprzednią wersję.
DeepSeek zamilkł na trzy miesiące. Żadnych ogłoszeń, żadnych aktualizacji, zero szumu w mediach.
Teraz wraca z modelem, który ma konkurować bezpośrednio z GPT-4o i Gemini – gigantami, które już od miesięcy oferują multimodalność.
Multimodalność to zdolność modelu do pracy z różnymi typami danych jednocześnie. Nie tylko rozumie tekst, ale też generuje obrazy, przetwarza wideo, analizuje dźwięk. Wszystko w jednym systemie, bez przeskakiwania między narzędziami.

Dla DeepSeek to kluczowy krok. Dotychczas ich modele koncentrowały się głównie na tekście i kodzie. V4 ma być pierwszym, który wchodzi na pełne pole walki – tam, gdzie OpenAI i Google już od dawna grają swoją grę.
Piszesz brief kampanii, generujesz do niego grafikę, tworzysz krótkie wideo – wszystko w tym samym interfejsie, z tym samym kontekstem. Model "pamięta" o czym rozmawialiście w tekście, kiedy generuje obraz.
Dlatego właśnie Gemini i GPT-4o zyskały przewagę w ostatnich miesiącach. Nie musisz tłumaczyć kontekstu od nowa przy każdym narzędziu. Nie tracisz czasu na eksport-import między platformami.
Budowanie multimodalnego modelu to nie kwestia dodania kilku funkcji do istniejącego systemu. To przeprojektowanie całej architektury.
Model musi nauczyć się "myśleć" w różnych formatach jednocześnie, nie tracąc jakości w żadnym z nich. OpenAI potrzebowało miesięcy, żeby przejść od GPT-4 do GPT-4o. Google iterowało Gemini przez kilka wersji.
DeepSeek najwyraźniej wolał zamilknąć i wrócić z gotowym produktem, niż pokazywać półśrodki.

DeepSeek to nie pierwszy raz, kiedy chiński lab próbuje dogonić OpenAI czy Google. Poprzednie wersje ich modeli były solidne, szczególnie w zadaniach związanych z kodem i analizą danych. Brakowało im jednak szerokiego zasięgu – multimodalność to właśnie ta brakująca część.
Jeśli V4 rzeczywiście wyjdzie w tym tygodniu, będzie to ciekawy test. Nie tylko technologiczny, ale też rynkowy. Czy chiński model potrafi konkurować z OpenAI, które już buduje imperium wokół swoich narzędzi? Czy znajdzie swoją niszę, czy zostanie kolejnym "też jest" w tłumie?
Dla polskich użytkowników kluczowe będzie, czy DeepSeek V4 będzie dostępny w Europie bez ograniczeń. Chińskie narzędzia AI często mają problemy z dostępem w UE ze względu na RODO i AI Act. Jeśli DeepSeek chce grać globalnie, musi rozwiązać te kwestie – inaczej zostanie narzędziem dla azjatyckiego rynku.
Również cena ma znaczenie. DeepSeek dotychczas oferował konkurencyjne stawki w porównaniu do OpenAI czy Anthropic. Jeśli utrzyma tę strategię przy V4, może przyciągnąć firmy szukające tańszej alternatywy do GPT-4o.

Jeśli DeepSeek rzeczywiście dostarczy działający multimodalny model na poziomie GPT-4o, rynek dostanie kolejną opcję. Dla Ciebie to dobrze – konkurencja obniża ceny i przyspiesza innowacje. Dla OpenAI i Google to sygnał, że nie mogą spocząć na laurach.
Zobaczymy w tym tygodniu, czy trzy miesiące ciszy przyniosły efekty. Albo DeepSeek wraca z narzędziem, które zmienia układ sił, albo pokazuje, że multimodalność to trudniejszy orzech do zgryzienia, niż się wydawało.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar