Chiński startup wypuścił model AI, który widzi i używa narzędzi

Chiński startup Zhipu AI (znany też jako Z.ai) właśnie wypuścił GLM-4.6V. Seria modeli wizyjno-językowych, które łączą rozumienie obrazów z natywną zdolnością do wywoływania narzędzi.

asystenta AI, który patrzy na zrzut ekranu Twojej aplikacji i rozumie, co widzi. A potem? Sam klika właściwy przycisk. Wypełnia formularz. Otwiera menu. Bez dodatkowego kodu. Bez hacków. Po prostu wie.

Dostępny w dwóch wersjach: dużej i małej.

Natywne wywoływanie narzędzi – co to właściwie znaczy?

Większość modeli AI działa standardowo: widzą obraz, opisują go, a potem ktoś musi ręcznie napisać kod, który przetłumaczy ten opis na akcję. GLM-4.6V robi to inaczej.

Model został od podstaw nauczony nie tylko rozumieć, co widzi – ale też bezpośrednio wywoływać funkcje. To tzw. tool calling.

Przykład? Pokazujesz mu interfejs aplikacji bankowej. Model nie tylko mówi "widzę przycisk przelewu". Potrafi wykonać przelew – o ile dasz mu do tego dostęp. Różnica jak między kimś, kto opisuje przepis, a kimś, kto od razu gotuje.

Zhipu AI nazywa to "multimodal reasoning" – rozumowanie wielomodalne. Obraz, tekst i działanie w jednym płynnym procesie.

Dwa rozmiary, dwa scenariusze

GLM-4.6V występuje w dwóch wariantach.

GLM-4.6V (106 milionów parametrów) – większy brat, zoptymalizowany pod kątem skomplikowanych zadań wizyjnych i automatyzacji interfejsów. Świetnie radzi sobie z rozumowaniem wieloetapowym. Na przykład gdy musisz przejść przez kilka ekranów aplikacji, żeby wykonać jedno zadanie.

GLM-4.6V Small – lżejsza wersja, stworzona z myślą o szybkim wdrożeniu i niższych kosztach. Mniej "mózgu", ale wystarczająco dużo, by obsłużyć typowe scenariusze. Bez spalania budżetu na GPU.

Oba modele są open source. Możesz je pobrać, przerobić, wdrożyć we własnej aplikacji. Bez licencji. Bez opłat.

Automatyzacja frontendu – koniec z ręcznym testowaniem?

Jeden z najciekawszych przypadków użycia? Automatyzacja interfejsów użytkownika.

Zespoły programistów spędzają tony czasu na testowaniu aplikacji – klikają przyciski, sprawdzają formularze, weryfikują, czy wszystko działa. GLM-4.6V może to robić za nich.

Pokazujesz mu ekran. Mówisz "sprawdź, czy przycisk logowania działa". Model sam przechodzi przez proces. Widzi przycisk, klika, sprawdza reakcję systemu, raportuje wynik.

To nie science fiction. Działająca technologia, którą możesz dziś uruchomić na własnym serwerze.

Dlaczego Chiny znów nas wyprzedzają?

Zhipu AI to nie pierwsza chińska firma, która wypuszcza konkurencyjny model open source. DeepSeek, Alibaba, Baidu – wszyscy grają na tym samym boisku. I często wyprzedzają zachodnie firmy pod względem dostępności i otwartości kodu.

OpenAI trzyma GPT-5 pod kluczem. Anthropic ostrożnie dozuje dostęp do Claude'a. Chińskie startupy mówią: "Proszę bardzo, kod na GitHubie, rób co chcesz".

Efekt? Globalny ekosystem AI staje się coraz bardziej zdecentralizowany. Nie musisz płacić abonamentu wielkiej korporacji, żeby mieć dostęp do zaawansowanych modeli wizyjnych.

Co to oznacza w praktyce?

Jeśli prowadzisz firmę i myślisz o automatyzacji procesów – GLM-4.6V może być alternatywą dla drogich rozwiązań komercyjnych. Zwłaszcza jeśli Twoje procesy opierają się na interfejsach graficznych. Aplikacje webowe, pulpity administracyjne, systemy CRM.

Jeśli jesteś programistą – masz nowe narzędzie do testowania aplikacji, generowania raportów z UI, a nawet budowania agentów, którzy "widzą" i "działają" w środowisku graficznym.

Jeśli po prostu obserwujesz rynek AI – to kolejny sygnał, że otwarte modele doganiają zamknięte giganty. A czasem je wyprzedzają. Geografia innowacji w AI przestaje być jednobiegunowa.

Przeczytaj też:

Źródła

VentureBeat AI – Z.ai debuts open source GLM-4.6V

Chiński startup: AI, które widzi i obsługuje narzędzia

Zobacz SaaS zbudowany z AI

Powiązane tematy

Natywne wywoływanie narzędzi – co to właściwie znaczy?

Dwa rozmiary, dwa scenariusze

Automatyzacja frontendu – koniec z ręcznym testowaniem?

Dlaczego Chiny znów nas wyprzedzają?

Co to oznacza w praktyce?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Chiński startup: AI, które widzi i obsługuje narzędzia

Zobacz SaaS zbudowany z AI

Powiązane tematy

Natywne wywoływanie narzędzi – co to właściwie znaczy?

Dwa rozmiary, dwa scenariusze

Automatyzacja frontendu – koniec z ręcznym testowaniem?

Dlaczego Chiny znów nas wyprzedzają?

Co to oznacza w praktyce?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

Gemini Embedding 2 — jeden model dla tekstu, obrazu i dźwięku

AI do analizy PDF — jak wyciągnąć informacje w 3 minuty

Google SGE, Perplexity, SearchGPT — jak AI zmienia wyszukiwanie