Chiński startup: AI, które widzi i obsługuje narzędzia
Źródło: Link
Źródło: Link
Vivomeal — działający produkt zbudowany na AI. Przykład tego, co wyjdzie po kursie.
Chiński startup Zhipu AI (znany też jako Z.ai) właśnie wypuścił GLM-4.6V. Seria modeli wizyjno-językowych, które łączą rozumienie obrazów z natywną zdolnością do wywoływania narzędzi.
asystenta AI, który patrzy na zrzut ekranu Twojej aplikacji i rozumie, co widzi. A potem? Sam klika właściwy przycisk. Wypełnia formularz. Otwiera menu. Bez dodatkowego kodu. Bez hacków. Po prostu wie.
Dostępny w dwóch wersjach: dużej i małej.
Większość modeli AI działa standardowo: widzą obraz, opisują go, a potem ktoś musi ręcznie napisać kod, który przetłumaczy ten opis na akcję. GLM-4.6V robi to inaczej.
Model został od podstaw nauczony nie tylko rozumieć, co widzi – ale też bezpośrednio wywoływać funkcje. To tzw. tool calling.
Przykład? Pokazujesz mu interfejs aplikacji bankowej. Model nie tylko mówi "widzę przycisk przelewu". Potrafi wykonać przelew – o ile dasz mu do tego dostęp. Różnica jak między kimś, kto opisuje przepis, a kimś, kto od razu gotuje.
Zhipu AI nazywa to "multimodal reasoning" – rozumowanie wielomodalne. Obraz, tekst i działanie w jednym płynnym procesie.
GLM-4.6V występuje w dwóch wariantach.
GLM-4.6V (106 milionów parametrów) – większy brat, zoptymalizowany pod kątem skomplikowanych zadań wizyjnych i automatyzacji interfejsów. Świetnie radzi sobie z rozumowaniem wieloetapowym. Na przykład gdy musisz przejść przez kilka ekranów aplikacji, żeby wykonać jedno zadanie.
GLM-4.6V Small – lżejsza wersja, stworzona z myślą o szybkim wdrożeniu i niższych kosztach. Mniej "mózgu", ale wystarczająco dużo, by obsłużyć typowe scenariusze. Bez spalania budżetu na GPU.
Oba modele są open source. Możesz je pobrać, przerobić, wdrożyć we własnej aplikacji. Bez licencji. Bez opłat.
Jeden z najciekawszych przypadków użycia? Automatyzacja interfejsów użytkownika.
Zespoły programistów spędzają tony czasu na testowaniu aplikacji – klikają przyciski, sprawdzają formularze, weryfikują, czy wszystko działa. GLM-4.6V może to robić za nich.
Pokazujesz mu ekran. Mówisz "sprawdź, czy przycisk logowania działa". Model sam przechodzi przez proces. Widzi przycisk, klika, sprawdza reakcję systemu, raportuje wynik.
To nie science fiction. Działająca technologia, którą możesz dziś uruchomić na własnym serwerze.
Zhipu AI to nie pierwsza chińska firma, która wypuszcza konkurencyjny model open source. DeepSeek, Alibaba, Baidu – wszyscy grają na tym samym boisku. I często wyprzedzają zachodnie firmy pod względem dostępności i otwartości kodu.
OpenAI trzyma GPT-5 pod kluczem. Anthropic ostrożnie dozuje dostęp do Claude'a. Chińskie startupy mówią: "Proszę bardzo, kod na GitHubie, rób co chcesz".
Efekt? Globalny ekosystem AI staje się coraz bardziej zdecentralizowany. Nie musisz płacić abonamentu wielkiej korporacji, żeby mieć dostęp do zaawansowanych modeli wizyjnych.
Jeśli prowadzisz firmę i myślisz o automatyzacji procesów – GLM-4.6V może być alternatywą dla drogich rozwiązań komercyjnych. Zwłaszcza jeśli Twoje procesy opierają się na interfejsach graficznych. Aplikacje webowe, pulpity administracyjne, systemy CRM.
Jeśli jesteś programistą – masz nowe narzędzie do testowania aplikacji, generowania raportów z UI, a nawet budowania agentów, którzy "widzą" i "działają" w środowisku graficznym.
Jeśli po prostu obserwujesz rynek AI – to kolejny sygnał, że otwarte modele doganiają zamknięte giganty. A czasem je wyprzedzają. Geografia innowacji w AI przestaje być jednobiegunowa.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar