Gemini automatyzuje zadania za Ciebie. Wolno, ale działa

W skrócie:

Gemini na Pixelu 10 Pro i Galaxy S26 Ultra może teraz automatycznie obsługiwać wybrane aplikacje za Ciebie
Funkcja działa z aplikacjami do zamawiania jedzenia i przejazdów, ale jest wolna i ograniczona
To pierwszy krok w kierunku prawdziwych asystentów AI, które faktycznie wykonują zadania zamiast tylko odpowiadać na pytania
Technologia wymaga jeszcze pracy, ale pokazuje, dokąd zmierza automatyzacja mobilna

Ile razy dzisiaj otworzyłeś aplikację, żeby zrobić coś, co mógłby zrobić za Ciebie bot? Zamówić jedzenie. Wezwać przejazd. Sprawdzić status dostawy.

Google właśnie wypuścił funkcję, która ma to zmienić. Gemini na najnowszych smartfonach – Pixelu 10 Pro i Galaxy S26 Ultra – nauczył się obsługiwać aplikacje za Ciebie. Nie tylko podpowiada co kliknąć. Faktycznie klika.

Przetestowałem to przez ostatnie dni. Mam mieszane uczucia.

Jak wygląda automatyzacja zadań w praktyce

Gemini dostał nową opcję: task automation. Po jej włączeniu możesz poprosić asystenta o wykonanie zadania – na przykład "zamów mi pizzę pepperoni z DoorDash" – a on sam otworzy aplikację, przejdzie przez menu, doda produkt do koszyka i przejdzie do płatności.

Kluczowe słowo: przejdzie do płatności. Nie zapłaci za Ciebie. Zatrzymuje się przed ostatnim krokiem i czeka na Twoje potwierdzenie. Rozsądne posunięcie – nikt nie chce, żeby AI przypadkiem zamówiło 47 pizz zamiast jednej.

Gemini obsługuje aplikacje krok po kroku – widać każdy ruch asystenta

Na razie funkcja działa tylko z kilkoma aplikacjami: DoorDash, Uber Eats, Uber, Lyft. Niewiele, ale wystarczy, żeby zobaczyć, jak to działa w praktyce.

Wolno, ale skutecznie

Pierwsze wrażenie? To trwa. Gemini nie przeskakuje od razu do celu. Faktycznie "klika" przez interfejs aplikacji, tak jak Ty byś to zrobił. Czasem zatrzymuje się, jakby zastanawiał się nad kolejnym krokiem. Czasem cofa się o ekran, bo wybrał złą opcję.

Zamówienie pizzy, które Tobie zajęłoby 30 sekund, Gemini robi w minutę-półtorej. Robi to jednak poprawnie – przynajmniej w moich testach nie popełnił błędu.

Widzisz każdy krok. Gemini nie działa w tle. Ekran pokazuje, co asystent robi w danym momencie. Możesz w każdej chwili przejąć kontrolę.

Dlaczego to jest wolne i niezgrabne

Gemini nie ma bezpośredniego dostępu do API aplikacji. Nie "rozmawia" z DoorDash przez zaplecze techniczne. Zamiast tego używa tego, co Google nazywa "screen understanding" – analizuje interfejs aplikacji tak, jak Ty byś go zobaczył, i symuluje dotknięcia ekranu.

AI ma oczy i palce, ale nie ma dostępu do skrótów klawiaturowych. Musi klikać myszką w każdy przycisk, bo nie zna innej drogi.

Gemini "widzi" interfejs aplikacji i symuluje dotknięcia – stąd wolniejsze tempo

Dlaczego Google nie dał Gemini bezpośredniego dostępu do API? Większość aplikacji takiego API po prostu nie udostępnia. DoorDash nie ma publicznego endpointu "zamów pizzę programatycznie". Uber ma API dla firm, nie dla użytkowników końcowych.

Google poszedł więc inną drogą: nauczył Gemini obsługiwać aplikacje tak, jak robi to człowiek. Mniej eleganckie, za to działa z każdą aplikacją – przynajmniej teoretycznie.

Ograniczenia, które trzeba znać

Funkcja ma swoje granice. Po pierwsze: działa tylko na dwóch modelach telefonów. Pixel 10 Pro i Galaxy S26 Ultra. Starsze urządzenia nie dostaną tej funkcji – przynajmniej nie w pierwszej wersji.

Po drugie: lista obsługiwanych aplikacji jest krótka. Cztery apki to za mało, żeby nazwać to "automatyzacją życia". Google zapowiada rozszerzenie listy, ale nie podaje terminów.

Po trzecie: Gemini nie radzi sobie z niestandardowymi sytuacjami. Jeśli aplikacja wyświetli nieoczekiwany popup albo poprosi o potwierdzenie czegoś nietypowego, asystent się gubi. Wtedy musisz przejąć kontrolę ręcznie.

Co to znaczy dla przyszłości asystentów AI

Ta funkcja to nie gotowy produkt. To proof of concept. Google pokazuje, że da się zbudować asystenta, który faktycznie robi rzeczy, a nie tylko o nich opowiada.

To istotna różnica. Dotychczasowi asystenci – Siri, Alexa, nawet wcześniejsze wersje Gemini – działali głównie jako interfejsy głosowe do funkcji, które ktoś wcześniej zaprogramował. Mogły włączyć timer, bo ktoś napisał kod "włącz timer". Mogły sprawdzić pogodę, bo ktoś zintegrował API pogodowe.

Gemini z task automation nie potrzebuje dedykowanej integracji. Jeśli potrafi "zobaczyć" interfejs i zrozumieć, co robią poszczególne przyciski, może obsłużyć aplikację. Nawet taką, o której istnieniu Google nie wiedział w momencie trenowania modelu.

Od odpowiadania na pytania do wykonywania zadań – zmiana paradygmatu asystentów

To otwiera drogę do prawdziwych agentów AI, którzy mogą działać autonomicznie w środowiskach, których nie zaprojektowano specjalnie dla nich.

Konkurencja nie śpi

Google nie jest jedyną firmą pracującą nad tym problemem. Anthropic testuje podobne funkcje w Claude – ich Claude Cowork sprawdza rozszerzenia Chrome i może nawigować po interfejsach webowych. OpenAI eksperymentuje z agentami, które mogą obsługiwać aplikacje desktopowe.

Różnica? Google ma dostęp do Androida. Może zintegrować automatyzację głębiej w system operacyjny. Może dać Gemini uprawnienia, których inne asystenci nie dostaną.

To przewaga, której nie można lekceważyć. Jeśli Google zdecyduje się otworzyć task automation dla większej liczby aplikacji i urządzeń, może zbudować przewagę konkurencyjną, którą trudno będzie dogonić.

Czy warto już z tego korzystać

Jeśli masz Pixela 10 Pro albo Galaxy S26 Ultra – spróbuj. To ciekawe doświadczenie, nawet jeśli nie zmieni Twojego życia.

Jeśli nie masz – nie kupuj telefonu tylko dla tej funkcji. Jeszcze nie. To wersja 0.1, nie 1.0. Działa, ale ma ograniczenia, które sprawiają, że szybciej samemu klikniesz trzy przyciski, niż będziesz czekał, aż AI to zrobi za Ciebie.

Kierunek jest jednak dobry. Pierwszy raz widzę asystenta AI, który faktycznie wykonuje zadania zamiast tylko sugerować, co powinienem zrobić. To różnica między "Siri, zamów mi pizzę" → "Oto restauracje w Twojej okolicy" a "Siri, zamów mi pizzę" → "Zamówiłem. Dotrze za 30 minut".

Gemini jest bliżej tego drugiego scenariusza niż ktokolwiek wcześniej. Wolno, niezgrabnie, z ograniczeniami – ale jest.

Ile czasu zajmie Google przejście od "działa z czterema apkami" do "działa z każdą aplikacją na Twoim telefonie"? Jeśli to będzie rok – mamy przełom. Jeśli trzy lata – konkurencja zdąży dogonić.

Źródła

The Verge – Gemini task automation is slow, clunky, and super impressive

Gemini automatyzuje zadania za Ciebie. Wolno, ale działa

Jak wygląda automatyzacja zadań w praktyce

Wolno, ale skutecznie

Dlaczego to jest wolne i niezgrabne

Ograniczenia, które trzeba znać

Co to znaczy dla przyszłości asystentów AI

Konkurencja nie śpi

Czy warto już z tego korzystać

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Gemini automatyzuje zadania za Ciebie. Wolno, ale działa

Jak wygląda automatyzacja zadań w praktyce

Wolno, ale skutecznie

Dlaczego to jest wolne i niezgrabne

Ograniczenia, które trzeba znać

Co to znaczy dla przyszłości asystentów AI

Konkurencja nie śpi

Czy warto już z tego korzystać

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować