Gemini automatyzuje zadania za Ciebie. Wolno, ale działa
Źródło: Link
Źródło: Link
Ile razy dzisiaj otworzyłeś aplikację, żeby zrobić coś, co mógłby zrobić za Ciebie bot? Zamówić jedzenie. Wezwać przejazd. Sprawdzić status dostawy.
Google właśnie wypuścił funkcję, która ma to zmienić. Gemini na najnowszych smartfonach – Pixelu 10 Pro i Galaxy S26 Ultra – nauczył się obsługiwać aplikacje za Ciebie. Nie tylko podpowiada co kliknąć. Faktycznie klika.
Przetestowałem to przez ostatnie dni. Mam mieszane uczucia.
Gemini dostał nową opcję: task automation. Po jej włączeniu możesz poprosić asystenta o wykonanie zadania – na przykład "zamów mi pizzę pepperoni z DoorDash" – a on sam otworzy aplikację, przejdzie przez menu, doda produkt do koszyka i przejdzie do płatności.
Kluczowe słowo: przejdzie do płatności. Nie zapłaci za Ciebie. Zatrzymuje się przed ostatnim krokiem i czeka na Twoje potwierdzenie. Rozsądne posunięcie – nikt nie chce, żeby AI przypadkiem zamówiło 47 pizz zamiast jednej.
Na razie funkcja działa tylko z kilkoma aplikacjami: DoorDash, Uber Eats, Uber, Lyft. Niewiele, ale wystarczy, żeby zobaczyć, jak to działa w praktyce.
Pierwsze wrażenie? To trwa. Gemini nie przeskakuje od razu do celu. Faktycznie "klika" przez interfejs aplikacji, tak jak Ty byś to zrobił. Czasem zatrzymuje się, jakby zastanawiał się nad kolejnym krokiem. Czasem cofa się o ekran, bo wybrał złą opcję.
Zamówienie pizzy, które Tobie zajęłoby 30 sekund, Gemini robi w minutę-półtorej. Robi to jednak poprawnie – przynajmniej w moich testach nie popełnił błędu.
Widzisz każdy krok. Gemini nie działa w tle. Ekran pokazuje, co asystent robi w danym momencie. Możesz w każdej chwili przejąć kontrolę.
Gemini nie ma bezpośredniego dostępu do API aplikacji. Nie "rozmawia" z DoorDash przez zaplecze techniczne. Zamiast tego używa tego, co Google nazywa "screen understanding" – analizuje interfejs aplikacji tak, jak Ty byś go zobaczył, i symuluje dotknięcia ekranu.
AI ma oczy i palce, ale nie ma dostępu do skrótów klawiaturowych. Musi klikać myszką w każdy przycisk, bo nie zna innej drogi.
Dlaczego Google nie dał Gemini bezpośredniego dostępu do API? Większość aplikacji takiego API po prostu nie udostępnia. DoorDash nie ma publicznego endpointu "zamów pizzę programatycznie". Uber ma API dla firm, nie dla użytkowników końcowych.
Google poszedł więc inną drogą: nauczył Gemini obsługiwać aplikacje tak, jak robi to człowiek. Mniej eleganckie, za to działa z każdą aplikacją – przynajmniej teoretycznie.
Funkcja ma swoje granice. Po pierwsze: działa tylko na dwóch modelach telefonów. Pixel 10 Pro i Galaxy S26 Ultra. Starsze urządzenia nie dostaną tej funkcji – przynajmniej nie w pierwszej wersji.
Po drugie: lista obsługiwanych aplikacji jest krótka. Cztery apki to za mało, żeby nazwać to "automatyzacją życia". Google zapowiada rozszerzenie listy, ale nie podaje terminów.
Po trzecie: Gemini nie radzi sobie z niestandardowymi sytuacjami. Jeśli aplikacja wyświetli nieoczekiwany popup albo poprosi o potwierdzenie czegoś nietypowego, asystent się gubi. Wtedy musisz przejąć kontrolę ręcznie.
Ta funkcja to nie gotowy produkt. To proof of concept. Google pokazuje, że da się zbudować asystenta, który faktycznie robi rzeczy, a nie tylko o nich opowiada.
To istotna różnica. Dotychczasowi asystenci – Siri, Alexa, nawet wcześniejsze wersje Gemini – działali głównie jako interfejsy głosowe do funkcji, które ktoś wcześniej zaprogramował. Mogły włączyć timer, bo ktoś napisał kod "włącz timer". Mogły sprawdzić pogodę, bo ktoś zintegrował API pogodowe.
Gemini z task automation nie potrzebuje dedykowanej integracji. Jeśli potrafi "zobaczyć" interfejs i zrozumieć, co robią poszczególne przyciski, może obsłużyć aplikację. Nawet taką, o której istnieniu Google nie wiedział w momencie trenowania modelu.
To otwiera drogę do prawdziwych agentów AI, którzy mogą działać autonomicznie w środowiskach, których nie zaprojektowano specjalnie dla nich.
Google nie jest jedyną firmą pracującą nad tym problemem. Anthropic testuje podobne funkcje w Claude – ich Claude Cowork sprawdza rozszerzenia Chrome i może nawigować po interfejsach webowych. OpenAI eksperymentuje z agentami, które mogą obsługiwać aplikacje desktopowe.
Różnica? Google ma dostęp do Androida. Może zintegrować automatyzację głębiej w system operacyjny. Może dać Gemini uprawnienia, których inne asystenci nie dostaną.
To przewaga, której nie można lekceważyć. Jeśli Google zdecyduje się otworzyć task automation dla większej liczby aplikacji i urządzeń, może zbudować przewagę konkurencyjną, którą trudno będzie dogonić.
Jeśli masz Pixela 10 Pro albo Galaxy S26 Ultra – spróbuj. To ciekawe doświadczenie, nawet jeśli nie zmieni Twojego życia.
Jeśli nie masz – nie kupuj telefonu tylko dla tej funkcji. Jeszcze nie. To wersja 0.1, nie 1.0. Działa, ale ma ograniczenia, które sprawiają, że szybciej samemu klikniesz trzy przyciski, niż będziesz czekał, aż AI to zrobi za Ciebie.
Kierunek jest jednak dobry. Pierwszy raz widzę asystenta AI, który faktycznie wykonuje zadania zamiast tylko sugerować, co powinienem zrobić. To różnica między "Siri, zamów mi pizzę" → "Oto restauracje w Twojej okolicy" a "Siri, zamów mi pizzę" → "Zamówiłem. Dotrze za 30 minut".
Gemini jest bliżej tego drugiego scenariusza niż ktokolwiek wcześniej. Wolno, niezgrabnie, z ograniczeniami – ale jest.
Ile czasu zajmie Google przejście od "działa z czterema apkami" do "działa z każdą aplikacją na Twoim telefonie"? Jeśli to będzie rok – mamy przełom. Jeśli trzy lata – konkurencja zdąży dogonić.
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar