Gemini przejmie kontrolę nad Twoim Androidem
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
Google pracuje nad czymś, co przypomina science fiction z lat 90. Gemini – ich asystent AI – ma nauczyć się obsługiwać aplikacje w Twoim smartfonie. Sam. Bez Twojej pomocy.
Nie chodzi tu o wydawanie poleceń głosowych w stylu "wyślij wiadomość do Ani". To znasz. To mamy od lat.
Chodzi o coś zupełnie innego.
mówisz do telefonu "zarezerwuj stolik w tej włoskiej restauracji, którą widziałem wczoraj". I co się dzieje?
Gemini otwiera Gmaila. Znajduje wiadomość z reklamą restauracji. Wyciąga adres. Wchodzi na stronę. Sprawdza godziny otwarcia. Otwiera aplikację do rezerwacji (albo dzwoni – jeśli trzeba). Rezerwuje stolik. Dodaje wydarzenie do kalendarza.
Wszystko to bez jednego kliknięcia z Twojej strony.
To tylko łańcuch prostych działań. Wykonanych automatycznie.
Siri, Alexa, Google Assistant – wszystkie działają na tej samej zasadzie. Słuchają komendy. Wykonują JEDNĄ czynność. Koniec.
Gemini ma działać inaczej. Ma rozumieć KONTEKST. Ma łączyć informacje z różnych aplikacji. Ma podejmować decyzje.
Przykład: prosisz o "przesłanie tego zdjęcia Markowi". Zwykły asystent zapyta: "którego zdjęcia?". Gemini sprawdzi, co ostatnio oglądałeś w galerii. Znajdzie Marka w kontaktach — nawet jeśli masz trzech Marków, wybierze tego, z którym ostatnio rozmawiałeś o zdjęciach. I wyśle.
To różnica między kalkulatorem a kimś, kto rozwiązuje za Ciebie zadanie tekstowe z matmy.
Jeśli to zadziała tak, jak Google planuje, zmieni się sposób, w jaki używasz telefonu.
Zamiast przeskakiwać między aplikacjami – powiesz, co chcesz osiągnąć. Gemini zajmie się resztą.
Przykłady?
"Znajdź najtańszy lot do Barcelony w maju i dodaj daty do kalendarza" — Gemini sprawdzi kilka aplikacji lotniczych, porówna ceny, zarezerwuje (jeśli mu pozwolisz) i zablokuje terminy.
"Przypomnij mi o kupnie mleka, gdy będę koło Biedronki" — połączy lokalizację z listą zakupów i wyśle powiadomienie we właściwym momencie.
"Pokaż mi wszystkie dokumenty związane z projektem X" — przeszuka maile, Dysk, zdjęcia, notatki. Wszystko w jednym miejscu.
Jak Gemini ma to robić? Przez coś, co w świecie AI nazywa się "agent actions" – działania agenta.
Agent to program, który nie tylko odpowiada na pytania (jak ChatGPT), ale WYKONUJE zadania. Otwiera aplikacje. Klika przyciski. Wypełnia formularze.
W praktyce wygląda to tak: Gemini "widzi" interfejs Twojego telefonu. Rozpoznaje przyciski, pola tekstowe, menu. I nawiguje po nich jak człowiek — tylko szybciej.
Technologia ta nazywa się "UI understanding" – rozumienie interfejsu użytkownika. Model AI analizuje, co jest na ekranie, i przewiduje, gdzie kliknąć, żeby osiągnąć cel.
Dla Ciebie to niewidoczne. Dla programistów – przełom.
Google nie podał daty. Pracuje "intensywnie" – tak brzmi oficjalna wersja.
Co to znaczy? Pewnie kilka miesięcy. Może pół roku. Najpierw wersja testowa dla wybranych użytkowników w USA (jak zwykle). Potem reszta świata.
Polska? Tradycyjnie – w drugiej fali. Tym razem różnica może być mniejsza. Gemini działa już po polsku. Infrastruktura jest.
Słoń w pokoju. Jeśli Gemini ma kontrolować Twoje aplikacje, musi mieć do nich dostęp. Pełny.
Google zapewnia, że wszystko będzie "opcjonalne" i "pod kontrolą użytkownika". Będziesz mógł wybrać, które aplikacje Gemini może otwierać. I co może w nich robić.
Brzmi rozsądnie. Diabeł tkwi w szczegółach. Jeśli Gemini ma być naprawdę użyteczny, będzie potrzebował dostępu do... no, praktycznie wszystkiego. Kontaktów. Kalendarza. Maili. Zdjęć. Lokalizacji.
To klasyczny trade-off: wygoda kontra prywatność. Ile jesteś gotów oddać, żeby zyskać asystenta, który naprawdę Ci pomaga.
Pytanie retoryczne. Większość ludzi odpowie działaniem – kliknie "zgadzam się" i zapomni o tym po 10 sekundach.
Google nie jest sam w tym wyścigu. Apple pracuje nad podobnymi funkcjami dla Siri. OpenAI testuje agenci w ChatGPT. Microsoft integruje Copilota z Windowsem i Androidem (przez Samsung).
Wszyscy gonią ten sam cel: asystent AI, który NAPRAWDĘ asystuje. Nie tylko gadający bot.
Kto wygra? Ten, kto pierwszy zrobi to dobrze. Nie pierwszy, kto wypuści wersję beta pełną bugów.
Google ma przewagę: kontroluje Androida. Nie musi prosić nikogo o pozwolenie na głęboką integrację. Apple też ma tę przewagę w swoim ekosystemie. OpenAI i Microsoft muszą prosić producentów o współpracę.
Może. Jeśli Gemini będzie działał tylko na Androidzie (a właściwie – tylko na Pixelach przez pierwszy rok), to nagle telefony Google staną się dużo bardziej atrakcyjne.
To może być ich "killer feature" – funkcja, dla której ludzie zmieniają telefon.
Samsung pewnie dostanie dostęp szybko (mają umowę z Google). Reszta producentów – zobaczymy. Xiaomi, OnePlus, Oppo – wszyscy będą musieli negocjować.
A Apple? Zrobi swoje. Siri nauczy się podobnych sztuczek. Będzie to działało tylko w ekosystemie Apple. Co dla użytkowników iPhone'ów nie jest problemem – oni i tak nie wychodzą poza ten ekosystem.
Jeśli Gemini będzie obsługiwał aplikacje za użytkowników, zmieni się sposób, w jaki projektuje się interfejsy.
Nagle ważniejsze od "ładnego designu" będzie "czy AI to zrozumie".
Przyciski będą musiały mieć jasne etykiety. Formularze – logiczną strukturę. Menu – przewidywalną hierarchię.
To może być dobra wiadomość dla użytkowników. Aplikacje staną się prostsze. Mniej "kreatywnych" rozwiązań, które wyglądają ładnie, ale są nieczytelne.
Zła wiadomość? Wszystko zacznie wyglądać podobnie. Standaryzacja to wróg oryginalności.
Google pracuje nad funkcją, która może zmienić smartfony z narzędzi wymagających Twojej uwagi w asystentów działających w tle. Gemini ma przejąć kontrolę nad aplikacjami i wykonywać zadania za Ciebie. Brzmi futurystycznie — jeśli działa, to właśnie tak wygląda kolejny krok w ewolucji telefonów. Pytanie nie brzmi "czy to się stanie". Tylko "kiedy" i "na jakich warunkach".
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar