Google tłumaczy na żywo Twoim głosem. 70 języków, zero opóźnień
Źródło: Link
Źródło: Link
118 lekcji bez kodowania. ChatGPT, Claude, Gemini, automatyzacje. Notatnik AI i AI Coach w cenie.
Dwadzieścia lat temu Google Translate zaczynał od prostych fraz słowo po słowie. Dziś tłumaczy Twoim głosem, zanim skończysz zdanie.
Gemini 3.5 Live Translate to pierwsza implementacja tłumaczenia głosowego, która nie czeka na koniec wypowiedzi. Klasyczne rozwiązania - włącznie z dotychczasowym Google Translate - działały w trybie "mówisz, czekasz, słuchasz". Nowy model zaczyna tłumaczyć w locie, z opóźnieniem kilku sekund. Robi to głosem, który To przypomina Twój - z Twoim tempem, pauzami i intonacją.

Dotychczasowe tłumaczenia głosowe wymagały pełnego kontekstu. Mówiłeś zdanie, system analizował całość, dopiero potem generował tłumaczenie. Gemini 3.5 Live Translate działa inaczej.
Zaczyna tłumaczyć podczas gdy jeszcze mówisz. Opóźnienie? Kilka sekund, nie kilkanaście.
Model obsługuje 70 języków i sam wykrywa, którym mówisz. Nie musisz ustawiać pary "polski-angielski" czy "niemiecki-francuski". Zaczynasz mówić, system rozpoznaje język i tłumaczy na drugi z pary, którą wybrałeś wcześniej w aplikacji.
Google zaleca używanie słuchawek dla lepszego komfortu. Na Androidzie dostępny jest tryb "Écouter" (Słuchaj), który pozwala trzymać telefon przy uchu jak podczas zwykłej rozmowy. Tłumaczenie leci przez wewnętrzny głośnik telefonu, ten sam którego używasz do rozmów. Firma twierdzi, że system działa nawet w hałaśliwym otoczeniu.
Funkcja dostępna jest w aplikacji Google Translate na iOS i Androidzie, w zakładce Conversation. Na iPhonie musisz użyć słuchawek. Android dostaje przewagę - tryb Écouter działa bez akcesoriów, telefon staje się tłumaczem kieszonkowym w najbardziej dosłownym sensie.
Ograniczenie? Tryb "przy uchu" nie jest jeszcze dostępny na iOS. Urządzenia Apple muszą polegać na słuchawkach lub głośniku zewnętrznym.

Największa zmiana nie dotyczy szybkości, tylko jakości dźwięku. Gemini 3.5 Live Translate nie generuje neutralnego, syntetycznego głosu. Model analizuje Twój timbre (barwę głosu), tempo mówienia i intonację - i odtwarza te cechy w tłumaczeniu.
Mówiąc wprost: jeśli mówisz szybko, z pauzami i zmiennym tonem, tłumaczenie brzmi podobnie. Nie dostaniesz monotonnej syntezy jak z GPS-u. To wciąż synteza, ale dopasowana do Twojego stylu mówienia.
Czy to ma znaczenie? Jeśli używasz tłumacza do szybkiej wymiany informacji - niekoniecznie. Jeśli prowadzisz dłuższą rozmowę, różnica jest odczuwalna. Rozmówca słyszy nie tylko słowa, ale też Twój rytm i emocjonalny ton wypowiedzi. To zmienia dynamikę konwersacji z "rozmawiamy przez maszynę" na "rozmawiamy, maszyna tylko zmienia język".
Google nie podaje listy obsługiwanych języków ani informacji, które pary działają najlepiej. 70 języków to liczba imponująca. Jakość tłumaczenia zawsze zależy od pary. Polski-angielski? Pewnie działa świetnie. Polski-wietnamski? Prawdopodobnie gorzej, bo mniej danych treningowych.
Firma nie mówi też, czy model radzi sobie z dialektami, akcentami regionalnymi czy przełączaniem języków w jednym zdaniu (code-switching). To pytania, na które odpowiedzi poznamy dopiero po testach w realnych warunkach.

Tłumaczenie w czasie rzeczywistym z zachowaniem głosu ma sens w kilku konkretnych scenariuszach:
Czy to zastąpi naukę języków? Nie. Czy zmniejszy barierę językową w codziennych interakcjach? Prawdopodobnie tak.
Różnica między "mogę się dogadać" a "mogę prowadzić płynną rozmowę" to przepaść. Gemini 3.5 Live Translate próbuje tę przepaść zwęzić.
Problem? Wciąż potrzebujesz telefonu, aplikacji i (często) słuchawek. To nie jest jeszcze technologia "niewidzialna" - wciąż wymaga świadomego użycia narzędzia. Kierunek jest jasny: tłumaczenie przestaje być przeszkodą, staje się przezroczystą warstwą między rozmówcami.
Nie, funkcja wymaga połączenia z internetem. Model działa w chmurze Google, więc bez sieci nie uruchomisz tłumaczenia w czasie rzeczywistym. Klasyczne tłumaczenie offline w Google Translate wciąż działa, ale bez funkcji odtwarzania głosu.
Nie, tryb "przy uchu" (Écouter) jest dostępny tylko na Androidzie. Na iOS musisz użyć słuchawek lub głośnika zewnętrznego telefonu. Google nie podał, czy planuje rozszerzyć tę funkcję na urządzenia Apple.
Funkcja jest dostępna za darmo w aplikacji Google Translate. Nie wymaga subskrypcji ani płatności - wystarczy pobrać najnowszą wersję aplikacji na iOS lub Androida.
Google nie podał szczegółów dotyczących obsługi akcentów i dialektów. Model odtwarza timbre, tempo i intonację, ale nie wiadomo, czy rozpoznaje i przenosi cechy regionalne języka. To pytanie, na które odpowiedź poznamy po testach użytkowników.
Na podstawie: Siècle Digital
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar