ChatGPT połączył głos z tekstem. W jednym oknie
Źródło: Link
Źródło: Link
Audyty, wdrożenia, szkolenia sprzedażowe i AI. Dopasowane do zespołu i procesów.
Pamiętasz to irytujące przełączanie między trybem tekstowym a głosowym w ChatGPT?
No więc — koniec z tym.
OpenAI właśnie to zlikwidowało. Od teraz głos i tekst działają w tym samym oknie. Mówisz — widzisz odpowiedź na ekranie. W czasie rzeczywistym. Razem z grafiką, kodem, czy czymkolwiek innym, co AI akurat generuje.
Do tej pory tryb głosowy w ChatGPT był osobnym bytem. Klikałeś ikonę, interfejs się zmieniał, traciłeś kontekst wizualny. Chciałeś coś zobaczyć? Wracałeś do tekstu.
Teraz wszystko dzieje się równolegle.
Zadajesz pytanie głosowo, a odpowiedź pojawia się na ekranie — słyszysz ją i widzisz jednocześnie. ChatGPT generuje wykres? Widzisz go od razu. Kod? Też. Obrazek? Analogicznie.
Może brzmieć jak drobnostka. Zmienia jednak sposób interakcji. Bo nagle rozmowa z AI staje się... naturalniejsza. Mniej klikania, więcej płynności.
Warto docenić, jak bardzo poprzednie rozwiązanie było uciążliwe w codziennym użyciu. Wyobraź sobie, że omawiasz z ChatGPT strukturę prezentacji. Mówisz, model odpowiada, ale jeśli chciałeś zobaczyć gotowy szkielet slajdów — musiałeś wyjść z trybu głosowego, wrócić do tekstu, odnaleźć wątek. To przerywało myślenie. Teraz cały ten kontekst zostaje na ekranie, a ty kontynuujesz rozmowę bez straty rytmu.
OpenAI od miesięcy chwali się multimodalnością GPT-4. Tekst, obraz, dźwięk — wszystko w jednym modelu.
Problem? Interfejs nie nadążał za możliwościami.
Teraz nadążył.
Przykład: pytasz głosowo o analizę danych. ChatGPT odpowiada — słyszysz wyjaśnienie, widzisz tabelę i wykres. Bez przerywania, bez przełączania widoków. Kontekst zostaje. Uwaga też.
Dla użytkowników mobilnych to jeszcze większa zmiana. Telefon w kieszeni, słuchawki w uszach, a na ekranie — pełna transkrypcja i wizualizacje. Idealne do nauki, burzy mózgów czy szybkiego researchu w drodze.
To też istotna zmiana w sposobie, w jaki rozumiemy samą rozmowę z modelem językowym. Dotychczas interfejs głosowy sugerował, że AI to asystent do pogadania — coś w rodzaju Siri czy Asystenta Google. Nowe podejście OpenAI mówi wyraźnie: głos to pełnoprawny sposób pracy, a nie uproszczony tryb dla mniej wymagających zadań.
Przede wszystkim — sposób pracy.
Wcześniej tryb głosowy był dla "rozmów". Tekst — do "poważnych" zadań. Teraz granica znika. Możesz dyktować prompt, widzieć efekt, poprawiać głosowo, znowu patrzeć na wynik. Bez wychodzenia z flow.
Dla osób z dysleksją, problemami wzrokowymi czy po prostu preferujących audio — to game changer. Dostępność AI nagle staje się... dostępniejsza.
Konkretne scenariusze, gdzie nowy interfejs robi różnicę:
I jeszcze jedno: konkurencja nie śpi. Google Gemini, Claude od Anthropic — wszyscy pracują nad płynniejszymi interfejsami. OpenAI właśnie podbił stawkę.
Integracja głosu z interfejsem tekstowym to nie tylko wygoda — to sygnał o kierunku, w którym zmierza cały rynek asystentów AI. Google od miesięcy eksperymentuje z Project Astra, który ma umożliwić ciągłą rozmowę z modelem połączoną z analizą obrazu z kamery. Meta pracuje nad głosowym interfejsem dla okularów Ray-Ban. Apple buduje głębiej zintegrowanego Siri na bazie modeli językowych.
Na tym tle ruch OpenAI jest odpowiedzią na realną presję konkurencyjną. Dotychczasowy podział na tryb głosowy i tekstowy był coraz bardziej widoczną słabością produktu — szczególnie w porównaniu z aplikacjami, które od początku projektowano z myślą o płynnym przechodzeniu między modalnościami.
Kluczowe pytanie brzmi: czy użytkownicy rzeczywiście zmienią swoje nawyki? Historia pokazuje, że nowe sposoby interakcji z technologią przyjmują się wtedy, gdy przestają wymagać wysiłku. Właśnie dlatego ta aktualizacja jest ważniejsza, niż mogłoby się wydawać na pierwszy rzut oka.
Pewnie nie.
Użytkownicy już pytają o kolejne rzeczy: współdzielenie ekranu podczas rozmowy głosowej, adnotacje na obrazach w czasie rzeczywistym, lepsze wsparcie dla języków poza angielskim.
To jednak dobry krok. Bo najlepsze technologie to te, o których przestajesz myśleć — po prostu działają. I właśnie w tym kierunku idzie ChatGPT.
Sprawdź sam — jeśli masz dostęp do trybu głosowego (Plus, Team, Enterprise), zaktualizuj aplikację. Nowy interfejs czeka.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar