Modele AI
Modele AI · 4 min czytania · 26 listopada 2025

ChatGPT połączył głos z tekstem. W jednym oknie

ChatGPT połączył głos z tekstem. W jednym oknie

Źródło: Link

AI dla Twojej firmy

Audyty, wdrożenia, szkolenia sprzedażowe i AI. Dopasowane do zespołu i procesów.

Sprawdź ofertę →

Powiązane tematy

Pamiętasz to irytujące przełączanie między trybem tekstowym a głosowym w ChatGPT?

No więc — koniec z tym.

OpenAI właśnie to zlikwidowało. Od teraz głos i tekst działają w tym samym oknie. Mówisz — widzisz odpowiedź na ekranie. W czasie rzeczywistym. Razem z grafiką, kodem, czy czymkolwiek innym, co AI akurat generuje.

Koniec z przełączaniem ekranów

Do tej pory tryb głosowy w ChatGPT był osobnym bytem. Klikałeś ikonę, interfejs się zmieniał, traciłeś kontekst wizualny. Chciałeś coś zobaczyć? Wracałeś do tekstu.

Teraz wszystko dzieje się równolegle.

Zadajesz pytanie głosowo, a odpowiedź pojawia się na ekranie — słyszysz ją i widzisz jednocześnie. ChatGPT generuje wykres? Widzisz go od razu. Kod? Też. Obrazek? Analogicznie.

Może brzmieć jak drobnostka. Zmienia jednak sposób interakcji. Bo nagle rozmowa z AI staje się... naturalniejsza. Mniej klikania, więcej płynności.

Warto docenić, jak bardzo poprzednie rozwiązanie było uciążliwe w codziennym użyciu. Wyobraź sobie, że omawiasz z ChatGPT strukturę prezentacji. Mówisz, model odpowiada, ale jeśli chciałeś zobaczyć gotowy szkielet slajdów — musiałeś wyjść z trybu głosowego, wrócić do tekstu, odnaleźć wątek. To przerywało myślenie. Teraz cały ten kontekst zostaje na ekranie, a ty kontynuujesz rozmowę bez straty rytmu.

Multimodalność wreszcie w interfejsie

OpenAI od miesięcy chwali się multimodalnością GPT-4. Tekst, obraz, dźwięk — wszystko w jednym modelu.

Problem? Interfejs nie nadążał za możliwościami.

Teraz nadążył.

Przykład: pytasz głosowo o analizę danych. ChatGPT odpowiada — słyszysz wyjaśnienie, widzisz tabelę i wykres. Bez przerywania, bez przełączania widoków. Kontekst zostaje. Uwaga też.

Dla użytkowników mobilnych to jeszcze większa zmiana. Telefon w kieszeni, słuchawki w uszach, a na ekranie — pełna transkrypcja i wizualizacje. Idealne do nauki, burzy mózgów czy szybkiego researchu w drodze.

To też istotna zmiana w sposobie, w jaki rozumiemy samą rozmowę z modelem językowym. Dotychczas interfejs głosowy sugerował, że AI to asystent do pogadania — coś w rodzaju Siri czy Asystenta Google. Nowe podejście OpenAI mówi wyraźnie: głos to pełnoprawny sposób pracy, a nie uproszczony tryb dla mniej wymagających zadań.

Co to zmienia w praktyce?

Przede wszystkim — sposób pracy.

Wcześniej tryb głosowy był dla "rozmów". Tekst — do "poważnych" zadań. Teraz granica znika. Możesz dyktować prompt, widzieć efekt, poprawiać głosowo, znowu patrzeć na wynik. Bez wychodzenia z flow.

Dla osób z dysleksją, problemami wzrokowymi czy po prostu preferujących audio — to game changer. Dostępność AI nagle staje się... dostępniejsza.

Konkretne scenariusze, gdzie nowy interfejs robi różnicę:

  • Nauka języków obcych — mówisz zdanie, widzisz poprawioną wersję na ekranie i słyszysz prawidłową wymowę jednocześnie
  • Praca z kodem — opisujesz głosowo problem, a na ekranie pojawia się gotowy fragment kodu, który możesz od razu skopiować
  • Tworzenie treści — dyktujemy pomysły, widzimy jak AI je strukturyzuje i rozbudowuje w czasie rzeczywistym
  • Research w podróży — pytasz o temat, a transkrypcja i ewentualne zestawienia zostają na ekranie do późniejszego przejrzenia

I jeszcze jedno: konkurencja nie śpi. Google Gemini, Claude od Anthropic — wszyscy pracują nad płynniejszymi interfejsami. OpenAI właśnie podbił stawkę.

Kontekst rynkowy: wyścig o naturalność interakcji

Integracja głosu z interfejsem tekstowym to nie tylko wygoda — to sygnał o kierunku, w którym zmierza cały rynek asystentów AI. Google od miesięcy eksperymentuje z Project Astra, który ma umożliwić ciągłą rozmowę z modelem połączoną z analizą obrazu z kamery. Meta pracuje nad głosowym interfejsem dla okularów Ray-Ban. Apple buduje głębiej zintegrowanego Siri na bazie modeli językowych.

Na tym tle ruch OpenAI jest odpowiedzią na realną presję konkurencyjną. Dotychczasowy podział na tryb głosowy i tekstowy był coraz bardziej widoczną słabością produktu — szczególnie w porównaniu z aplikacjami, które od początku projektowano z myślą o płynnym przechodzeniu między modalnościami.

Kluczowe pytanie brzmi: czy użytkownicy rzeczywiście zmienią swoje nawyki? Historia pokazuje, że nowe sposoby interakcji z technologią przyjmują się wtedy, gdy przestają wymagać wysiłku. Właśnie dlatego ta aktualizacja jest ważniejsza, niż mogłoby się wydawać na pierwszy rzut oka.

Czy to wystarczy?

Pewnie nie.

Użytkownicy już pytają o kolejne rzeczy: współdzielenie ekranu podczas rozmowy głosowej, adnotacje na obrazach w czasie rzeczywistym, lepsze wsparcie dla języków poza angielskim.

To jednak dobry krok. Bo najlepsze technologie to te, o których przestajesz myśleć — po prostu działają. I właśnie w tym kierunku idzie ChatGPT.

Sprawdź sam — jeśli masz dostęp do trybu głosowego (Plus, Team, Enterprise), zaktualizuj aplikację. Nowy interfejs czeka.

Źródła

Informacje o artykule

Podoba Ci się ten artykuł?

Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!

Ten temat omawiam szerzej na webinarze

90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.

Zapisz sie na webinar
Udostępnij:
Jan Gajos

Ekspert AI & Founder, AI Evolution

Pasjonat sztucznej inteligencji, który od ponad 15 lat działa z sukcesem biznesowo i szkoleniowo. Wprowadzam AI do swoich firm oraz codziennego życia. Fascynują mnie nowe technologie, gry wideo i składanie klocków Lego – tam też widzę logikę i kreatywność, które AI potrafi wzmacniać. Wierzę, że dobrze użyta sztuczna inteligencja to nie ogłupiające ułatwienie, lecz prawdziwy przełom w sposobie, w jaki myślimy, tworzymy i pracujemy.