AWS i Itaú uczą AI rozpoznawać emocje w głosie

Bank Itaú Unibanco — największy prywatny bank w Ameryce Łacińskiej — właśnie pokazał wyniki wspólnego projektu z AWS. Temat? Analiza sentymentu. Nie tylko z tekstu. Też z audio.

Zaraz zobaczysz, o co chodzi.

Dlaczego bank analizuje emocje klientów

Analiza sentymentu to technologia, która wyłapuje emocje w wypowiedziach. Czy klient jest zadowolony? Zirytowany? Może obojętny? System czyta tekst albo słucha nagrania — i wyciąga wnioski.

Dla banku to skarb. Każdego dnia tysiące rozmów z klientami. Telefony, maile, czaty. Część to komplementy. Część to skargi. Reszta? Pytania techniczne bez emocji.

Problem w tym, że człowiek nie ogarnie takiej skali.

AI — tak.

Tekst vs. audio — dlaczego ton głosu zmienia wszystko

Analizowanie tekstu to standard. Wpisujesz opinię klienta, system mówi: "pozytywna", "negatywna" albo "neutralna". Działa.

A co z rozmową telefoniczną?

Klient może powiedzieć: "Dzięki za pomoc". Na papierze wygląda neutralnie. Ale jeśli ton głosu jest sarkastyczny, zmęczony albo wściekły — sens się odwraca na głowie.

Jak różnica między SMS-em "ok" a "ok" wypowiedzianym przez kogoś, kto właśnie stracił cierpliwość. Czujesz to.

Dlatego Itaú i AWS postanowili połączyć analizę tekstu i audio. Transkrypcja + ton głosu. Razem dają pełniejszy obraz tego, co naprawdę myśli klient.

Jak to działa w praktyce

Projekt wykorzystuje usługi AWS: Amazon Transcribe (zamienia mowę na tekst), Amazon Comprehend (analizuje sentyment z tekstu) i generatywne modele AI (rozumieją kontekst).

Schemat wygląda tak:

Klient dzwoni do banku. Rozmowa jest nagrywana.
Amazon Transcribe przepisuje audio na tekst.
Amazon Comprehend analizuje tekst: pozytywny, negatywny, neutralny.
Równolegle system analizuje cechy audio: ton głosu, tempo mowy, pauzy, intensywność.
Oba wyniki łączą się. AI wyciąga wniosek: "Klient brzmi na sfrustrowanego, mimo że słowa są grzeczne".

Efekt? Bank wie, które rozmowy wymagają interwencji. Które klienci są na skraju rezygnacji. Które sprawy trzeba eskalować — i to szybko.

Wyzwania: język, akcent, szum w tle

Teoria brzmi pięknie.

Praktyka? Inna bajka.

Pierwszy problem: język. Portugalszczyzna brazylijska ma akcenty regionalne, slang, skróty. Model musi to ogarniać — bez wpadek.

Drugi problem: jakość audio. Contact center to nie studio nagraniowe. Szumy. Przerwy w połączeniu. Klient mówi z głośnika w aucie, w tle płacze dziecko.

Trzeci problem: kontekst kulturowy. W Brazylii ludzie mówią emocjonalnie — nawet gdy są zadowoleni. W Polsce ton byłby inny. W Japonii jeszcze inny. Model musi to uwzględniać, inaczej wyjdą absurdy.

Dlatego Itaú i AWS testowali rozwiązanie na rzeczywistych danych. Nie na sterylnych próbkach z laboratorium.

Co to zmienia dla klienta i dla banku

Dla klienta: szybsza reakcja. Jeśli system wykryje frustrację, sprawa trafia do bardziej doświadczonego konsultanta. Albo bank proaktywnie odzywa się z rozwiązaniem — zanim klient eksploduje.

Dla banku: mniej rezygnacji, lepsza obsługa, tańsze operacje. Zamiast słuchać wszystkich nagrań ręcznie, AI filtruje te krytyczne.

I jeszcze jedno: compliance. Banki muszą archiwizować rozmowy. Analiza sentymentu pomaga znaleźć te, gdzie mogło dojść do naruszenia procedur. "Konsultant był agresywny" — system to wyłapie.

Czy to działa tylko w bankach?

Nie.

Contact center w e-commerce, telekomunikacji, ubezpieczeniach — wszędzie tam, gdzie firma rozmawia z klientem na skalę. Analiza sentymentu z audio to sposób, by nie zgubić sygnałów ostrzegawczych w morzu danych.

A jeśli prowadzisz mniejszy biznes? Narzędzia jak AWS są dostępne przez API. Nie musisz budować własnego modelu od zera. Podpinasz gotowe usługi — i działasz.

Co dalej?

Itaú i AWS planują rozwijać projekt. Kolejny krok: analiza emocji w czasie rzeczywistym. Konsultant rozmawia z klientem, a system podpowiada na żywo: "Klient brzmi na zdenerwowanego — zaproponuj rozwiązanie X".

Jak asystent, który słucha rozmowy i dyskretnie podsywa karteczki z radami.

Czy to się przyjmie? Zobaczymy. Kierunek jest jasny: AI przestaje tylko czytać.

Zaczyna słuchać.

Źródła

AWS Machine Learning Blog – Sentiment Analysis with Text and Audio

AWS i Itaú uczą AI rozpoznawać emocje w głosie

Darmowy webinar — AI od zera

Dlaczego bank analizuje emocje klientów

Tekst vs. audio — dlaczego ton głosu zmienia wszystko

Jak to działa w praktyce

Wyzwania: język, akcent, szum w tle

Co to zmienia dla klienta i dla banku

Czy to działa tylko w bankach?

Co dalej?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

AWS i Itaú uczą AI rozpoznawać emocje w głosie

Darmowy webinar — AI od zera

Dlaczego bank analizuje emocje klientów

Tekst vs. audio — dlaczego ton głosu zmienia wszystko

Jak to działa w praktyce

Wyzwania: język, akcent, szum w tle

Co to zmienia dla klienta i dla banku

Czy to działa tylko w bankach?

Co dalej?

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

GRAI stawia na remiksy, nie na zastępowanie artystów

Jak nagrywać podcasty z AI? Przewodnik dla twórców

Google Gemini 3.1 Flash TTS: synteza mowy w 200 językach