Audio AI
Audio AI · 3 min czytania · 9 stycznia 2026

AWS i Itaú uczą AI rozpoznawać emocje w głosie

Grafika ilustrująca: AWS i Itaú uczą AI rozpoznawać emocje w głosie

Źródło: Link

Darmowy webinar — AI od zera

90 minut praktyki na żywo. Pokazuję krok po kroku, jak zacząć z AI bez kodowania.

Zapisz się →

Bank Itaú Unibanco — największy prywatny bank w Ameryce Łacińskiej — właśnie pokazał wyniki wspólnego projektu z AWS. Temat? Analiza sentymentu. Nie tylko z tekstu. Też z audio.

Zaraz zobaczysz, o co chodzi.

Dlaczego bank analizuje emocje klientów

Analiza sentymentu to technologia, która wyłapuje emocje w wypowiedziach. Czy klient jest zadowolony? Zirytowany? Może obojętny? System czyta tekst albo słucha nagrania — i wyciąga wnioski.

Dla banku to skarb. Każdego dnia tysiące rozmów z klientami. Telefony, maile, czaty. Część to komplementy. Część to skargi. Reszta? Pytania techniczne bez emocji.

Problem w tym, że człowiek nie ogarnie takiej skali.

AI — tak.

Tekst vs. audio — dlaczego ton głosu zmienia wszystko

Analizowanie tekstu to standard. Wpisujesz opinię klienta, system mówi: "pozytywna", "negatywna" albo "neutralna". Działa.

A co z rozmową telefoniczną?

Klient może powiedzieć: "Dzięki za pomoc". Na papierze wygląda neutralnie. Ale jeśli ton głosu jest sarkastyczny, zmęczony albo wściekły — sens się odwraca na głowie.

Jak różnica między SMS-em "ok" a "ok" wypowiedzianym przez kogoś, kto właśnie stracił cierpliwość. Czujesz to.

Dlatego Itaú i AWS postanowili połączyć analizę tekstu i audio. Transkrypcja + ton głosu. Razem dają pełniejszy obraz tego, co naprawdę myśli klient.

Jak to działa w praktyce

Projekt wykorzystuje usługi AWS: Amazon Transcribe (zamienia mowę na tekst), Amazon Comprehend (analizuje sentyment z tekstu) i generatywne modele AI (rozumieją kontekst).

Schemat wygląda tak:

  1. Klient dzwoni do banku. Rozmowa jest nagrywana.
  2. Amazon Transcribe przepisuje audio na tekst.
  3. Amazon Comprehend analizuje tekst: pozytywny, negatywny, neutralny.
  4. Równolegle system analizuje cechy audio: ton głosu, tempo mowy, pauzy, intensywność.
  5. Oba wyniki łączą się. AI wyciąga wniosek: "Klient brzmi na sfrustrowanego, mimo że słowa są grzeczne".

Efekt? Bank wie, które rozmowy wymagają interwencji. Które klienci są na skraju rezygnacji. Które sprawy trzeba eskalować — i to szybko.

Wyzwania: język, akcent, szum w tle

Teoria brzmi pięknie.

Praktyka? Inna bajka.

Pierwszy problem: język. Portugalszczyzna brazylijska ma akcenty regionalne, slang, skróty. Model musi to ogarniać — bez wpadek.

Drugi problem: jakość audio. Contact center to nie studio nagraniowe. Szumy. Przerwy w połączeniu. Klient mówi z głośnika w aucie, w tle płacze dziecko.

Trzeci problem: kontekst kulturowy. W Brazylii ludzie mówią emocjonalnie — nawet gdy są zadowoleni. W Polsce ton byłby inny. W Japonii jeszcze inny. Model musi to uwzględniać, inaczej wyjdą absurdy.

Dlatego Itaú i AWS testowali rozwiązanie na rzeczywistych danych. Nie na sterylnych próbkach z laboratorium.

Co to zmienia dla klienta i dla banku

Dla klienta: szybsza reakcja. Jeśli system wykryje frustrację, sprawa trafia do bardziej doświadczonego konsultanta. Albo bank proaktywnie odzywa się z rozwiązaniem — zanim klient eksploduje.

Dla banku: mniej rezygnacji, lepsza obsługa, tańsze operacje. Zamiast słuchać wszystkich nagrań ręcznie, AI filtruje te krytyczne.

I jeszcze jedno: compliance. Banki muszą archiwizować rozmowy. Analiza sentymentu pomaga znaleźć te, gdzie mogło dojść do naruszenia procedur. "Konsultant był agresywny" — system to wyłapie.

Czy to działa tylko w bankach?

Nie.

Contact center w e-commerce, telekomunikacji, ubezpieczeniach — wszędzie tam, gdzie firma rozmawia z klientem na skalę. Analiza sentymentu z audio to sposób, by nie zgubić sygnałów ostrzegawczych w morzu danych.

A jeśli prowadzisz mniejszy biznes? Narzędzia jak AWS są dostępne przez API. Nie musisz budować własnego modelu od zera. Podpinasz gotowe usługi — i działasz.

Co dalej?

Itaú i AWS planują rozwijać projekt. Kolejny krok: analiza emocji w czasie rzeczywistym. Konsultant rozmawia z klientem, a system podpowiada na żywo: "Klient brzmi na zdenerwowanego — zaproponuj rozwiązanie X".

Jak asystent, który słucha rozmowy i dyskretnie podsywa karteczki z radami.

Czy to się przyjmie? Zobaczymy. Kierunek jest jasny: AI przestaje tylko czytać.

Zaczyna słuchać.

Źródła

Informacje o artykule

Podoba Ci się ten artykuł?

Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!

Ten temat omawiam szerzej na webinarze

90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.

Zapisz sie na webinar
Udostępnij:
Jan Gajos

Ekspert AI & Founder, AI Evolution

Pasjonat sztucznej inteligencji, który od ponad 15 lat działa z sukcesem biznesowo i szkoleniowo. Wprowadzam AI do swoich firm oraz codziennego życia. Fascynują mnie nowe technologie, gry wideo i składanie klocków Lego – tam też widzę logikę i kreatywność, które AI potrafi wzmacniać. Wierzę, że dobrze użyta sztuczna inteligencja to nie ogłupiające ułatwienie, lecz prawdziwy przełom w sposobie, w jaki myślimy, tworzymy i pracujemy.