Reverie pokonuje Deepgram w rozpoznawaniu mowy dla Indii

Globalni giganci technologiczni walczą o dominację w rozpoznawaniu mowy. Tymczasem indyjska firma Reverie pokazała, że lokalna specjalizacja potrafi pokonać międzynarodowe standardy. Ich nowy model STT (speech-to-text) jest 1,5 razy szybszy od Deepgram. Ma też jedną przewagę, której konkurencja nie oferuje.

Model Reverie został zaprojektowany z myślą o specyfice indyjskiego rynku, gdzie przełączanie między językami to codzienność. Największy atut? Precyzyjne rozpoznawanie liczb – niezależnie od tego, czy wypowiadasz je po angielsku ("twenty-three"), hindi ("तेईस"), czy w dowolnej kombinacji obu języków. Dla sektora bankowego i call center to różnica między sprawnym działaniem a chaosem.

Szybkość i wielojęzyczność w praktyce

Reverie nie ujawniło jeszcze pełnych szczegółów technicznych. Deklarowana przewaga 1,5x nad Deepgram w szybkości transkrypcji to jednak konkretny argument biznesowy. Kiedy call center obsługuje tysiące połączeń dziennie, każda sekunda opóźnienia przekłada się na koszty operacyjne i jakość obsługi klienta.

Kluczowa jest nie tylko szybkość, ale precyzja w środowisku wielojęzycznym. Indyjscy użytkownicy naturalnie mieszają angielski z językami lokalnymi – zjawisko nazywane "code-switching". Standardowe modele STT, trenowane głównie na jednojęzycznych danych, mają z tym problem. Szczególnie jeśli chodzi o liczby: daty, kwoty transakcji, numery kont. Tam błąd może mieć poważne konsekwencje.

Wyobraź sobie agenta bankowego, który dyktuje przelew na kwotę "pięćdziesiąt thousand rupii" – mieszając angielskie "thousand" z lokalnym systemem liczbowym. Dla człowieka to naturalne. Dla typowego modelu STT to pułapka, która może skutkować błędną transkrypcją i – w konsekwencji – błędną transakcją finansową. Reverie zaprojektowało swój model tak, żeby takie przypadki obsługiwał bezbłędnie, niezależnie od kombinacji językowej.

Banki i call center jako pierwsi beneficjenci

Reverie celuje przede wszystkim w sektor finansowy i obsługę klienta. To logiczny wybór – w indyjskich bankach i centrach kontaktowych transkrypcja rozmów to standard regulacyjny i operacyjny. Dotychczasowe rozwiązania albo nie radziły sobie z lokalną specyfiką językową, albo były zbyt wolne do zastosowań wymagających przetwarzania w czasie rzeczywistym.

Model rozpoznaje nie tylko hindi i angielski, ale także inne indyjskie języki (choć firma nie podała jeszcze pełnej listy). Dla firm działających na subkontynencie to możliwość automatyzacji procesów, które dotąd wymagały ręcznej weryfikacji przez wielojęzyczny personel.

W praktyce oznacza to konkretne scenariusze: automatyczne protokołowanie rozmów z klientami, weryfikacja zgodności wypowiedzi agentów z regulaminami, analiza sentymentu w czasie rzeczywistym. Każdy z tych procesów wymaga transkrypcji, która jest zarówno szybka, jak i dokładna – szczególnie w kontekście danych liczbowych takich jak numery IFSC, kwoty EMI czy numery polis ubezpieczeniowych. Błąd w jednym miejscu dezawuuje cały system automatyzacji.

Dlaczego code-switching to wyjątkowo trudny problem

Code-switching, czyli płynne przełączanie między dwoma lub więcej językami w trakcie jednej wypowiedzi, to w Indiach norma, a nie wyjątek. Szacuje się, że ponad 125 milionów Hindusów posługuje się angielskim jako drugim językiem, przy czym większość z nich używa go naprzemiennie z językiem ojczystym – często w tej samej rozmowie, zdaniu, a nawet frazie.

Dla modeli trenowanych na danych z rynków zachodnich to fundamentalne wyzwanie. Nie chodzi tylko o słownictwo – chodzi o intonację, akcent, rytm zdania i kontekst semantyczny, który zmienia się w zależności od języka dominującego w danym momencie. Modele takie jak Whisper od OpenAI radzą sobie z wieloma językami, ale obsługa płynnego przejścia między nimi w jednej wypowiedzi to zupełnie inny poziom złożoności. Reverie twierdzi, że właśnie ten problem rozwiązuje skuteczniej niż globalna konkurencja.

Lokalne modele kontra globalni gracze

Sukces Reverie pokazuje coś ważnego: w AI nie zawsze wygrywa ten z największym budżetem. Deepgram, Whisper od OpenAI czy Google Speech-to-Text to potężne narzędzia. Są jednak zoptymalizowane głównie pod kątem rynków zachodnich. Firma, która dogłębnie rozumie lokalną specyfikę językową i kulturową, może dostarczyć lepsze rozwiązanie dla konkretnego regionu.

Indie to rynek 1,4 miliarda ludzi posługujących się setkami języków i dialektów. Jeśli Reverie rzeczywiście rozwiąże problem code-switchingu w transkrypcji mowy (a wczesne sygnały są obiecujące), może stać się standardem dla całego regionu. Pytanie brzmi: czy globalni gracze zareagują własnymi modelami dostosowanymi do indyjskiej rzeczywistości, czy pozwolą lokalnym firmom zdominować ten segment?

Podobny schemat można zresztą obserwować w innych regionach świata. Lokalne firmy technologiczne w Japonii, Korei Południowej czy krajach arabskich stopniowo budują własne modele językowe i narzędzia STT, które w swoich niszach wyprzedzają globalne rozwiązania. Reverie wpisuje się w ten trend, jednocześnie operując na jednym z największych i najbardziej złożonych językowo rynków na świecie. To może być model, który inni będą naśladować.

Źródła

Analytics India Magazine

Reverie pokonuje Deepgram w rozpoznawaniu mowy dla Indii

Darmowy webinar — AI od zera

Szybkość i wielojęzyczność w praktyce

Banki i call center jako pierwsi beneficjenci

Dlaczego code-switching to wyjątkowo trudny problem

Lokalne modele kontra globalni gracze

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Reverie pokonuje Deepgram w rozpoznawaniu mowy dla Indii

Darmowy webinar — AI od zera

Szybkość i wielojęzyczność w praktyce

Banki i call center jako pierwsi beneficjenci

Dlaczego code-switching to wyjątkowo trudny problem

Lokalne modele kontra globalni gracze

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

GitHub Copilot zmienia cennik. Zapłacisz za to, ile używasz

Gemini Embedding 2 — jeden model dla tekstu, obrazu i dźwięku

AI do analizy PDF — jak wyciągnąć informacje w 3 minuty