Gnani.ai wypuszcza Prisma v2.5 - model rozpoznawania mowy dla Indii
Źródło: Link
Źródło: Link
90 minut praktyki na żywo. Pokazuję krok po kroku, jak zacząć z AI bez kodowania.
Większość modeli rozpoznawania mowy powstaje w sterylnych warunkach - czyste nagrania studyjne, jeden język, zero szumów w tle. Potem trafiają do prawdziwego świata. Tam ludzie przełączają się między językami w połowie zdania, dzwonią z głośnych ulic i mówią z akcentem, którego żaden zbiór danych nie uwzględnił.
Gnani.ai, startup z Bengaluru, właśnie wypuścił Prisma v2.5 - model speech-to-text zaprojektowany pod indyjską rzeczywistość. 17 czerwca firma udostępniła go klientom korporacyjnym przez API. To już trzecia iteracja ich technologii, po modelach Vachana STT (grudzień 2025) i Inya (przedstawionym na India Impact AI Summit 2026).
Prisma v2.5 obsługuje 12 języków. Została wytrenowana na 14 milionach godzin zastrzeżonych danych głosowych z Indii. To nie są nagrania z laboratorium - firma celowo włączyła do zbioru treningowego różnice dialektalne, szumy w tle i code-switching (przełączanie między językami w trakcie wypowiedzi).
Ganesh Gopalan, współzałożyciel i CEO Gnani.ai, tłumaczy to wprost: większość modeli automatycznego rozpoznawania mowy projektowana jest pod audio w jakości studyjnej. Tymczasem indyjskie połączenia telefoniczne to skompresowany dźwięk sieciowy, wiele języków w jednym zdaniu i akcenty, których standardowe zbiory danych w ogóle nie obejmują.
Firma deklaruje, że model poprawia dokładność w obszarach, które w praktyce generują najwięcej problemów: krótkie wypowiedzi, liczby, ciągi alfanumeryczne i nazwy własne. Błędy w tych kategoriach prowadzą do konkretnych konsekwencji - problemów z compliance, błędów w systemach CRM i reklamacji w obsłudze klienta. Szczególnie w sektorach takich jak bankowość, ubezpieczenia i opieka zdrowotna.
Gnani.ai testował Prisma pod kątem word error rate (WER) i character error rate (CER) - standardowych metryk jakości transkrypcji. Według firmy, zarówno testy wewnętrzne, jak i zewnętrzne audyty wskazują, że model wyprzedza ElevenLabs, Sarvam AI i Microsoft w tych kategoriach.
Konkretnych wyników ani metodologii benchmarków firma nie ujawniła. Gopalan wspomniał jedynie, że jeden z klientów z sektora retail przeszedł z globalnego dostawcy STT na Prismę - bez podania nazwy.
Niższe opóźnienia firma tłumaczy hostingiem w indyjskich centrach danych, w tym w infrastrukturze E2E Networks. To ma znaczenie w aplikacjach czasu rzeczywistego - zwłaszcza w systemach telefonicznych, gdzie każda milisekunda opóźnienia wpływa na komfort rozmowy.
Obecna wersja obsługuje tylko języki indyjskie. Gopalan zapowiada jednak rozszerzenie na Japonię, Filipiny i Bliski Wschód. Cel: przekształcić Prismę z produktu regionalnego w globalny.
To logiczny krok. Jeśli model radzi sobie z code-switchingiem między hindi, tamilskim i angielskim, podobne wyzwania czekają na Filipinach (tagalog + angielski) czy w krajach arabskich (dialekty + angielski w środowisku biznesowym). Pytanie tylko, czy 14 milionów godzin danych indyjskich przełoży się na jakość w innych regionach, czy firma będzie musiała budować osobne zbiory treningowe.
W marcu Gnani.ai pozyskał 10 milionów dolarów (około 94 crore rupii) w rundzie Series B, prowadzonej przez Aavishkaar Capital z udziałem dotychczasowego inwestora InfoEdge Ventures. Pieniądze mają wspierać ekspansję na nowe rynki i branże, a także rozwój technologii i zatrudnienie.
Startup działa w coraz bardziej zatłoczonym segmencie. W Indiach rozwija się ruch "sovereign AI" - firmy takie jak Sarvam AI, Fractal Analytics i BharatGen budują modele pod lokalne potrzeby. Z drugiej strony mają globalnych graczy: ElevenLabs, Wispr Flow i Microsoft. Gnani.ai należy do grupy firm wspieranych przez rządową inicjatywę IndiaAI Mission, razem z Sarvam i Soket AI.
Gopalan stawia na lokalizację jako przewagę konkurencyjną. Jego argument: modele Gnani.ai są testowane w rzeczywistych warunkach indyjskich, nie w laboratorium. Czy to wystarczy, żeby wygrać z budżetami i skalą Microsoftu? Przekonamy się w ciągu najbliższych miesięcy, gdy firma zacznie publikować case studies klientów.
Prisma v2.5 to kolejny dowód na to, że modele AI trenowane na danych z jednego regionu (zazwyczaj USA) nie sprawdzają się wszędzie. Język to nie tylko słownik - to kontekst kulturowy, akcent, tempo mowy, nawyki komunikacyjne.
Dla firm działających w Polsce (lub planujących ekspansję na rynki wschodzące) to sygnał: jeśli wdrażasz transkrypcję AI w call center, sprawdź czy model był trenowany na danych z Twojego regionu. Globalny dostawca może mieć niższe WER w benchmarkach angielskich, ale wyższe błędy w rzeczywistych rozmowach po polsku z klientami z Podlasia i Śląska.
Gnani.ai nie jest jedynym graczem stawiającym na lokalność. Google rozwija Gemini 3.5 Live Translate z obsługą wielu języków w czasie rzeczywistym, a CAMB.AI z Broadcomem pracują nad tłumaczeniem głosu na poziomie chipów. Rynek rozpoznawania i tłumaczenia mowy przestaje być domeną kilku amerykańskich firm - i to dobra wiadomość dla użytkowników spoza anglojęzycznego świata.
Nie. Obecna wersja obsługuje tylko 12 języków indyjskich i jest dostępna wyłącznie dla klientów korporacyjnych przez API. Firma planuje ekspansję na inne rynki, ale nie podała konkretnych dat ani listy krajów w Europie.
Prisma została wytrenowana na 14 milionach godzin nagrań indyjskich, uwzględniających różnice dialektalne, szumy w tle i code-switching. Globalne modele (jak Microsoft czy ElevenLabs) zazwyczaj trenują na czystych nagraniach studyjnych, co sprawia, że gorzej radzą sobie z rzeczywistymi połączeniami telefonicznymi w regionach o dużej różnorodności językowej.
Bankowość, ubezpieczenia, opieka zdrowotna i retail - wszędzie tam, gdzie błędy w transkrypcji liczb, nazw własnych czy krótkich wypowiedzi prowadzą do problemów z compliance lub obsługą klienta. Model jest hostowany w lokalnych centrach danych, co obniża opóźnienia w aplikacjach czasu rzeczywistego, takich jak systemy telefoniczne.
Na podstawie: Medianama
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar