Zero STT Med lepszy od Whispera w medycznej transkrypcji

Gdy lekarz dyktuje rozpoznanie, a system ASR zamienia "angina" na "engine" – to nie tylko zabawna anegdota. To realne zagrożenie. Bengalurski Shunyalabs właśnie pokazał, że medyczna transkrypcja mowy może być znacznie dokładniejsza niż oferują to giganci branży.

Zero STT Med, nowy model automatycznego rozpoznawania mowy (ASR) od indyjskiego startupu, osiągnął Word Error Rate (WER) na poziomie 11,1% i Character Error Rate (CER) 5,1%. Lepsze wyniki niż OpenAI Whisper, ElevenLabs Scribe czy AWS Transcribe – systemy, które do tej pory wyznaczały standardy w transkrypcji audio.

Różnica może wydawać się niewielka na papierze, ale w praktyce klinicznej przekłada się na konkretne korzyści. Podczas gdy Whisper osiąga WER około 15-17% w kontekście medycznym, a AWS Transcribe Medical balansuje na podobnym poziomie, Zero STT Med konsekwentnie utrzymuje się poniżej 12%. To oznacza średnio o 30-40% mniej błędów w typowym dyktowanym dokumencie medycznym.

Jeden błąd na dziewięć słów – dużo czy mało?

WER na poziomie 11,1% oznacza błąd mniej więcej co dziewiąte słowo. W medycynie, gdzie terminologia jest skomplikowana, a stawka wysoka, to znacząca poprawa wobec konkurencji. Character Error Rate 5,1% pokazuje dodatkowo, że model radzi sobie z precyzyjnym zapisem nawet długich, specjalistycznych terminów.

Standardowe systemy ASR trenowane są na ogólnym języku. Stąd problemy z rozpoznawaniem nazw leków, procedur czy anatomicznych określeń. Zero STT Med został wyspecjalizowany właśnie w tym obszarze – i to przekłada się na mierzalną przewagę.

Przykłady błędów, które eliminuje wyspecjalizowany model, są wymowne. Tam gdzie uniwersalny system transkrybuje "metformin" jako "met for men" albo "sublingual" jako "sub lingual", Zero STT Med rozpoznaje kontekst medyczny i poprawnie identyfikuje terminy. Model został wytrenowany na setkach tysięcy godzin medycznych nagrań – od konsultacji ambulatoryjnych po skomplikowane opisy zabiegów chirurgicznych.

Szczególnie istotna jest zdolność modelu do rozróżniania podobnie brzmiących terminów medycznych. "Ileum" i "ilium", "hyper-" i "hypo-", "abduction" i "adduction" – to pary, które w szybkim dyktowaniu brzmią niemal identycznie, ale mają zupełnie różne znaczenie kliniczne. Zero STT Med analizuje kontekst całego zdania, by wybrać właściwy termin.

Shunyalabs stawia na niszę medyczną

Startup z Bengaluru nie próbuje konkurować w ogólnej transkrypcji. Stawia na vertical AI – modele wyspecjalizowane w konkretnych branżach. To strategia, która coraz częściej przynosi lepsze rezultaty niż uniwersalne rozwiązania (nawet jeśli te drugie mają za sobą budżety wielkich korporacji).

Medyczna dokumentacja to obszar, gdzie dokładność transkrypcji bezpośrednio wpływa na jakość opieki i bezpieczeństwo pacjentów. Każdy błąd w zapisie dawkowania leku czy rozpoznania może mieć poważne konsekwencje. Dlatego lekarze często wolą dyktować ręcznie niż polegać na niedoskonałych systemach automatycznych.

Zespół Shunyalabs współpracował bezpośrednio z placówkami medycznymi w Indiach i Stanach Zjednoczonych, zbierając feedback od lekarzy różnych specjalizacji. Model został przetestowany w warunkach rzeczywistych – w hałaśliwych izbach przyjęć, podczas telemedycznych konsultacji z niestabilnym połączeniem, czy w sytuacjach, gdzie lekarz dyktuje podczas wykonywania innych czynności.

Indyjski rynek healthcare tech rozwija się dynamicznie, a lokalni gracze mają przewagę w postaci dostępu do różnorodnych danych językowych. Lekarze w Indiach często przełączają się między angielskim a lokalnymi językami, używają brytyjskiej i amerykańskiej terminologii medycznej równocześnie. Ta językowa złożoność stała się atutem – model nauczył się radzić z akcentami i wariacjami wymowy lepiej niż konkurencja.

Mniej czasu na poprawki, więcej na pacjentów

Lepsza transkrypcja to mniej czasu spędzanego na poprawianiu błędów w dokumentacji. Dla lekarzy, którzy spędzają nawet kilka godzin dziennie na wypełnianiu elektronicznej dokumentacji medycznej, to realna oszczędność. Czas, który mogą przeznaczyć na pacjentów.

Badania pokazują, że lekarze w USA poświęcają średnio 16 minut na dokumentację każdej godziny pracy klinicznej. W praktyce oznacza to, że na każdego pacjenta przypada niemal tyle samo czasu administracyjnego co faktycznej wizyty. Redukcja czasu potrzebnego na weryfikację i poprawki transkrypcji nawet o 30-40% przekłada się na dodatkową godzinę dziennie, którą można wykorzystać produktywniej.

Zero STT Med pokazuje też szerszy trend: modele niszowe, trenowane na specjalistycznych danych, mogą przewyższać uniwersalne rozwiązania w konkretnych zastosowaniach. Dobra wiadomość dla branż, które do tej pory musiały zadowalać się systemami "wystarczająco dobrymi".

Podobne podejście zaczyna się pojawiać w innych sektorach – od prawniczej transkrypcji dokumentów sądowych, przez finansową analizę raportów kwartalnych, po techniczne protokoły z inspekcji przemysłowych. Każda z tych dziedzin ma własny słownik, konwencje i kontekst, którego uniwersalne modele nie wychwytują wystarczająco dobrze.

Przeczytaj też:

Hindlish w AI: Model, który rozumie, jak naprawdę mówią Hindusi

Źródła

Analytics India Magazine

Zero STT Med pokonuje Whispera w medycznej transkrypcji

Darmowy webinar — AI od zera

Powiązane tematy

Jeden błąd na dziewięć słów – dużo czy mało?

Shunyalabs stawia na niszę medyczną

Mniej czasu na poprawki, więcej na pacjentów

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Zero STT Med pokonuje Whispera w medycznej transkrypcji

Darmowy webinar — AI od zera

Powiązane tematy

Jeden błąd na dziewięć słów – dużo czy mało?

Shunyalabs stawia na niszę medyczną

Mniej czasu na poprawki, więcej na pacjentów

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

GRAI stawia na remiksy, nie na zastępowanie artystów

Jak nagrywać podcasty z AI? Przewodnik dla twórców

Google Gemini 3.1 Flash TTS: synteza mowy w 200 językach