Meta wypuszcza model ASR dla 1600+ języków. Whisper w tyle
Źródło: Link
Źródło: Link
Szkolenia, warsztaty i wdrożenia AI. Dopasowane do Twojego zespołu.
Meta właśnie wypuściła otwartoźródłowy system automatycznego rozpoznawania mowy (ASR), który natywnie obsługuje ponad 1600 języków. To szesnaście razy więcej niż popularny Whisper od OpenAI">OpenAI, który radzi sobie z 99 językami. Jeśli pracujesz z treściami w językach mniejszościowych lub budujesz aplikacje dla globalnej publiczności, ten model może zmienić sposób, w jaki myślisz o transkrypcji.
Gigant z Menlo Park wraca do korzeni otwartego AI po okresie, w którym skupiał się głównie na zamkniętych rozwiązaniach. Nowy system nosi nazwę Omnilingual ASR i stanowi bezpośrednią odpowiedź na dominację Whispera w segmencie wielojęzycznych modeli mowy.
Kluczowa różnica tkwi w architekturze. Model Meta pozwala deweloperom rozszerzyć wsparcie o kolejne tysiące języków bez konieczności trenowania od zera. Technologia wykorzystuje mechanizm zwany zero-shot learning – system potrafi transkrybować języki, których nigdy wcześniej nie widział podczas treningu.
W praktyce oznacza to prostą rzecz: jeśli Twój język nie znalazł się w oficjalnej liście 1600 obsługiwanych wariantów, model nadal może sobie z nim poradzić. Oczywiście z mniejszą dokładnością niż przy językach, na których był trenowany, ale to i tak lepsze niż nic. Szczególnie istotne dla języków zagrożonych wymarciem czy lokalnych dialektów.
Zero-shot learning w kontekście ASR działa dzięki temu, że model uczy się nie tyle konkretnych języków, co ogólnych wzorców fonetycznych i akustycznych wspólnych dla ludzkiej mowy. Zamiast zapamiętywać reguły każdego języka z osobna, buduje wewnętrzną reprezentację dźwięków, którą potrafi generalizować na nieznane wcześniej systemy językowe. To podejście różni się fundamentalnie od klasycznych modeli ASR, które wymagały oddzielnych zestawów treningowych dla każdego obsługiwanego języka.
Whisper od OpenAI przez długi czas był de facto standardem w open source'owym rozpoznawaniu mowy. Jego 99 języków wystarczało dla większości komercyjnych zastosowań, zostawiało jednak ogromną lukę dla społeczności pracujących z językami mniejszościowymi.
Warto pamiętać, że te 99 języków Whispera obejmuje przede wszystkim języki z dużymi zasobami danych treningowych – angielski, hiszpański, mandaryński, arabski, polski. Szacuje się, że na świecie istnieje od 6000 do 7000 żywych języków. Whisper obsługiwał zatem niecałe 2 procent tej różnorodności. Meta z wynikiem 1600 języków pokrywa ponad jedną czwartą światowego dziedzictwa językowego.
Meta stawia na inną strategię – zamiast skupić się na doskonałej jakości dla najpopularniejszych języków, firma oferuje szeroki zasięg. Czy to wystarczy, by przekonać deweloperów do migracji? Dużo zależy od faktycznej jakości transkrypcji, którą poznamy dopiero po testach społeczności. Pierwsze benchmarki opublikowane przez Meta wskazują na konkurencyjną dokładność w językach wysokozasobowych, jednak niezależna weryfikacja dla języków niszowych pozostaje kwestią otwartą.
Dla twórców aplikacji to oznacza możliwość budowania naprawdę globalnych produktów bez konieczności łączenia wielu różnych modeli ASR. Jeden system obsługujący języki od angielskiego po regionalne dialekty afrykańskie czy języki rdzennych mieszkańców Ameryki.
Użytkownicy końcowi zyskują dostęp do narzędzi transkrypcji w językach, które do tej pory były ignorowane przez wielkie modele. Nagrania rodzinne, lokalne audycje radiowe, dokumentacja ustnej tradycji – wszystko to może teraz trafić do formy tekstowej bez barier językowych.
Model jest dostępny jako open source, co oznacza, że możesz go uruchomić na własnej infrastrukturze bez wysyłania danych do chmury Meta. Dla projektów wymagających prywatności to kluczowa zaleta.
Zakres możliwości, które otwiera Omnilingual ASR, wychodzi daleko poza standardowe przypadki użycia. Kilka konkretnych obszarów, gdzie ta zmiana jest najbardziej odczuwalna:
Dla polskich deweloperów i badaczy szczególnie interesująca może być możliwość pracy z językami Europy Środkowo-Wschodniej oraz językami diaspory, które historycznie były słabo reprezentowane w komercyjnych systemach ASR. Modele trenowane głównie na anglojęzycznych danych rzadko radziły sobie dobrze z językami o bogatej morfologii, takimi jak polski czy węgierski. Omnilingual ASR, trenowany na znacznie szerszym spektrum danych językowych, może oferować lepszą ogólną jakość rozumienia złożonych struktur gramatycznych.
Wypuszczenie Omnilingual ASR jako open source wpisuje się w szerszą strategię Meta, która od lat buduje swoją pozycję w społeczności AI poprzez otwarte publikacje i udostępnianie modeli. Seria LLaMA, modele translacji NLLB obsługujące ponad 200 języków czy systemy generowania obrazu – Meta konsekwentnie inwestuje w otwarte AI jako narzędzie budowania wpływu i pozyskiwania talentów.
Z perspektywy rynku ASR, który według różnych szacunków ma osiągnąć wartość kilkudziesięciu miliardów dolarów w ciągu najbliższych lat, ruch Meta jest sygnałem dla całej branży. Google, Amazon i Microsoft oferują rozbudowane komercyjne usługi rozpoznawania mowy, ale żadna z tych platform nie zbliżyła się dotąd do pokrycia 1600 języków w jednym modelu dostępnym bez opłat licencyjnych.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar