Emiracki dialekt w AI. Dlaczego to ważniejsze, niż myślisz

Technologiczny Instytut Innowacji w Abu Zabi (TII) właśnie opublikował coś, co na pierwszy rzut oka wygląda jak nisza w niszy. Benchmark – czyli zestaw testów – dla modeli AI w dialekcie emirackim.

Prawdziwa historia nie jest o jednym dialekcie.

Dlaczego ChatGPT nie rozumie Twoich sąsiadów

Uczysz się polskiego. Opanujesz gramatykę, słownictwo, zdasz egzamin. A potem ląduje w Zakopanem i... nic nie kumasz. Bo górale mówią inaczej.

Dokładnie ten problem ma AI z językiem arabskim.

Arabski literacki (MSA - Modern Standard Arabic) to oficjalna wersja, którą uczą w szkołach. Na ulicy? W Egipcie mówią inaczej niż w Maroku. W Arabii Saudyjskiej inaczej niż w Zjednoczonych Emiratach Arabskich.

I tu zaczyna się problem. ChatGPT, Claude, Gemini – wszystkie te modele językowe (LLM, czyli "mózgi" AI) trenowano głównie na MSA. Dialekty? Prawie w ogóle.

Co wymyślili w Abu Zabi

Zespół TII stworzył coś o nazwie Alyah. To pakiet trzech testów sprawdzających, jak dobrze AI radzi sobie z emirackim dialektem arabskiego:

EQA – pytania i odpowiedzi. Prosty test: zadajesz pytanie po emiracku, AI ma odpowiedzieć sensownie.

EDialectBench – zestaw zadań sprawdzających rozumienie. Od tłumaczenia po klasyfikację sentymentu (czyli czy tekst jest pozytywny, negatywny, neutralny).

ETranslateBench – tłumaczenie z emirackiego na MSA i z powrotem.

Efekt? Większość topowych modeli oblała z kretesem.

Liczby nie kłamią

Najlepszy wynik w teście EQA: 62,69%. Osiągnął go Gemini 2.0 Flash Thinking.

Brzmi nieźle? No nie do końca. Bo to znaczy, że w prawie 40% przypadków model albo nie zrozumiał pytania, albo odpowiedział bez sensu.

GPT-4o – jeden z najpopularniejszych modeli – uzyskał 55,38%. Claude 3.7 Sonnet: 51,85%.

A modele arabskie? Jais 30B Chat (stworzony przez... TII) wypadł najlepiej z lokalnych graczy, choć wciąż słabiej niż zachodni Gemini.

W tłumaczeniu dialekt-MSA najlepszy był DeepSeek V3. Nawet on nie był idealny.

Dlaczego to nie jest problem tylko Emiratów

Dobra, myślisz sobie teraz: "Fajnie, ale ja nie mówię po arabsku. Co mnie to obchodzi?"

Otóż to samo dzieje się z każdym językiem, który nie jest angielskim.

Polski? Lepiej niż arabski, ale wciąż daleko od perfekcji. Dialekty śląski, kaszubski, gwary regionalne? Zapomnij.

Ukraiński? Wietnamski? Suahili? Im mniejszy język, tym gorzej AI sobie radzi.

Problem nazywa się "language bias" – czyli stronniczość językowa. Modele AI są tak dobre, jak dane, na których je trenowano. A 90% danych treningowych to angielski.

Co to oznacza dla biznesu

Prowadzisz firmę w Dubaju. Chcesz wdrożyć chatbota obsługującego klientów po arabsku.

Wybierasz ChatGPT. Konfiguracja zajmuje tydzień. Wszystko działa. Uruchamiasz.

I nagle dostajesz lawinę skarg, bo bot nie rozumie, co ludzie do niego piszą. Bo piszą dialektem, nie literackim arabskim.

Dokładnie ten scenariusz przytrafia się setkom firm rocznie. Nie tylko w świecie arabskim.

W Polsce mamy lżej – nasz język jest bardziej zunifikowany. Spróbuj jednak wdrożyć AI w obsłudze klienta na Śląsku. Albo w firmie z Kaszub.

Są rozwiązania?

TII nie tylko zdiagnozował problem. Stworzyli też model, który ma go rozwiązać.

Jais 30B Chat to model językowy trenowany specjalnie na arabskim – zarówno MSA, jak i dialektach. Nie jest idealny, choć w niektórych testach bije zachodnie modele.

I tu pojawia się ciekawy trend.

Zamiast czekać, aż OpenAI czy Google "łaskawie" dodadzą lepsze wsparcie dla lokalnych języków, różne kraje i regiony tworzą własne modele.

Francja ma Mistral. Chiny – DeepSeek i Qwen. Indie pracują nad swoimi. Polska? Też są inicjatywy (Bielik, Trurl), choć na razie mniejsze.

To nie jest nacjonalizm technologiczny. To konieczność.

Dane treningowe to klucz

Zespół TII zebrał 31 000 przykładów w dialekcie emirackim. Ręcznie sprawdzonych, oznaczonych, przygotowanych do testów.

To gigantyczna robota. I pokazuje skalę problemu.

Bo nie wystarczy powiedzieć AI: "Ucz się arabskiego". Trzeba dać mu WŁAŚCIWE dane. W WŁAŚCIWYM dialekcie. Z WŁAŚCIWYM kontekstem.

Inaczej model nauczy się... czegoś. Nie tego, czego potrzebujesz.

Co dalej

TII udostępnił Alyah publicznie. Każdy może przetestować swój model.

To ważne, bo tworzy standard. Teraz firmy rozwijające AI nie mogą powiedzieć: "Nasz model świetnie radzi sobie z arabskim". Można to sprawdzić. Konkretnie.

I pewnie za rok zobaczymy falę modeli, które będą reklamować się: "95% w Alyah EQA!"

Tak działa postęp w AI. Ktoś tworzy benchmark. Wszyscy próbują go pobić. Technologia idzie do przodu.

Jest drugie dno.

Ta historia pokazuje, jak bardzo AI jest nierówne. Jeśli mówisz po angielsku, masz dostęp do najlepszych modeli, najlepszych narzędzi, najlepszego wsparcia.

Jeśli mówisz po arabsku, polsku, wietnamsku... musisz liczyć na to, że ktoś zainwestuje czas i pieniądze w Twój język.

Albo zrobić to sam.

Przeczytaj też:

Źródła

Hugging Face Blog - Alyah: Toward Robust Evaluation of Emirati Dialect Capabilities in Arabic LLMs

Emiracki dialekt w AI. Dlaczego to ważniejsze, niż myślisz

AI dla Twojej firmy

Powiązane tematy

Dlaczego ChatGPT nie rozumie Twoich sąsiadów

Co wymyślili w Abu Zabi

Liczby nie kłamią

Dlaczego to nie jest problem tylko Emiratów

Co to oznacza dla biznesu

Są rozwiązania?

Dane treningowe to klucz

Co dalej

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Emiracki dialekt w AI. Dlaczego to ważniejsze, niż myślisz

AI dla Twojej firmy

Powiązane tematy

Dlaczego ChatGPT nie rozumie Twoich sąsiadów

Co wymyślili w Abu Zabi

Liczby nie kłamią

Dlaczego to nie jest problem tylko Emiratów

Co to oznacza dla biznesu

Są rozwiązania?

Dane treningowe to klucz

Co dalej

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

AI w zarządzaniu projektami: które narzędzie wybrać w 2026

Fermi traci CEO i CFO. Nuklearny startup AI w tarapatach

Hongkong stawia na AI w walce z powodziami. Symulacje 3D w akcji