Microsoft i Tsinghua trenują AI bez prawdziwych danych

Microsoft i Uniwersytet Tsinghua przeprowadziły eksperyment, który przypomina science fiction. Wytrenowali model AI używając wyłącznie danych syntetycznych – wygenerowanych przez inne AI. Zero prawdziwych danych. Zero przykładów z rzeczywistego świata.

To przypomina próba nauczenia kogoś gotowania wyłącznie przez oglądanie filmów animowanych, prawda?

I zadziałało.

Czym są dane syntetyczne i dlaczego to ważne

Dane syntetyczne to informacje stworzone przez komputer, nie zebrane z prawdziwego świata. zamiast uczyć dziecko rozpoznawania kotów pokazując mu tysiące zdjęć prawdziwych kotów, pokazujesz mu tylko rysunki – narysowane przez inne dziecko, które też nigdy kota nie widziało.

Absurd? Może. A jednak w świecie AI to działa.

Do tej pory trenowanie modeli AI wymagało ogromnych zbiorów prawdziwych danych. Miliony zdjęć, tekstów, nagrań. Firmy płaciły krocie za dostęp do takich zbiorów, zbierały je latami. A teraz okazuje się, że można je po prostu... wygenerować.

Jak to przebiegało

Zespół użył 128 chipów Nvidia H20 przez 220 godzin podczas supervised fine-tuning – etapu, w którym model uczy się na przykładach. Potem przyszedł czas na reinforcement learning (uczenie przez wzmacnianie) – tutaj pracowało 32 chipy H200 przez siedem dni.

Wyjaśnijmy prościej. Supervised fine-tuning to nauka z podręcznika – dostajesz pytanie i odpowiedź, uczysz się wzorca. Reinforcement learning to nauka przez próby i błędy. System sam testuje różne podejścia i zapamiętuje, co działa.

220 godzin plus siedem dni. Nie przypomina dużo? Ale mówimy o 128 chipach pracujących jednocześnie. Gdyby to był jeden komputer, trwałoby to lata.

I tu pojawia się kluczowa rzecz: chipy H20 to specjalna wersja, którą Nvidia stworzyła dla chińskiego rynku. Słabsza niż topowe modele dostępne w USA, ale – jak widać – wystarczająco mocna.

Dlaczego to zmienia wszystko

Prawdziwe dane to gigantyczny problem.

Po pierwsze: prywatność. Nie możesz po prostu wziąć milionów zdjęć ludzi z internetu i użyć ich do trenowania AI. Przynajmniej nie bez konsekwencji prawnych. Pytaj OpenAI, które ma już kilkanaście procesów sądowych na karku.

Po drugie: dostęp. Niektóre dane są po prostu niedostępne. Dane medyczne? Chronione. Finansowe? Tajemnica bankowa. Wojskowe? No cóż.

Po trzecie: koszt. Zbieranie, czyszczenie i kategoryzowanie milionów przykładów to praca dla setek ludzi przez miesiące. Albo lata.

Dane syntetyczne rozwiązują wszystkie te problemy jednocześnie. Nie ma kwestii prywatności – bo to nie prawdziwi ludzie. Nie ma problemu z dostępem – generujesz tyle, ile potrzebujesz. Koszt? Czas pracy procesorów. Drogi, ale przewidywalny.

Co to zmienia w branży

Jeśli da się trenować modele bez prawdziwych danych, zmienia się cała ekonomia AI.

Startupy nie muszą już wydawać milionów na zbiory danych. Nie muszą czekać latami, aż uzbierają wystarczająco dużo przykładów. Mogą wygenerować dane w tydzień i zacząć trenowanie.

Firmy działające w regulowanych branżach – medycyna, finanse, prawo – mogą trenować modele bez ryzyka naruszenia przepisów o ochronie danych. Generujesz syntetyczne przypadki medyczne zamiast używać prawdziwych historii pacjentów.

Kraje z ograniczonym dostępem do zachodnich technologii – jak Chiny – mogą budować własne modele mimo sankcji. Chipy H20 są słabsze od H100, ale jak widać, wystarczają.

I tu pojawia się pytanie: czy to dobrze?

Zamknięta pętla i jej ryzyko

AI ucząca się od AI. Dane generowane przez modele, używane do trenowania nowych modeli. To przypomina perpetuum mobile.

W takim systemie błędy się kumulują. Jeśli pierwotny model miał uprzedzenia – a każdy model je ma – to syntetyczne dane te uprzedzenia powielą. I wzmocnią. Kolejne pokolenie modeli będzie jeszcze bardziej przekrzywione.

To jak głuchy telefon rozgrywany przez algorytmy. Pierwsza osoba mówi "kot", trzecia słyszy "lot", dziesiąta "robot".

Microsoft i Tsinghua na razie nie ujawnili szczegółów dotyczących jakości wytrenowanego modelu. Nie wiemy, jak dobrze radzi sobie w porównaniu z modelami trenowanymi na prawdziwych danych. Może jest równie dobry. Może gorszy. Może w niektórych zadaniach lepszy.

Sam fakt, że to w ogóle działa, zmienia zasady gry.

Geopolityka w tle

Ten eksperyment to też sygnał w geopolitycznej grze o AI.

USA nałożyły na Chiny sankcje dotyczące eksportu zaawansowanych chipów. Nvidia nie może sprzedawać tam swoich topowych modeli H100 czy A100. Stąd powstały chipy H20 – okrojona wersja dla chińskiego rynku.

I teraz Microsoft – amerykańska firma – współpracuje z chińskim uniwersytetem, żeby pokazać, że nawet na tych słabszych chipach da się zrobić coś przełomowego.

Ironia chce, że sankcje miały spowolnić chiński rozwój AI. Zamiast tego zmusiły chińskie ośrodki badawcze do szukania kreatywnych rozwiązań. Dane syntetyczne to jedno z nich.

Za kilka lat możemy żyć w świecie, gdzie zachodnie modele AI uczą się na prawdziwych danych z internetu – i mają z tego powodu procesy sądowe – a chińskie modele uczą się na danych syntetycznych i są całkowicie legalne.

Co dalej

Eksperyment Microsoftu i Tsinghua to dopiero początek. Pytania pozostają.

Jak syntetyczne dane wpływają na długoterminową jakość modeli? Czy po dziesięciu pokoleniach AI uczącej się od AI nie skończymy z systemami coraz bardziej oderwanymi od rzeczywistości? Czy da się to kontrolować.

I najważniejsze: czy regulatorzy nadążą? Obecne przepisy o AI zakładają, że modele uczą się na prawdziwych danych. Co z modelami trenowanymi wyłącznie syntetycznie? Jak je klasyfikować? Jak kontrolować.

Jedno jest pewne: granica między tym, co prawdziwe, a tym, co wygenerowane, właśnie się rozmyła. I rozmywa się dalej z każdym takim eksperymentem.

Przeczytaj też:

Źródła

Tech in Asia

Microsoft i Tsinghua trenują AI bez prawdziwych danych

Kurs AI Evolution

Czym są dane syntetyczne i dlaczego to ważne

Jak to przebiegało

Dlaczego to zmienia wszystko

Co to zmienia w branży

Zamknięta pętla i jej ryzyko

Geopolityka w tle

Co dalej

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Microsoft i Tsinghua trenują AI bez prawdziwych danych

Kurs AI Evolution

Czym są dane syntetyczne i dlaczego to ważne

Jak to przebiegało

Dlaczego to zmienia wszystko

Co to zmienia w branży

Zamknięta pętla i jej ryzyko

Geopolityka w tle

Co dalej

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

SAION AI: platforma, która skraca rozwój szczepów z lat do miesięcy

Giganci AI kupują sobie wizerunek. Czy to zadziała?

Jeden wskaźnik, który pokazałby prawdę o AI i Twojej pracy