Regulacje
Regulacje · 5 min czytania · 26 stycznia 2026

Microsoft i Tsinghua trenują AI bez prawdziwych danych

Grafika ilustrująca: Microsoft i Tsinghua trenują AI bez prawdziwych danych

Źródło: Link

Kurs AI Evolution

118 lekcji od zera do eksperta. Bez kodowania.

Sprawdź kurs →

Microsoft i Uniwersytet Tsinghua przeprowadziły eksperyment, który przypomina science fiction. Wytrenowali model AI używając wyłącznie danych syntetycznych – wygenerowanych przez inne AI. Zero prawdziwych danych. Zero przykładów z rzeczywistego świata.

To przypomina próba nauczenia kogoś gotowania wyłącznie przez oglądanie filmów animowanych, prawda?

I zadziałało.

Czym są dane syntetyczne i dlaczego to ważne

Dane syntetyczne to informacje stworzone przez komputer, nie zebrane z prawdziwego świata. zamiast uczyć dziecko rozpoznawania kotów pokazując mu tysiące zdjęć prawdziwych kotów, pokazujesz mu tylko rysunki – narysowane przez inne dziecko, które też nigdy kota nie widziało.

Absurd? Może. A jednak w świecie AI to działa.

Do tej pory trenowanie modeli AI wymagało ogromnych zbiorów prawdziwych danych. Miliony zdjęć, tekstów, nagrań. Firmy płaciły krocie za dostęp do takich zbiorów, zbierały je latami. A teraz okazuje się, że można je po prostu... wygenerować.

Jak to przebiegało

Zespół użył 128 chipów Nvidia H20 przez 220 godzin podczas supervised fine-tuning – etapu, w którym model uczy się na przykładach. Potem przyszedł czas na reinforcement learning (uczenie przez wzmacnianie) – tutaj pracowało 32 chipy H200 przez siedem dni.

Wyjaśnijmy prościej. Supervised fine-tuning to nauka z podręcznika – dostajesz pytanie i odpowiedź, uczysz się wzorca. Reinforcement learning to nauka przez próby i błędy. System sam testuje różne podejścia i zapamiętuje, co działa.

220 godzin plus siedem dni. Nie przypomina dużo? Ale mówimy o 128 chipach pracujących jednocześnie. Gdyby to był jeden komputer, trwałoby to lata.

I tu pojawia się kluczowa rzecz: chipy H20 to specjalna wersja, którą Nvidia stworzyła dla chińskiego rynku. Słabsza niż topowe modele dostępne w USA, ale – jak widać – wystarczająco mocna.

Dlaczego to zmienia wszystko

Prawdziwe dane to gigantyczny problem.

Po pierwsze: prywatność. Nie możesz po prostu wziąć milionów zdjęć ludzi z internetu i użyć ich do trenowania AI. Przynajmniej nie bez konsekwencji prawnych. Pytaj OpenAI, które ma już kilkanaście procesów sądowych na karku.

Po drugie: dostęp. Niektóre dane są po prostu niedostępne. Dane medyczne? Chronione. Finansowe? Tajemnica bankowa. Wojskowe? No cóż.

Po trzecie: koszt. Zbieranie, czyszczenie i kategoryzowanie milionów przykładów to praca dla setek ludzi przez miesiące. Albo lata.

Dane syntetyczne rozwiązują wszystkie te problemy jednocześnie. Nie ma kwestii prywatności – bo to nie prawdziwi ludzie. Nie ma problemu z dostępem – generujesz tyle, ile potrzebujesz. Koszt? Czas pracy procesorów. Drogi, ale przewidywalny.

Co to zmienia w branży

Jeśli da się trenować modele bez prawdziwych danych, zmienia się cała ekonomia AI.

Startupy nie muszą już wydawać milionów na zbiory danych. Nie muszą czekać latami, aż uzbierają wystarczająco dużo przykładów. Mogą wygenerować dane w tydzień i zacząć trenowanie.

Firmy działające w regulowanych branżach – medycyna, finanse, prawo – mogą trenować modele bez ryzyka naruszenia przepisów o ochronie danych. Generujesz syntetyczne przypadki medyczne zamiast używać prawdziwych historii pacjentów.

Kraje z ograniczonym dostępem do zachodnich technologii – jak Chiny – mogą budować własne modele mimo sankcji. Chipy H20 są słabsze od H100, ale jak widać, wystarczają.

I tu pojawia się pytanie: czy to dobrze?

Zamknięta pętla i jej ryzyko

AI ucząca się od AI. Dane generowane przez modele, używane do trenowania nowych modeli. To przypomina perpetuum mobile.

W takim systemie błędy się kumulują. Jeśli pierwotny model miał uprzedzenia – a każdy model je ma – to syntetyczne dane te uprzedzenia powielą. I wzmocnią. Kolejne pokolenie modeli będzie jeszcze bardziej przekrzywione.

To jak głuchy telefon rozgrywany przez algorytmy. Pierwsza osoba mówi "kot", trzecia słyszy "lot", dziesiąta "robot".

Microsoft i Tsinghua na razie nie ujawnili szczegółów dotyczących jakości wytrenowanego modelu. Nie wiemy, jak dobrze radzi sobie w porównaniu z modelami trenowanymi na prawdziwych danych. Może jest równie dobry. Może gorszy. Może w niektórych zadaniach lepszy.

Sam fakt, że to w ogóle działa, zmienia zasady gry.

Geopolityka w tle

Ten eksperyment to też sygnał w geopolitycznej grze o AI.

USA nałożyły na Chiny sankcje dotyczące eksportu zaawansowanych chipów. Nvidia nie może sprzedawać tam swoich topowych modeli H100 czy A100. Stąd powstały chipy H20 – okrojona wersja dla chińskiego rynku.

I teraz Microsoft – amerykańska firma – współpracuje z chińskim uniwersytetem, żeby pokazać, że nawet na tych słabszych chipach da się zrobić coś przełomowego.

Ironia chce, że sankcje miały spowolnić chiński rozwój AI. Zamiast tego zmusiły chińskie ośrodki badawcze do szukania kreatywnych rozwiązań. Dane syntetyczne to jedno z nich.

Za kilka lat możemy żyć w świecie, gdzie zachodnie modele AI uczą się na prawdziwych danych z internetu – i mają z tego powodu procesy sądowe – a chińskie modele uczą się na danych syntetycznych i są całkowicie legalne.

Co dalej

Eksperyment Microsoftu i Tsinghua to dopiero początek. Pytania pozostają.

Jak syntetyczne dane wpływają na długoterminową jakość modeli? Czy po dziesięciu pokoleniach AI uczącej się od AI nie skończymy z systemami coraz bardziej oderwanymi od rzeczywistości? Czy da się to kontrolować.

I najważniejsze: czy regulatorzy nadążą? Obecne przepisy o AI zakładają, że modele uczą się na prawdziwych danych. Co z modelami trenowanymi wyłącznie syntetycznie? Jak je klasyfikować? Jak kontrolować.

Jedno jest pewne: granica między tym, co prawdziwe, a tym, co wygenerowane, właśnie się rozmyła. I rozmywa się dalej z każdym takim eksperymentem.

Źródła

Informacje o artykule

Podoba Ci się ten artykuł?

Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!

Ten temat omawiam szerzej na webinarze

90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.

Zapisz sie na webinar
Udostępnij:
Jan Gajos

Ekspert AI & Founder, AI Evolution

Pasjonat sztucznej inteligencji, który od ponad 15 lat działa z sukcesem biznesowo i szkoleniowo. Wprowadzam AI do swoich firm oraz codziennego życia. Fascynują mnie nowe technologie, gry wideo i składanie klocków Lego – tam też widzę logikę i kreatywność, które AI potrafi wzmacniać. Wierzę, że dobrze użyta sztuczna inteligencja to nie ogłupiające ułatwienie, lecz prawdziwy przełom w sposobie, w jaki myślimy, tworzymy i pracujemy.