OpenAI kasuje dane i ucieka przed sądem. Stawka? Miliardy dolarów

OpenAI skasowało zbiory pirackich ebooków. I desperacko unika odpowiedzi na pytanie: dlaczego?

Chodzi o pozew autorów, którzy twierdzą, że firma Sama Altmana trenowała ChatGPT na nielegalnie zdobytych książkach. Bez pytania o zgodę. Bez płacenia.

Te zbiory danych nagle zniknęły. A sąd chce szczegółów.

Gdzie się podziały dane treningowe?

Books3 i LibGen — dwa masywne zbiory ebooków. Pierwszy zawierał jakieś 200 tysięcy książek. Drugi jeszcze więcej.

Żaden nie miał licencji.

OpenAI przyznaje, że z nich korzystało. Tłumaczy to jako "fair use" — dozwolony użytek w celach badawczych. Autorzy mówią wprost: to kradzież na przemysłową skalę.

I teraz robi się ciekawie.

Gdzieś między wniesieniem pozwu a rozprawą te dane po prostu przestały istnieć w systemach OpenAI. Firma twierdzi, że to rutynowe sprzątanie. Sąd patrzy na to z wyraźnym sceptycyzmem.

Dlaczego OpenAI tak kurczowo trzyma szczegóły?

Sędzia zażądał wyjaśnień. Co dokładnie usunięto? Kiedy? Dlaczego akurat wtedy?

OpenAI odpowiedziało wnioskiem o... niewyjaśnianie tego publicznie.

Argument? Tajemnica handlowa.

Paradoks? Firma zarabiająca miliardy na "transparentnej AI" nie chce ujawnić, jak ją właściwie trenowała.

Prawdziwy powód jest prostszy — każdy szczegół może stać się dowodem. Im mniej powiedzą, tym lepiej dla obrony.

Sąd się nie ugiął. Nakazał złożyć wyjaśnienia, z możliwością utajnienia tylko naprawdę wrażliwych fragmentów.

Matematyka kar robi wrażenie

Prawo autorskie w USA przewiduje kary od 750 do 30 tysięcy dolarów za każde naruszenie. Celowe naruszenie? Do 150 tysięcy.

Za każdą. Pojedynczą. Książkę.

Books3 to samo w sobie 200 tysięcy tytułów. Prosta matematyka prowadzi do liczb z wieloma zerami — setki milionów, może miliardy dolarów.

OpenAI tłumaczy, że nie da się ustalić, które konkretnie książki zostały użyte i jak wpłynęły na model. Trochę jak powiedzieć: "Tak, byłem w sklepie, ale nie pamiętam co wziąłem".

Sąd kupuje takie tłumaczenie? Raczej nie.

Cała branża AI ma ten sam problem

To nie jest tylko kłopot OpenAI. Praktycznie każda firma trenująca duże modele językowe — ChatGPT, Claude, Gemini — korzystała z podobnych zbiorów.

Internetu nie da się "wytrenować" bez napotkania treści chronionych prawem autorskim. Pytanie brzmi: czy trenowanie AI to dozwolony użytek, czy naruszenie.

Odpowiedź zadecyduje o przyszłości całej branży.

Jeśli sądy orzekną, że to naruszenie — firmy będą musiały albo płacić za licencje (co drastycznie podniesie koszty), albo trenować modele tylko na legalnych danych (co ograniczy możliwości).

Już widać efekty. OpenAI podpisuje umowy z wydawcami — Financial Times, Associated Press, Axel Springer. Droga, ale bezpieczna.

Usuwanie danych pogarsza sprawę

W procesach sądowych istnieje coś, co prawnicy nazywają "spoliation of evidence" — niszczenie dowodów. Jeśli strona usunie materiały istotne dla sprawy, sąd może to potraktować jako przyznanie się do winy.

Albo po prostu nałożyć wyższe kary.

OpenAI twierdzi, że to standardowa procedura. Timing jednak budzi wątpliwości — dokładnie wtedy, gdy sprawa nabiera tempa.

Sędzia może wyciągnąć z tego negatywne wnioski. "Skoro usunęliście dane, które mogłyby was obronić — może dlatego, że faktycznie was obciążały?"

Klasyczna pułapka. Próba ukrycia problemu często go pogłębia.

Sprawa będzie się ciągnąć

Proces toczy się wolno — jak większość spraw o prawa autorskie. Pierwsze rozprawy już były, ale do wyroku daleka droga.

OpenAI będzie walczyć o każdy szczegół. Autorzy będą domagać się pełnej transparentności. Sędzia będzie lawirować między prawem do obrony a prawem do sprawiedliwego procesu.

Prawdziwe pytanie nie brzmi "czy OpenAI przegra". Pytanie brzmi: ile zapłaci i co to zmieni.

Inne firmy AI obserwują sprawę z niepokojem. Precedens może dotyczyć ich wszystkich. Dlatego niektóre już zmieniają praktyki — wolą zapłacić za licencje dziś niż za kary jutro.

Lekcja dla całej branży

Ta historia pokazuje podstawowy konflikt ery AI: technologia rozwija się szybciej niż prawo. Firmy budują systemy na danych, o których pochodzeniu wolą nie mówić głośno.

Działa. Dopóki nikt nie zapyta o szczegóły.

OpenAI postawiło na strategię "trenujemy teraz, przeprosimy później". Teraz przyszedł czas na "później" — i okazuje się, że przeprosiny mogą kosztować miliardy.

Dla użytkowników ChatGPT to odległy problem. Dla twórców treści — fundamentalna kwestia. Jeśli AI może uczyć się na cudzej pracy bez płacenia, kto będzie tworzył nowe treści.

Odpowiedź na to pytanie ukształtuje przyszłość nie tylko OpenAI, ale całego ekosystemu sztucznej inteligencji.

Przeczytaj też:

Źródła

Ars Technica - OpenAI desperate to avoid explaining why it deleted pirated book datasets

OpenAI kasuje dane przed sądem. Stawka? Miliardy dolarów

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Gdzie się podziały dane treningowe?

Dlaczego OpenAI tak kurczowo trzyma szczegóły?

Matematyka kar robi wrażenie

Cała branża AI ma ten sam problem

Usuwanie danych pogarsza sprawę

Sprawa będzie się ciągnąć

Lekcja dla całej branży

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

OpenAI kasuje dane przed sądem. Stawka? Miliardy dolarów

Kurs AI Evolution — od zera do eksperta

Powiązane tematy

Gdzie się podziały dane treningowe?

Dlaczego OpenAI tak kurczowo trzyma szczegóły?

Matematyka kar robi wrażenie

Cała branża AI ma ten sam problem

Usuwanie danych pogarsza sprawę

Sprawa będzie się ciągnąć

Lekcja dla całej branży

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

DeepSeek V4: chiński model AI, który nie prosi o pozwolenie

OpenAI płaci $25 000 za złamanie zabezpieczeń GPT-5.5

Model Mythos Anthropic wyciekł. I to nie przez hakera