OpenAI musi oddać 20 mln logów ChatGPT. Media chcą więcej
Źródło: Link
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
OpenAI właśnie przegrało batalię sądową. I to nie byle jaką. Firma musi udostępnić redakcjom newsowym ponad 20 milionów logów rozmów z ChatGPT.
To dopiero początek. Media nie zamierzają poprzestać na tym, co dostały. Chcą więcej — domagają się dostępu do czatów, które użytkownicy... usunęli.
Sprawa zaczęła się prozaicznie. Grupa organizacji medialnych złożyła pozew zbiorowy przeciwko OpenAI. Zarzut? Naruszenie praw autorskich przez trenowanie modeli AI na ich artykułach — bez zgody i wynagrodzenia.
W trakcie postępowania redakcje poprosiły o wgląd w logi ChatGPT. Po co? Żeby sprawdzić, czy system rzeczywiście wykorzystywał ich materiały. I jak dokładnie to robił. Sąd przychylił się do wniosku.
OpenAI musiało oddać dane. 20 milionów rozmów użytkowników z chatbotem. To ogromna ilość informacji — każda może zawierać cytaty, fragmenty artykułów, sposób, w jaki AI przetwarza treści dziennikarskie.
Dla redakcji to złoto. Dowody w czystej postaci.
Media poszły o krok dalej. Nie wystarczą im logi, które OpenAI przechowuje standardowo. Chcą dotrzeć do rozmów, które użytkownicy świadomie skasowali.
Czemu? Bo ich zdaniem te usunięte dane mogą zawierać kluczowe dowody. Może tam są fragmenty artykułów, które ChatGPT zacytował słowo w słowo? Może są przypadki, gdy system podał źródło — lub nie podał, choć powinien?
OpenAI twierdzi, że to niemożliwe. Usunięte czaty to usunięte czaty. Firma nie ma do nich dostępu.
Ale redakcje nie dają za wygraną. Ich prawnicy sugerują, że dane mogą być gdzieś w backupach, archiwach, kopiach zapasowych. I tu zaczyna się prawny pat.
Jeśli regularnie korzystasz z ChatGPT, ta sprawa dotyczy też Ciebie. Twoje rozmowy — nawet te, które wydawały Ci się prywatne — mogą trafić do akt sądowych.
Oczywiście OpenAI zapewnia, że dane są anonimizowane. Żadnych nazwisk, adresów email, danych identyfikujących. Tylko treść rozmów.
Ale czy to wystarczy?
W czacie z AI opisałeś konkretną sytuację z pracy. Albo zapytałeś o coś bardzo specyficznego, co dotyczy tylko Ciebie. Nawet bez nazwiska — kontekst może Cię zdradzić.
A teraz dodaj do tego fakt, że redakcje chcą sięgnąć po usunięte wiadomości. Te, które skasowałeś, bo uznałeś je za zbyt osobiste. Za wrażliwe. Za coś, co nie powinno nigdzie zostać.
Sąd uznał, że argument redakcji jest zasadny. Jeśli OpenAI trenowało swoje modele na chronionych prawem autorskim materiałach, media mają prawo to udowodnić. A jedynym sposobem na weryfikację jest dostęp do danych.
OpenAI próbowało bronić się kwestią prywatności użytkowników. Mówiło, że ujawnienie logów naruszy zaufanie, które ludzie pokładają w ChatGPT. Że użytkownicy zakładają, iż ich rozmowy pozostaną poufne.
Sąd nie kupił tego argumentu. Przynajmniej nie w całości. Zdecydował, że interes publiczny — w tym przypadku ochrona praw autorskich — przeważa nad obawami o prywatność. Zwłaszcza gdy dane są anonimizowane.
To precedens. I może otworzyć drogę innym.
Ta sprawa stawia fundamentalne pytanie: gdzie kończy się prywatność użytkownika, a zaczyna odpowiedzialność firmy technologicznej.
ChatGPT nie jest zamkniętym notatnikiem. To narzędzie, które uczy się na danych. Część tych danych pochodzi z internetu — w tym z artykułów, książek, postów na forach. Jeśli ktoś skopiował do czatu fragment artykułu (nawet nieświadomie), a ChatGPT go przetworzyło — kto ponosi odpowiedzialność.
Redakcje twierdzą, że OpenAI. Firma twierdzi, że to użytkownicy decydują, co wpisują.
Sąd chce zobaczyć dane i sam ocenić.
Jedno jest pewne: era "co wpiszę do AI, zostanie między nami" właśnie się kończy. Niezależnie od wyniku tej konkretnej sprawy.
To pytanie warte miliony. Jeśli precedens się utrzyma, Google (Gemini), Anthropic (Claude), Meta (Llama) — wszyscy mogą stanąć przed podobnymi żądaniami.
lawinę pozwów. Wydawcy, artyści, twórcy treści — każdy, kto podejrzewa, że jego praca została wykorzystana bez zgody, może domagać się dostępu do logów. A to oznacza miliardy rozmów, petabajty danych, lata sporów prawnych.
Firmy AI będą musiały albo udowodnić, że ich modele nie naruszają praw autorskich, albo... zapłacić. Dużo.
Niektórzy eksperci uważają, że to może zmusić branżę do rewizji całego modelu biznesowego. Może będziemy musieli przejść na systemy, które trenują się wyłącznie na licencjonowanych danych? Albo na modele, które wyraźnie oznaczają źródła każdej informacji.
Czas pokaże.
Na razie OpenAI pakuje 20 milionów logów.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar