ChatGPT wyciekł do Google Analytics. OpenAI ma problem
Źródło: Link
Źródło: Link
Audyty, wdrożenia, szkolenia sprzedażowe i AI. Dopasowane do zespołu i procesów.
Prywatne rozmowy z ChatGPT pojawiły się w miejscu, gdzie absolutnie nie powinny być – w Google Analytics. To jeden z najdziwniejszych wycieków w historii OpenAI. I może potwierdzać coś, o czym firma wolałaby milczeć.
Historia wyszła na jaw, gdy użytkownicy narzędzi analitycznych Google zaczęli zgłaszać obecność logów konwersacji z ChatGPT w swoich raportach. Nie były to zwykłe fragmenty. Niektóre zawierały pełne, często krępujące wymiany zdań między użytkownikami a modelem (co przy niektórych promptach potrafi być... ciekawe). Problem? Te dane nigdy nie powinny opuścić serwerów OpenAI.
Mechanizm wycieku jest prosty. Jego implikacje – już mniej. Eksperci ds. bezpieczeństwa wskazują, że logi konwersacji pojawiły się w Google Analytics prawdopodobnie przez sposób, w jaki OpenAI zbiera dane z internetu. Jeśli firma rzeczywiście scrapuje strony internetowe do trenowania swoich modeli, może przypadkowo przechwytywać też dane analityczne zawierające fragmenty rozmów użytkowników.
Specjaliści zauważyli, że wzorce wycieków sugerują systematyczne zbieranie danych ze stron zawierających kod śledzący Google. To oznaczałoby, że boty OpenAI nie tylko indeksują treści publiczne, ale również przypadkowo wyciągają dane z narzędzi analitycznych osadzonych na stronach.
Warto zrozumieć, jak technicznie może do tego dochodzić. Strony internetowe osadzają kod JavaScript Google Analytics, który rejestruje zachowania użytkowników i przesyła je do infrastruktury Google. Jeśli operator strony skonfigurował śledzenie w sposób, który przechwytuje również treść wpisywanych formularzy lub adresów URL zawierających parametry z danymi rozmów, te informacje mogą być widoczne w raportach analitycznych. Bot indeksujący sieć, który trafia na taką stronę w momencie, gdy dane są dostępne lub zostały w jakiś sposób ujawnione w strukturze strony, może je zebrać razem z pozostałą zawartością. Brzmi jak scenariusz z niskim prawdopodobieństwem – ale wycieki udowodniły, że jednak się zdarza.
Analitycy bezpieczeństwa są zgodni – ten wyciek to prawdopodobnie nieumyślny efekt uboczny agresywnego scrapowania sieci przez OpenAI. Firma od dawna stoi w centrum kontrowersji dotyczących tego, skąd dokładnie bierze dane treningowe dla swoich modeli. Oficjalne stanowisko mówi o publicznie dostępnych zasobach. Szczegóły pozostają mgliste.
Problem wykracza poza kwestię prywatności pojedynczych użytkowników. Jeśli OpenAI rzeczywiście zbiera dane w tak szeroki sposób, może to naruszać regulacje dotyczące ochrony danych osobowych w Unii Europejskiej i innych jurysdykcjach. Firmy korzystające z ChatGPT do obsługi klientów czy wewnętrznej komunikacji mogą mieć poważny problem z compliance.
Szczególnie narażone są organizacje, które wdrożyły ChatGPT lub narzędzia oparte na API OpenAI bez dokładnego audytu przepływu danych. W praktyce oznacza to firmy korzystające z wtyczek do przeglądarek integrujących ChatGPT ze swoimi narzędziami, zespoły używające ChatGPT do drafting e-maili czy dokumentów zawierających dane klientów, a także działy HR, które testowały model do analizy CV lub prowadzenia wstępnych rozmów rekrutacyjnych. Każdy z tych przypadków niesie realne ryzyko, że wrażliwe informacje znalazły drogę tam, gdzie nie powinny.
Incydent z Google Analytics nie jest pierwszym sygnałem ostrzegawczym w tej branży. Wcześniej Samsung musiał wprowadzić wewnętrzny zakaz używania zewnętrznych narzędzi AI po tym, jak pracownicy przypadkowo wkleili do ChatGPT poufny kod źródłowy. Włoska agencja ochrony danych czasowo zablokowała dostęp do ChatGPT, powołując się właśnie na niejasności dotyczące przetwarzania danych użytkowników.
Na tym tle obecny wyciek ma jednak inny charakter. Poprzednie incydenty wynikały głównie z nierozważnych działań samych użytkowników. Ten sugeruje, że dane mogły wyciec bez jakiejkolwiek aktywnej decyzji po stronie osoby korzystającej z modelu. To istotna różnica z perspektywy odpowiedzialności prawnej i regulacyjnej.
OpenAI jak dotąd nie wydało oficjalnego oświadczenia wyjaśniającego dokładny mechanizm wycieku. Firma zazwyczaj reaguje na takie incydenty szybko, ale tym razem milczenie trwa dłużej niż zwykle. Użytkownicy ChatGPT powinni założyć, że ich rozmowy mogą nie być tak prywatne, jak się wydaje – szczególnie jeśli zawierają wrażliwe informacje biznesowe czy osobiste.
Dla branży AI to kolejny sygnał, że regulacje muszą nadążyć za rozwojem technologii. Praktyki zbierania danych przez gigantów AI pozostają w dużej mierze nietransparentne. Takie wycieki pokazują realne konsekwencje tej nieprzejrzystości. Jeśli korzystasz z ChatGPT zawodowo, teraz to dobry moment, żeby przejrzeć politykę prywatności i zastanowić się, jakie dane faktycznie powierzasz modelowi.
Warto też zwrócić uwagę na ustawienia samego konta. OpenAI udostępnia opcję wyłączenia wykorzystywania rozmów do trenowania modeli – w ustawieniach dostępna jest opcja „Improve the model for everyone", którą można dezaktywować. To nie eliminuje ryzyka związanego z wyciekami przez zewnętrzne narzędzia, ale ogranicza przynajmniej jeden z kanałów, przez które dane konwersacji mogą być przetwarzane szerzej niż użytkownik zakłada.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar