Wikipedia apeluje do firm AI: płaćcie za API, nie skrobcie

Wikipedia ma problem, którego nie przewidziała nawet dekadę temu. Modele AI trenowane na jej treściach odpowiadają na pytania użytkowników bez odsyłania ich na stronę encyklopedii. Efekt? Spadek ruchu i zagrożenie dla modelu finansowego największego nonprofit'owego projektu edukacyjnego w sieci.

Fundacja Wikimedia przedstawiła prosty plan: firmy AI mają przestać skrobać treści i zacząć płacić za dostęp przez oficjalne API. To nie rewolucja. To kwestia przetrwania.

Darmowa wiedza kosztuje - ktoś musi za nią zapłacić

Wikipedia zawsze była darmowa dla użytkowników końcowych. Jej model biznesowy opiera się na darowiznach i wsparcie społeczności. Problem pojawił się, gdy modele językowe zaczęły masowo wykorzystywać jej treści do treningu i generowania odpowiedzi, nie kierując użytkowników z powrotem na stronę encyklopedii.

Skala tego zjawiska jest trudna do przecenienia. Wikipedia liczy ponad 60 milionów artykułów w blisko 330 językach i od lat stanowi jeden z głównych zbiorów tekstów wykorzystywanych do trenowania dużych modeli językowych. Kiedy ChatGPT, Gemini czy Claude odpowiadają na pytania encyklopedyczne, często czerpią bezpośrednio z wiedzy przetworzonej na podstawie artykułów Wikipedii. Użytkownik dostaje odpowiedź i nie klika dalej. Encyklopedia staje się niewidzialnym zapleczem technologicznym dla produktów wartych miliardy dolarów.

Fundacja Wikimedia uruchomiła płatne API, które pozwala firmom technologicznym legalnie i etycznie korzystać z treści. Zamiast agresywnego skrobania, które obciąża serwery i nie przynosi żadnych korzyści projektowi, firmy AI mogą teraz płacić za strukturalny dostęp do danych.

Płatne API to nie tylko kwestia finansów. Oficjalny kanał dostępu pozwala Fundacji monitorować, w jaki sposób dane są wykorzystywane, zapewnia stabilność techniczną po stronie encyklopedii i daje podstawy do ewentualnych negocjacji warunków współpracy. Skrobanie danych metodą brute-force nie daje żadnej z tych gwarancji.

Ile to kosztuje i kto już płaci

Szczegóły cennika nie zostały ujawnione publicznie. Fundacja potwierdza jednak, że kilka dużych firm technologicznych już korzysta z płatnego API. To pokazuje, że model ma sens biznesowy dla obu stron - Wikipedia otrzymuje środki na dalszy rozwój, a firmy AI dostają niezawodny dostęp do wysokiej jakości danych.

Warto podkreślić, co sprawia, że dane Wikipedii są tak cenne dla branży AI. Artykuły są pisane i weryfikowane przez dziesiątki tysięcy aktywnych redaktorów-wolontariuszy, regularnie aktualizowane, powiązane wzajemnie siatką odniesień i dostępne w ustrukturyzowanym formacie. Dla modeli językowych to nie jest zwykły tekst ze strony internetowej - to kuratorowana, wielojęzyczna baza wiedzy o wyjątkowej spójności i jakości. Firmy technologiczne doskonale zdają sobie z tego sprawę, co tłumaczy intensywność skrobania.

Mniej odwiedzin, wyższe rachunki

Spadek ruchu na Wikipedii to nie abstrakcyjny problem. Mniej odwiedzin oznacza mniej potencjalnych darczyńców i mniejszą widoczność projektu. Jednocześnie koszty utrzymania infrastruktury rosną - serwery, moderacja treści, wsparcie dla społeczności redaktorów.

Mechanizm jest prosty: Wikipedia finansuje się przede wszystkim z drobnych, cyklicznych datków od zwykłych użytkowników. Każdy, kto trafia na stronę artykułu, widzi od czasu do czasu baner z prośbą o wsparcie. Jeśli miliony takich wejść miesięcznie zastępuje zapytanie do chatbota AI - tych banerów nikt nie widzi, darowizny nie wpływają, a infrastruktura nadal generuje koszty. To strukturalne uszczelnienie przychodów przy rosnących wydatkach.

Fundacja jasno komunikuje: jeśli firmy AI czerpią wartość z Wikipedii (a robią to masowo), powinny się do tego przyczynić finansowo. To nie jest próba monetyzacji wiedzy. To zapewnienie, że projekt będzie mógł działać w erze AI.

Precedens wykraczający poza Wikipedię

Ruch Wikipedii może stać się wzorem dla innych projektów open source i otwartych baz danych. Jeśli największa encyklopedia świata musi szukać nowych źródeł finansowania w erze AI, inne projekty staną przed podobnymi wyzwaniami.

Podobne napięcia już pojawiają się w innych miejscach sieci. Reddit wprowadził opłaty za dostęp do swojego API w 2023 roku, powołując się częściowo na masowe pobieranie danych przez firmy AI. Stack Overflow, Common Crawl i dziesiątki innych projektów budowanych na pracy społeczności stają przed identycznym dylematem: jak utrzymać otwartość dla ludzi, jednocześnie chroniąc się przed przemysłową eksploatacją przez algorytmy.

Dla użytkowników końcowych nic się nie zmienia - Wikipedia pozostaje darmowa i dostępna. Zmienia się sposób, w jaki duże firmy technologiczne mogą korzystać z jej treści na skalę przemysłową. Trudno się z tym nie zgodzić, szczególnie gdy alternatywą jest powolna śmierć projektu, z którego wszyscy korzystamy.

Jeśli model płatnego API sprawdzi się w przypadku Fundacji Wikimedia, może wyznaczyć standard dla całego sektora otwartych zasobów edukacyjnych. Oznaczałoby to nową umowę społeczną między twórcami wiedzy w internecie a firmami, które tę wiedzę przetwarzają na komercyjne produkty.

Źródła

TechCrunch - Wikipedia urges AI companies to use its paid API, and stop scraping

Wikipedia apeluje do firm AI: płaćcie za API, nie skrobcie

AI dla Twojej firmy

Powiązane tematy

Darmowa wiedza kosztuje - ktoś musi za nią zapłacić

Ile to kosztuje i kto już płaci

Mniej odwiedzin, wyższe rachunki

Precedens wykraczający poza Wikipedię

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Wikipedia apeluje do firm AI: płaćcie za API, nie skrobcie

AI dla Twojej firmy

Powiązane tematy

Darmowa wiedza kosztuje - ktoś musi za nią zapłacić

Ile to kosztuje i kto już płaci

Mniej odwiedzin, wyższe rachunki

Precedens wykraczający poza Wikipedię

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

GitHub Copilot zmienia cennik. Zapłacisz za to, ile używasz

Gemini Embedding 2 — jeden model dla tekstu, obrazu i dźwięku

AI do analizy PDF — jak wyciągnąć informacje w 3 minuty