Projekt ML na danych z Amazona – przewodnik od zera do modelu

Analytics Vidhya pokazało coś, czego brakuje w większości kursów ML. Nie kolejny tutorial o rozpoznawaniu kotów, ale projekt na realnych danych sprzedażowych z Amazona. Z tych, które faktycznie wpływają na przychody firmy.

Większość materiałów o uczeniu maszynowym kończy się na teorii. Uczysz się algorytmów, matematyki, bibliotek. A potem stajesz przed pytaniem: "OK, ale jak to użyć, żeby firma zarobiła więcej pieniędzy?"

Ten projekt pokazuje całą ścieżkę. Od surowych danych do modelu, który podpowiada, co robić z cenami, zapasami czy kampaniami marketingowymi.

Dlaczego akurat dane sprzedażowe

E-commerce to jedno z najlepszych miejsc do nauki ML. Powód? Masz wszystko w liczbach.

Każda transakcja to zestaw danych: kto kupił, kiedy, za ile, co jeszcze oglądał, skąd przyszedł. I najważniejsze — widzisz natychmiastowy efekt. Model przewidział popyt? Sprawdzasz za tydzień, czy miał rację.

W projekcie Analytics Vidhya używasz Pythona i kilku bibliotek (pandas do danych, scikit-learn do modeli, matplotlib do wykresów). Technikalia to jedno. Ważniejsze jest myślenie: jak przekuć wzorce w danych na decyzje biznesowe.

Przykład: model przewiduje, że dany produkt będzie miał wzrost sprzedaży w lutym. Co z tym robisz? Zwiększasz zamówienia u dostawcy, przygotowujesz kampanię reklamową, może podnosisz cenę o 5%, bo popyt to wytrzyma.

Jak wygląda taki projekt od środka

Zacznijmy od początku. Masz plik CSV z danymi — nazwy produktów, ceny, daty zakupu, kategorie, oceny klientów. Surowe, brudne dane. Bo prawdziwe dane zawsze są brudne.

Pierwszy krok to czyszczenie. Brakujące wartości, duplikaty, dziwne formaty dat. Jest nudno. To 60% pracy w każdym projekcie ML. Jeśli tego nie zrobisz dobrze, model będzie uczył się śmieci.

Potem eksploracja. Pytasz dane: które produkty sprzedają się najlepiej? Kiedy są szczyty zakupów? Czy wyższe oceny oznaczają wyższą sprzedaż? To etap, gdzie znajdujesz pierwsze "aha!".

Dopiero potem budujesz model. I tu uwaga — nie zaczynasz od skomplikowanych sieci neuronowych. Zaczynasz od prostego modelu regresji liniowej. Działa? Świetnie. Nie działa? Próbujesz drzew decyzyjnych, random forest, może XGBoost.

Feature engineering — czyli skąd model wie, co jest ważne

To najciekawsza część. Feature engineering to tworzenie nowych zmiennych z tych, które masz.

Masz datę zakupu? Wyciągasz z niej dzień tygodnia, miesiąc, czy to był weekend, czy sezon świąteczny. Masz cenę i ocenę? Liczysz stosunek ceny do oceny — może to lepszy wskaźnik niż każda z tych wartości osobno.

To jak dawanie modelowi wskazówek. Zamiast powiedzieć "ucz się ze wszystkiego", mówisz: "hej, ten wzorzec może być ważny, sprawdź go".

Dla kogoś bez technicznego doświadczenia to może brzmieć jak magia. To raczej detektywistyka. Szukasz powiązań, testujesz hipotezy, sprawdzasz, co działa.

Co model faktycznie przewiduje

W tym projekcie głównym celem jest przewidywanie sprzedaży. Konkretnie: ile sztuk danego produktu sprzeda się w następnym tygodniu lub miesiącu.

Dla e-commerce to złoto. Wiesz, ile zamówić u dostawcy. Nie za mało (bo stracisz klientów), nie za dużo (bo zamrożysz kasę w magazynie).

Możesz iść dalej. Model może przewidywać:

Które produkty często kupuje się razem (rekomendacje "klienci kupili również")
Jaka cena maksymalizuje przychód (nie zawsze najwyższa!)
Którzy klienci prawdopodobnie wrócą, a którzy znikną
Kiedy uruchomić promocję, żeby miała największy efekt

Każde z tych pytań to osobny model. Logika pozostaje ta sama: uczysz się z przeszłości, przewidujesz przyszłość, sprawdzasz, czy się nie pomyliłeś.

Jak sprawdzić, czy model działa

Kluczowe pytanie. Model daje ci liczby — skąd wiesz, czy im ufać?

Dzielisz dane na dwie części. 80% używasz do treningu (uczenia modelu), 20% chowasz na bok. Model nie widzi tych 20%. Potem pytasz: "przewidź sprzedaż dla tych produktów". I porównujesz z rzeczywistością.

Jeśli model mówi "sprzedaż będzie 100", a była 98 — super. Jeśli mówi 100, a była 200 — masz problem.

Metryki (MAE, RMSE, R²) to sposób na zmierzenie tego błędu. Dla przedsiębiorcy ważniejsze jest pytanie: czy ten błąd jest na tyle mały, że mogę podejmować decyzje? Jeśli model myli się o 5%, prawdopodobnie tak. Jeśli o 50% — wracasz do deski kreślarskiej.

Czego nie mówią tutoriale

Większość kursów ML pokazuje idealny scenariusz. Czyste dane, jasny cel, model działa za pierwszym razem.

Prawdziwe projekty wyglądają inaczej.

Dane są niekompletne. Klient kupił coś, nie wiesz skąd przyszedł, bo nie zalogował się. Produkt zmienił nazwę w połowie roku. Ceny skakały przez promocje, które nie są zapisane w bazie.

Model działa na testowych danych, w produkcji (czyli na żywych danych) przewiduje nonsens. Dlaczego? Bo coś się zmieniło. Nowy konkurent wszedł na rynek. Pandemia. Inflacja. Algorytm nie wie o świecie poza danymi.

I jeszcze jedno: model to nie rozwiązanie, to narzędzie. Ktoś musi zdecydować, co z jego przewidywaniami zrobić. Jeśli model mówi "podnieś cenę", a ty wiesz, że akurat konkurencja wypuściła promocję — ignorujesz model.

Połączenie ludzkiego osądu i maszynowej analizy daje efekty. Nie jedno bez drugiego.

Dla kogo jest taki projekt

Jeśli znasz podstawy Pythona (pętle, funkcje, biblioteki typu pandas), dasz radę. Nie musisz być programistą. Wystarczy, że potrafisz czytać kod i modyfikować przykłady.

Matematyka? Podstawy statystyki pomagają, nie są konieczne. Większość bibliotek robi ciężką robotę za ciebie. Ty musisz rozumieć, co się dzieje koncepcyjnie.

Najważniejsze to chęć zrozumienia biznesowego "dlaczego". Model przewiduje wzrost sprzedaży — dlaczego? Co się zmieniło w danych? Czy to sezonowość, promocja, trend długoterminowy?

Jeśli potrafisz zadawać takie pytania, reszta to kwestia praktyki.

Co dalej z takim projektem

Załóżmy, że zbudowałeś model. Działa. Co teraz.

W idealnym świecie: wdrażasz go do systemu firmy. Model automatycznie analizuje nowe dane, generuje przewidywania, podpowiada decyzje. Zespół operacyjny dostaje raporty: "zwiększ zamówienie produktu X o 20%", "obniż cenę produktu Y o 10%".

W praktyce: często zaczynasz od Excela. Eksportujesz przewidywania, ktoś ręcznie sprawdza, porównuje z intuicją, testuje na małą skalę. Jeśli działa — skalujesz.

I tu pojawia się monitoring. Model nie jest "zrób i zapomnij". Dane się zmieniają. Rynek się zmienia. Model, który działał w styczniu 2026, może nie działać w czerwcu. Musisz go trenować na nowych danych, sprawdzać metryki, czasem zmieniać podejście.

To żywy organizm, nie statyczny skrypt.

Dlaczego warto to zrobić samemu

Możesz kupić gotowe narzędzie. Amazon ma swoje systemy predykcyjne. Shopify oferuje analizy. Mają dwa problemy.

Pierwszy: nie wiesz, jak działają. To czarna skrzynka. Daje ci wynik, nie rozumiesz dlaczego. Jeśli coś pójdzie nie tak, nie wiesz, co naprawić.

Drugi: są generyczne. Zbudowane dla przeciętnego sklepu. Twój biznes ma swoją specyfikę — sezonowość, typy klientów, model cenowy. Własny model możesz dostosować dokładnie do tego, co potrzebujesz.

Plus umiejętność zostaje. Następnym razem zbudujesz model szybciej. Będziesz wiedział, które techniki działają, które są stratą czasu. To inwestycja w kompetencje.

Praktyczne wskazówki na start

Jeśli chcesz spróbować czegoś podobnego:

Zacznij od małego zbioru danych. Nie miliony rekordów, tylko kilka tysięcy. Wystarczy, żeby zobaczyć, jak to działa. Możesz użyć danych z Kaggle (platforma z otwartymi datasetami) lub wygenerować syntetyczne.

Postaw jedno konkretne pytanie. Nie "jak zwiększyć sprzedaż", lecz "który produkt sprzeda się najlepiej w lutym". Wąskie pytanie = łatwiejszy model.

Nie komplikuj na początku. Prosta regresja liniowa to często wystarczy. Jeśli nie działa, wtedy szukasz bardziej zaawansowanych metod. Nie zaczynaj od deep learningu.

Wizualizuj wszystko. Wykresy pokazują wzorce, których nie zobaczysz w tabelach. Scatter plot (wykres punktowy), histogram, heatmapa korelacji — to twoje narzędzia detektywistyczne.

Dokumentuj decyzje. Dlaczego usunąłeś tę kolumnę? Dlaczego wybrałeś ten algorytm? Za miesiąc nie będziesz pamiętał. Notatki ratują życie.

Realne efekty w biznesie

Firmy, które wdrożyły predykcyjne modele sprzedaży, widzą konkretne liczby. Walmart zmniejszył nadmiar zapasów o 20%. Target przewiduje popyt z dokładnością 85%. Mniejsze sklepy też korzystają — nawet 10% lepsza prognoza to tysiące zaoszczędzone na magazynowaniu.

Nie musisz być Amazonem, żeby to zadziałało. Mały sklep z 500 produktami może równie dobrze użyć tych technik. Skala się zmienia, logika pozostaje ta sama.

I jeszcze jedna rzecz: klienci tego nie widzą, czują to. Produkt, którego szukają, jest w magazynie. Cena jest rozsądna. Rekomendacje faktycznie pasują. To wszystko efekt dobrze działającego ML w tle.

Projekt na danych z Amazona to nie akademickie ćwiczenie. To przepustka do zrozumienia, jak dane zamieniają się w decyzje, a decyzje w przychody. Reszta to już kwestia wdrożenia.

Źródła

Analytics Vidhya – End-to-End Machine Learning Project on Amazon Sales Data Using Python

ML na danych Amazona – przewodnik od zera do modelu

Darmowy webinar — AI od zera

Dlaczego akurat dane sprzedażowe

Jak wygląda taki projekt od środka

Feature engineering — czyli skąd model wie, co jest ważne

Co model faktycznie przewiduje

Jak sprawdzić, czy model działa

Czego nie mówią tutoriale

Dla kogo jest taki projekt

Co dalej z takim projektem

Dlaczego warto to zrobić samemu

Praktyczne wskazówki na start

Realne efekty w biznesie

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

ML na danych Amazona – przewodnik od zera do modelu

Darmowy webinar — AI od zera

Dlaczego akurat dane sprzedażowe

Jak wygląda taki projekt od środka

Feature engineering — czyli skąd model wie, co jest ważne

Co model faktycznie przewiduje

Jak sprawdzić, czy model działa

Czego nie mówią tutoriale

Dla kogo jest taki projekt

Co dalej z takim projektem

Dlaczego warto to zrobić samemu

Praktyczne wskazówki na start

Realne efekty w biznesie

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

AI do analizy PDF — jak wyciągnąć informacje w 3 minuty

Google SGE, Perplexity, SearchGPT — jak AI zmienia wyszukiwanie

Copilot, Cursor czy Claude Code? Asystenci AI w kodowaniu