ML na danych Amazona – przewodnik od zera do modelu
Źródło: Link
Źródło: Link
90 minut praktyki na żywo. Pokazuję krok po kroku, jak zacząć z AI bez kodowania.
Analytics Vidhya pokazało coś, czego brakuje w większości kursów ML. Nie kolejny tutorial o rozpoznawaniu kotów, ale projekt na realnych danych sprzedażowych z Amazona. Z tych, które faktycznie wpływają na przychody firmy.
Większość materiałów o uczeniu maszynowym kończy się na teorii. Uczysz się algorytmów, matematyki, bibliotek. A potem stajesz przed pytaniem: "OK, ale jak to użyć, żeby firma zarobiła więcej pieniędzy?"
Ten projekt pokazuje całą ścieżkę. Od surowych danych do modelu, który podpowiada, co robić z cenami, zapasami czy kampaniami marketingowymi.
E-commerce to jedno z najlepszych miejsc do nauki ML. Powód? Masz wszystko w liczbach.
Każda transakcja to zestaw danych: kto kupił, kiedy, za ile, co jeszcze oglądał, skąd przyszedł. I najważniejsze — widzisz natychmiastowy efekt. Model przewidział popyt? Sprawdzasz za tydzień, czy miał rację.
W projekcie Analytics Vidhya używasz Pythona i kilku bibliotek (pandas do danych, scikit-learn do modeli, matplotlib do wykresów). Technikalia to jedno. Ważniejsze jest myślenie: jak przekuć wzorce w danych na decyzje biznesowe.
Przykład: model przewiduje, że dany produkt będzie miał wzrost sprzedaży w lutym. Co z tym robisz? Zwiększasz zamówienia u dostawcy, przygotowujesz kampanię reklamową, może podnosisz cenę o 5%, bo popyt to wytrzyma.
Zacznijmy od początku. Masz plik CSV z danymi — nazwy produktów, ceny, daty zakupu, kategorie, oceny klientów. Surowe, brudne dane. Bo prawdziwe dane zawsze są brudne.
Pierwszy krok to czyszczenie. Brakujące wartości, duplikaty, dziwne formaty dat. Jest nudno. To 60% pracy w każdym projekcie ML. Jeśli tego nie zrobisz dobrze, model będzie uczył się śmieci.
Potem eksploracja. Pytasz dane: które produkty sprzedają się najlepiej? Kiedy są szczyty zakupów? Czy wyższe oceny oznaczają wyższą sprzedaż? To etap, gdzie znajdujesz pierwsze "aha!".
Dopiero potem budujesz model. I tu uwaga — nie zaczynasz od skomplikowanych sieci neuronowych. Zaczynasz od prostego modelu regresji liniowej. Działa? Świetnie. Nie działa? Próbujesz drzew decyzyjnych, random forest, może XGBoost.
To najciekawsza część. Feature engineering to tworzenie nowych zmiennych z tych, które masz.
Masz datę zakupu? Wyciągasz z niej dzień tygodnia, miesiąc, czy to był weekend, czy sezon świąteczny. Masz cenę i ocenę? Liczysz stosunek ceny do oceny — może to lepszy wskaźnik niż każda z tych wartości osobno.
To jak dawanie modelowi wskazówek. Zamiast powiedzieć "ucz się ze wszystkiego", mówisz: "hej, ten wzorzec może być ważny, sprawdź go".
Dla kogoś bez technicznego doświadczenia to może brzmieć jak magia. To raczej detektywistyka. Szukasz powiązań, testujesz hipotezy, sprawdzasz, co działa.
W tym projekcie głównym celem jest przewidywanie sprzedaży. Konkretnie: ile sztuk danego produktu sprzeda się w następnym tygodniu lub miesiącu.
Dla e-commerce to złoto. Wiesz, ile zamówić u dostawcy. Nie za mało (bo stracisz klientów), nie za dużo (bo zamrożysz kasę w magazynie).
Możesz iść dalej. Model może przewidywać:
Każde z tych pytań to osobny model. Logika pozostaje ta sama: uczysz się z przeszłości, przewidujesz przyszłość, sprawdzasz, czy się nie pomyliłeś.
Kluczowe pytanie. Model daje ci liczby — skąd wiesz, czy im ufać?
Dzielisz dane na dwie części. 80% używasz do treningu (uczenia modelu), 20% chowasz na bok. Model nie widzi tych 20%. Potem pytasz: "przewidź sprzedaż dla tych produktów". I porównujesz z rzeczywistością.
Jeśli model mówi "sprzedaż będzie 100", a była 98 — super. Jeśli mówi 100, a była 200 — masz problem.
Metryki (MAE, RMSE, R²) to sposób na zmierzenie tego błędu. Dla przedsiębiorcy ważniejsze jest pytanie: czy ten błąd jest na tyle mały, że mogę podejmować decyzje? Jeśli model myli się o 5%, prawdopodobnie tak. Jeśli o 50% — wracasz do deski kreślarskiej.
Większość kursów ML pokazuje idealny scenariusz. Czyste dane, jasny cel, model działa za pierwszym razem.
Prawdziwe projekty wyglądają inaczej.
Dane są niekompletne. Klient kupił coś, nie wiesz skąd przyszedł, bo nie zalogował się. Produkt zmienił nazwę w połowie roku. Ceny skakały przez promocje, które nie są zapisane w bazie.
Model działa na testowych danych, w produkcji (czyli na żywych danych) przewiduje nonsens. Dlaczego? Bo coś się zmieniło. Nowy konkurent wszedł na rynek. Pandemia. Inflacja. Algorytm nie wie o świecie poza danymi.
I jeszcze jedno: model to nie rozwiązanie, to narzędzie. Ktoś musi zdecydować, co z jego przewidywaniami zrobić. Jeśli model mówi "podnieś cenę", a ty wiesz, że akurat konkurencja wypuściła promocję — ignorujesz model.
Połączenie ludzkiego osądu i maszynowej analizy daje efekty. Nie jedno bez drugiego.
Jeśli znasz podstawy Pythona (pętle, funkcje, biblioteki typu pandas), dasz radę. Nie musisz być programistą. Wystarczy, że potrafisz czytać kod i modyfikować przykłady.
Matematyka? Podstawy statystyki pomagają, nie są konieczne. Większość bibliotek robi ciężką robotę za ciebie. Ty musisz rozumieć, co się dzieje koncepcyjnie.
Najważniejsze to chęć zrozumienia biznesowego "dlaczego". Model przewiduje wzrost sprzedaży — dlaczego? Co się zmieniło w danych? Czy to sezonowość, promocja, trend długoterminowy?
Jeśli potrafisz zadawać takie pytania, reszta to kwestia praktyki.
Załóżmy, że zbudowałeś model. Działa. Co teraz.
W idealnym świecie: wdrażasz go do systemu firmy. Model automatycznie analizuje nowe dane, generuje przewidywania, podpowiada decyzje. Zespół operacyjny dostaje raporty: "zwiększ zamówienie produktu X o 20%", "obniż cenę produktu Y o 10%".
W praktyce: często zaczynasz od Excela. Eksportujesz przewidywania, ktoś ręcznie sprawdza, porównuje z intuicją, testuje na małą skalę. Jeśli działa — skalujesz.
I tu pojawia się monitoring. Model nie jest "zrób i zapomnij". Dane się zmieniają. Rynek się zmienia. Model, który działał w styczniu 2026, może nie działać w czerwcu. Musisz go trenować na nowych danych, sprawdzać metryki, czasem zmieniać podejście.
To żywy organizm, nie statyczny skrypt.
Możesz kupić gotowe narzędzie. Amazon ma swoje systemy predykcyjne. Shopify oferuje analizy. Mają dwa problemy.
Pierwszy: nie wiesz, jak działają. To czarna skrzynka. Daje ci wynik, nie rozumiesz dlaczego. Jeśli coś pójdzie nie tak, nie wiesz, co naprawić.
Drugi: są generyczne. Zbudowane dla przeciętnego sklepu. Twój biznes ma swoją specyfikę — sezonowość, typy klientów, model cenowy. Własny model możesz dostosować dokładnie do tego, co potrzebujesz.
Plus umiejętność zostaje. Następnym razem zbudujesz model szybciej. Będziesz wiedział, które techniki działają, które są stratą czasu. To inwestycja w kompetencje.
Jeśli chcesz spróbować czegoś podobnego:
Zacznij od małego zbioru danych. Nie miliony rekordów, tylko kilka tysięcy. Wystarczy, żeby zobaczyć, jak to działa. Możesz użyć danych z Kaggle (platforma z otwartymi datasetami) lub wygenerować syntetyczne.
Postaw jedno konkretne pytanie. Nie "jak zwiększyć sprzedaż", lecz "który produkt sprzeda się najlepiej w lutym". Wąskie pytanie = łatwiejszy model.
Nie komplikuj na początku. Prosta regresja liniowa to często wystarczy. Jeśli nie działa, wtedy szukasz bardziej zaawansowanych metod. Nie zaczynaj od deep learningu.
Wizualizuj wszystko. Wykresy pokazują wzorce, których nie zobaczysz w tabelach. Scatter plot (wykres punktowy), histogram, heatmapa korelacji — to twoje narzędzia detektywistyczne.
Dokumentuj decyzje. Dlaczego usunąłeś tę kolumnę? Dlaczego wybrałeś ten algorytm? Za miesiąc nie będziesz pamiętał. Notatki ratują życie.
Firmy, które wdrożyły predykcyjne modele sprzedaży, widzą konkretne liczby. Walmart zmniejszył nadmiar zapasów o 20%. Target przewiduje popyt z dokładnością 85%. Mniejsze sklepy też korzystają — nawet 10% lepsza prognoza to tysiące zaoszczędzone na magazynowaniu.
Nie musisz być Amazonem, żeby to zadziałało. Mały sklep z 500 produktami może równie dobrze użyć tych technik. Skala się zmienia, logika pozostaje ta sama.
I jeszcze jedna rzecz: klienci tego nie widzą, czują to. Produkt, którego szukają, jest w magazynie. Cena jest rozsądna. Rekomendacje faktycznie pasują. To wszystko efekt dobrze działającego ML w tle.
Projekt na danych z Amazona to nie akademickie ćwiczenie. To przepustka do zrozumienia, jak dane zamieniają się w decyzje, a decyzje w przychody. Reszta to już kwestia wdrożenia.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar