Isolation Forest w Excelu: Jak wykryć anomalie bez kodowania
Źródło: Link
Źródło: Link
90 minut praktyki na żywo. Pokazuję krok po kroku, jak zacząć z AI bez kodowania.
Algorytm uczenia maszynowego w Excelu przypomina budowanie rakiety z klocków Lego. Isolation Forest to jednak jeden z tych rzadkich przypadków, gdy skomplikowana nazwa kryje zaskakująco prostą logikę.
Pomysł? Izoluj punkty używając losowych podziałów. Jeśli punkt da się wyizolować szybko – to anomalia. Jeśli potrzeba wielu cięć – to normalna wartość.
Żadnej matematyki wyższej. Żadnego Pythona. Tylko Excel i zdrowy rozsądek.
Masz cztery liczby: 1, 2, 3, 9.
Która z nich jest dziwakiem?
Dla człowieka oczywiste – dziewiątka wystaje jak piąte koło u wozu. Jak to wytłumaczyć komputerowi bez pisania reguł typu "jeśli liczba większa niż X, to anomalia"?
Isolation Forest robi coś sprytnego: losuje punkt podziału między wartościami. Powiedzmy 5. Teraz masz dwie grupy: [1, 2, 3] i [9].
Dziewiątka została wyizolowana jednym cięciem.
Reszta siedzi razem.
Powtarzasz to wielokrotnie z losowymi podziałami. Za każdym razem dziewiątka odpada szybko. Reszta potrzebuje więcej kroków, żeby rozdzielić 1 od 2, 2 od 3.
Efekt? Średnia głębokość izolacji dla dziewiątki jest niska. Dla pozostałych – wysoka. Masz anomalię.
Większość metod wykrywania anomalii próbuje zrozumieć, jak wygląda "normalność". Isolation Forest robi odwrotnie – szuka tego, co łatwo oddzielić od reszty.
To jak znalezienie jednego Norwega na polskim weselu. Nie musisz znać wszystkich gości. Wystarczy zauważyć, kto nie rozumie żartów.
Metoda działa szczególnie dobrze, gdy:
W praktyce? Wykrywanie oszustw w transakcjach. Identyfikacja uszkodzonych czujników w fabryce. Znajdowanie nietypowych wzorców w logach serwera.
Większość tutoriali o machine learningu zaczyna się od "zainstaluj Python, potem bibliotekę scikit-learn, potem Jupyter..."
I już połowa osób odpada.
Excel ma jedną przewagę – widzisz każdy krok. Każdą komórkę. Każde obliczenie. To jak uczenie się gotowania przez obserwowanie szefa kuchni, nie czytanie książki kucharskiej.
Oczywiście Excel ma limity. Nie przerobisz miliona wierszy. Nie zbudujesz produkcyjnego systemu. Żeby zrozumieć logikę algorytmu? Idealny.
Isolation Forest w arkuszu to:
Widzisz, jak losowość zamienia się w wzorzec. Jak chaos staje się sygnałem.
Artykuł pochodzi z serii "machine learning Advent Calendar" – 24 dni, 24 algorytmów, wszystkie w Excelu.
Pomysł prosty: zamiast czekoladek, codziennie nowy algorytm do rozłożenia na czynniki pierwsze.
Dzień 8 to Isolation Forest. Wcześniej były regresja liniowa, drzewa decyzyjne, k-means. Każdy wyjaśniony tak, żeby zrozumiał ktoś bez wykształcenia technicznego.
Trochę jak seria "Explain Like I'm 5" z Reddita, tylko dla algorytmów, które brzmią groźnie.
I tu kryje się sedno: większość konceptów ML nie jest trudna. Trudny jest żargon i kod, który je otacza.
Bo nie ma narzędzia uniwersalnego.
Isolation Forest zakłada, że anomalie to mniejszość. Jeśli 40% twoich danych to outliersy, algorytm się pogubi.
Nie radzi sobie też z anomaliami, które są "dziwne" tylko Jeśli chodzi o sekwencji. Przykład: temperatura 25°C w styczniu to anomalia. Algorytm widzi tylko liczbę 25, nie wie, że to zima.
Do tego potrzebujesz innych metod – analizy szeregów czasowych, modeli sekwencyjnych.
I wreszcie: Isolation Forest to "czarna skrzynka light". Powie ci, że punkt 9 jest anomalią. Nie powie dlaczego. Jeśli potrzebujesz wyjaśnienia dla audytora albo klienta, musisz dokopać się głębiej.
Załóżmy, że zrozumiałeś logikę w Excelu. Co dalej.
W Pythonie to jedna linijka:
from sklearn.ensemble import IsolationForest
Biblioteka scikit-learn ma gotową implementację. Szybką, zoptymalizowaną, przetestowaną na milionach przypadków.
Bez zrozumienia logiki łatwo nadużyć narzędzia. Ustawisz złe parametry. Zinterpretujesz wyniki błędnie. Wdrożysz model, który działa gorzej niż rzut monetą.
Excel to trening. Python to maraton.
Najpierw naucz się chodzić.
Nie każdy musi zostać data scientistem. Każdy przedsiębiorca, menedżer, analityk powinien rozumieć, jak działają algorytmy, które coraz częściej podejmują decyzje w firmach.
Kiedy ktoś mówi "nasz system AI wykrył anomalię", powinieneś wiedzieć:
To różnica między byciem użytkownikiem a właścicielem technologii.
Nie potrzebujesz do tego studiów informatycznych. Wystarczy ciekawość i Excel.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar