Regresja LASSO i Ridge w Excelu – przewodnik dla nietechników

Ridge i LASSO brzmią jak nazwy z podręcznika do astrofizyki. W praktyce? To techniki, które możesz przetestować w zwykłym Excelu.

Większość materiałów o machine learningu zakłada, że masz matematykę na poziomie studiów. Tymczasem sednem tych metod jest coś prostego: nauczyć model, żeby nie był zbyt pewny siebie.

Czym jest regresja (bez matematyki)

Regresja liniowa to sposób, w jaki komputer przewiduje jedną rzecz na podstawie innych. Chcesz wiedzieć, ile będzie kosztował dom? Patrzysz na metraż, lokalizację, rok budowy. Model znajduje wzór w danych historycznych i mówi: "Na podstawie tego, co widziałem, Twój dom powinien kosztować X złotych".

Bo jest.

Model rysuje linię (lub krzywą) przez punkty danych i używa jej do przewidywań. Problem zaczyna się, gdy ta linia staje się zbyt... precyzyjna.

Gdy model uczy się za dobrze

Uczysz się do egzaminu, zapamiętując na pamięć wszystkie pytania z ubiegłych lat. Zdajesz perfekcyjnie — dopóki nie pojawi się pytanie, którego nie było wcześniej. Wtedy dostajesz dwóję.

Z modelami dzieje się dokładnie to samo.

Regresja liniowa potrafi "nauczyć się" danych treningowych tak dokładnie, że przestaje działać na nowych danych. W żargonie: overfitting. W praktyce: strata czasu i pieniędzy.

I tu wchodzi regularyzacja.

Regularyzacja – kara za nadmierną pewność

Ridge i LASSO to nie nowe modele. To ta sama regresja liniowa z jedną zmianą: model dostaje karę za zbyt duże współczynniki.

Współczynniki to liczby mówiące, jak bardzo dana cecha wpływa na wynik. W przykładzie z domem: "Każdy metr kwadratowy dodaje 5000 złotych do ceny". Sensowne.

Problem pojawia się, gdy model zaczyna przypisywać ogromne wagi małym szczegółom. "Kolor drzwi wejściowych zmienia cenę o 200 000 złotych!" — to znak, że coś poszło nie tak.

Regularyzacja mówi modelowi: "Możesz używać tych współczynników, ale za każdy duży płacisz cenę". Model musi wybrać — albo dopasuje się idealnie do danych treningowych (i dostanie karę), albo znajdzie bardziej stabilne, ogólne rozwiązanie.

Ridge kontra LASSO – dwie strategie

Ridge i LASSO różnią się sposobem karania.

Ridge (regresja grzbietowa) dodaje karę proporcjonalną do kwadratu współczynników. Efekt? Model zmniejsza wszystkie współczynniki, ale żaden nie spada do zera. To jak powiedzieć: "Wszystko jest ważne, ale w umiarkowanych dawkach".

LASSO (Least Absolute Shrinkage and Selection Operator — ale kto to pamięta) działa inaczej. Kara jest proporcjonalna do wartości bezwzględnej współczynników.

Efekt?

Model może całkowicie wyzerować niektóre cechy. To jak powiedzieć: "Jeśli coś nie jest naprawdę ważne, wyrzuć to".

LASSO robi coś więcej niż Ridge: automatycznie wybiera najważniejsze cechy. Masz 50 zmiennych? LASSO może zostawić tylko 5 najistotniejszych i powiedzieć: reszta to szum.

Dlaczego Excel (i dlaczego jednak nie)

Artykuł z Towards Data Science pokazuje, jak zbudować Ridge i LASSO w Excelu. Trochę tak.

Excel nie jest narzędziem do machine learningu. Ma jednak jedną zaletę: wszystko widzisz. Każdy krok. Każdą liczbę. Nie ma czarnej skrzynki.

Dla kogoś, kto dopiero zaczyna rozumieć te metody, to bezcenne. Widzisz, jak zmienia się funkcja kosztu (liczba mówiąca, jak bardzo model się myli). Widzisz, jak kara wpływa na współczynniki. Widzisz, dlaczego LASSO wyzerowuje niektóre cechy, a Ridge tylko je zmniejsza.

Ale — i to duże "ale" — w praktyce nikt nie używa Excela do regularyzacji. Python z biblioteką scikit-learn robi to w trzech linijkach kodu. Excel to narzędzie do nauki. Nie do produkcji.

Kiedy Ridge, a kiedy LASSO

Ridge sprawdza się, gdy wszystkie cechy są potencjalnie ważne. Masz dane medyczne? Wiele parametrów może wpływać na wynik, nawet jeśli słabo.

LASSO działa lepiej, gdy podejrzewasz, że większość cech to szum. Masz 100 zmiennych, ale tylko 10 naprawdę ma znaczenie? LASSO sam je znajdzie i pokaże palcem.

W praktyce ludzie często testują obie metody i porównują wyniki. Albo używają Elastic Net — hybrydy łączącej obie kary.

Co to znaczy dla Ciebie (jeśli nie jesteś data scientistem)

Jeśli budujesz modele w pracy, regularyzacja to sposób na uniknięcie fałszywych wniosków. Model, który działa świetnie na danych treningowych, ale pada na nowych, to strata czasu i pieniędzy.

Jeśli zlecasz projekty AI, warto zapytać: "Czy użyliście regularyzacji?". To sygnał, że zespół myśli o stabilności, nie tylko o dopasowaniu do danych.

Jeśli po prostu chcesz rozumieć, jak działa AI — Ridge i LASSO to świetny punkt startu.

To techniki pokazujące, że machine learning to nie magia. To kompromisy. Model musi wybrać między dokładnością a ogólnością. Między dopasowaniem a stabilnością.

I właśnie te wybory decydują, czy AI działa w praktyce, czy tylko na slajdach w prezentacji.

Źródła

Towards Data Science – LASSO and Ridge Regression in Excel

Regresja LASSO i Ridge w Excelu – przewodnik dla nietechników

Kurs AI Evolution

Czym jest regresja (bez matematyki)

Gdy model uczy się za dobrze

Regularyzacja – kara za nadmierną pewność

Ridge kontra LASSO – dwie strategie

Dlaczego Excel (i dlaczego jednak nie)

Kiedy Ridge, a kiedy LASSO

Co to znaczy dla Ciebie (jeśli nie jesteś data scientistem)

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Regresja LASSO i Ridge w Excelu – przewodnik dla nietechników

Kurs AI Evolution

Czym jest regresja (bez matematyki)

Gdy model uczy się za dobrze

Regularyzacja – kara za nadmierną pewność

Ridge kontra LASSO – dwie strategie

Dlaczego Excel (i dlaczego jednak nie)

Kiedy Ridge, a kiedy LASSO

Co to znaczy dla Ciebie (jeśli nie jesteś data scientistem)

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

SAION AI: platforma, która skraca rozwój szczepów z lat do miesięcy

Giganci AI kupują sobie wizerunek. Czy to zadziała?

Jeden wskaźnik, który pokazałby prawdę o AI i Twojej pracy