Teoria Shannona: fundament AI, o którym zapomniałeś
Źródło: Link
Źródło: Link
118 lekcji bez kodowania. ChatGPT, Claude, Gemini, automatyzacje. Notatnik AI i AI Coach w cenie.
1948 rok. Claude Shannon publikuje pracę, która zmienia wszystko.
Nie, nie chodzi o kolejny przełom w fizyce kwantowej. Chodzi o coś bardziej fundamentalnego — matematyczny sposób na opisanie informacji. Zwykłej, codziennej informacji.
I tu zaczyna się ciekawa historia. Shannon nie myślał o AI. Myślał o telefonach.
Shannon zadał proste pytanie: ile informacji faktycznie niesie wiadomość?
Owszem. Ale odpowiedź zmieniła sposób, w jaki dziś uczysz modele językowe.
Entropia w teorii informacji mierzy niepewność. Im mniej przewidywalne dane, tym wyższa entropia. Im bardziej przewidywalne — tym niższa. Proste? W teorii tak.
Teraz przeniesmy to do 2026 roku. GPT-5 przewiduje kolejne słowo w zdaniu. Jak? Minimalizując entropię — szuka wzorców, które redukują niepewność. Shannon nie wiedział, że jego wzory będą trenować sieci neuronowe dekady później. Ale tak właśnie jest.
Shannon udowodnił coś fascynującego: każdą informację można zakodować efektywniej.
I tu wkracza kompresja.
Współczesne modele AI? To maszyny do kompresji. BERT, GPT, LLaMA — wszystkie ściskają ogromne ilości tekstu do reprezentacji wektorowych. Nie przechowują całych zdań. Przechowują ich esencję. Destylat znaczenia.
Paradoks? Shannon myślał o oszczędności bitów w telegrafie. Dziś oszczędzamy pamięć w modelach o 175 miliardach parametrów. Skala się zmieniła — zasada nie.
Shannon wprowadził też pojęcie wzajemnej informacji — miary tego, ile jedna zmienna mówi o drugiej.
W praktyce to klucz do attention mechanism w transformerach.
Gdy GPT analizuje zdanie, sprawdza, które słowa informują o innych. "Bank" w kontekście "rzeka" to co innego niż "bank" przy "kredyt". Wzajemna informacja pomaga modelowi to rozróżnić. Automatycznie.
Efekt? Model wie, że niektóre połączenia słów niosą więcej sensu niż inne. To nie magia. To matematyka z 1948 roku.
Shannon nie przewidział GPU, chmur obliczeniowych ani modeli z bilionami parametrów.
Przewidział coś ważniejszego — że informację można mierzyć, optymalizować i przekształcać. Że ma swoją strukturę. Swój język.
Dziś każda funkcja straty w sieci neuronowej to echo jego pracy. Cross-entropy loss? Bezpośrednio wywodzi się z teorii Shannona. Kullback-Leibler divergence? Rozszerzenie jego idei.
I tu jest sedno: AI nie wymyślił nowej matematyki. Wykorzystał starą — genialnie.
Jeśli trenujesz modele, teoria informacji to nie opcja. To fundament.
Entropia wyjaśnia, dlaczego model się uczy (lub nie). Wzajemna informacja pokazuje, które cechy są istotne. Kodowanie tłumaczy, jak działa tokenizacja.
Shannon dał nam język do opisania tego, co AI robi pod maską. Bez niego byśmy zgadywali. Z nim — rozumiemy.
Siedemdziesiąt pięć lat później jego praca wciąż napędza rewolucję. Nie każdy papier z 1948 może się tym pochwalić.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar