Molmo 2 – open source, który rzuca wyzwanie gigantom AI
Źródło: Link
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
Allen Institute właśnie pokazał Molmo 2. Model analizy wideo, który w wybranych testach bije Gemini od Google.
To przypomina klasyczna historia Dawida i Goliata? Może i tak.
Prawdziwa bomba tkwi gdzie indziej. Molmo 2 jest w pełni otwarty. Każdy może go pobrać, przerobić, wbudować w swoją aplikację. Bez licencji. Bez opłat. Bez czekania na zgodę korporacji.
Molmo 2 to model AI, który "rozumie" wideo. Nie chodzi tu o rozpoznawanie twarzy czy obiektów – to potrafi już każdy aparat w telefonie.
Chodzi o coś głębszego.
Model analizuje scenę, kontekst, relacje między elementami. Potrafi odpowiedzieć na pytania typu: "Co robi ta osoba?" albo "Dlaczego ten obiekt się tam znalazł?"
Dla porównania: to jak różnica między "widzę psa" a "widzę golden retrievera, który próbuje ukraść kanapkę ze stołu, podczas gdy właściciel nie patrzy".
Allen Institute – organizacja non-profit z Seattle – postawiła na pełną otwartość. Kod źródłowy? Dostępny. Wagi modelu (czyli "wyuczone umiejętności" AI)? Można pobrać. Dane treningowe? Opisane.
W benchmarkach Molmo 2 pokonał Gemini Pro w kilku kategoriach. Szczególnie tam, gdzie chodziło o zrozumienie kontekstu przestrzennego i czasowego w wideo.
Nie oznacza to, że jest lepszy we wszystkim. Google, Meta i OpenAI mają modele trenowane na gigantycznych zbiorach danych, z dostępem do mocy obliczeniowej, o której Allen Institute może tylko pomarzyć.
Ale.
W specyficznych zastosowaniach – analiza materiału medycznego, monitoring przemysłowy, edukacja – Molmo 2 radzi sobie równie dobrze. A czasem lepiej.
I tu pojawia się kluczowa różnica: możesz go uruchomić na własnym sprzęcie. Bez wysyłania danych do chmury. Bez obaw o prywatność. Bez miesięcznych opłat za API.
Zamknięte modele działają jak czarna skrzynka. Wysyłasz zapytanie, dostajesz odpowiedź. Nie wiesz, jak model myśli. Nie możesz go poprawić. Nie kontrolujesz, co się dzieje z Twoimi danymi.
Molmo 2 działa inaczej.
Widzisz kod. Rozumiesz (lub Twój programista rozumie), jak model podejmuje decyzje. Możesz go przeszkolić na własnych danych – na przykład nagraniach z Twojej fabryki albo materiałach edukacyjnych w Twoim języku.
To jak różnica między wynajmowaniem auta z kierowcą a posiadaniem własnego. W pierwszym przypadku jesteś zależny od grafiku i zasad wypożyczalni. W drugim – jedziesz, kiedy chcesz i dokąd chcesz.
Dla przedsiębiorców oznacza to konkretne korzyści. Nie musisz negocjować warunków z Google czy OpenAI. Nie martwisz się, że jutro zmienią cennik albo wyłączą dostęp do API. Budujesz produkt na fundamencie, który kontrolujesz.
Przez ostatnie dwa lata dominowała narracja: AI to domena wielkich graczy. Potrzeba miliardów dolarów, tysięcy GPU, armii inżynierów.
Molmo 2 pokazuje, że to nie do końca prawda.
Mniejsze zespoły, z ograniczonym budżetem, mogą tworzyć modele konkurencyjne – przynajmniej w wybranych zastosowaniach.
Nie chodzi o to, że Google czy Meta nagle zbankrutują. Oni dalej będą liderami w modelach ogólnego przeznaczenia, z szerokim zakresem umiejętności.
Rynek się fragmentuje. Pojawiają się nisze, gdzie wyspecjalizowany, otwarty model daje lepsze rezultaty niż uniwersalny gigant.
Przykład? Startup analizujący wideo z operacji chirurgicznych. Gemini jest świetny, ale trenowany głównie na YouTube i filmach komercyjnych. Molmo 2 możesz przeszkolić na nagraniach medycznych — i nagle masz narzędzie dopasowane do konkretnej potrzeby.
To nie jest walka na śmierć i życie. Raczej podział ról.
Zamknięte modele – ChatGPT, Gemini, Claude – będą dominować tam, gdzie liczy się wygoda, szybkość wdrożenia, brak potrzeby własnej infrastruktury. Dla większości użytkowników to wystarczy.
Otwarte modele – jak Molmo 2, Llama czy Mistral – będą wybierane tam, gdzie kluczowa jest kontrola, prywatność, możliwość dostosowania. W medycynie, finansach, przemyśle, badaniach naukowych.
Allen Institute nie musi pokonać Google, żeby odnieść sukces. Wystarczy, że pokaże: da się inaczej.
Da się budować potężne narzędzia bez zamykania ich w korporacyjnej skrzynce. I że czasem – w konkretnych, ważnych zastosowaniach – ten otwarty model zadziała lepiej.
Projekt jest na wczesnym etapie. Dokumentacja jeszcze nie pokrywa wszystkich przypadków użycia. Społeczność dopiero się tworzy. Brakuje gotowych integracji z popularnymi narzędziami.
Kierunek jest jasny.
Allen Institute nie buduje kolejnej zamkniętej platformy. Buduje fundament, na którym inni mogą stawiać swoje rozwiązania.
Dla deweloperów to szansa na eksperymenty bez barier wejścia. Dla firm – możliwość budowania narzędzi AI bez uzależnienia od dostawcy. Dla badaczy – dostęp do modelu, który mogą analizować i rozwijać.
Molmo 2 nie zmieni świata sam. Może za to zmienić sposób, w jaki myślimy o dostępie do zaawansowanej AI. I to już jest coś.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar