LeRobot 0.4.0: Hugging Face przyspiesza robotykę

Hugging Face właśnie pokazał, że uczenie robotów może być tak proste jak trenowanie modeli językowych. LeRobot 0.4.0 wprowadza wsparcie dla Vision-Language-Action Models i skraca czas treningu o 40%. To konkretna odpowiedź na pytanie, dlaczego robotyka open source wciąż nie dogoniła zamkniętych laboratoriów.

LeRobot to biblioteka Pythona, która od stycznia 2024 roku demokratyzuje dostęp do narzędzi do uczenia robotów. Wersja 0.4.0 to największa aktualizacja od premiery. Zespół Hugging Face dodał funkcje, które dotąd wymagały miesięcy pracy nad własną infrastrukturą.

VLA Models w Twoim zasięgu

Najważniejsza nowość? Pełna integracja z Vision-Language-Action Models. Te modele łączą widzenie komputerowe z rozumieniem języka naturalnego. Efekt: robot może wykonać polecenie "połóż czerwoną kostkę na niebieską" bez wcześniejszego programowania tej sekwencji. LeRobot 0.4.0 wspiera teraz OpenVLA i dodaje gotowe skrypty treningowe.

Konkretnie: czas treningu modelu spadł z około 10 godzin do 6 godzin na standardowym setupie z pojedynczym GPU. To efekt przepisania pipeline'u danych i optymalizacji ładowania obrazów z kamer.

Warto zrozumieć, czym różnią się VLA od wcześniejszych podejść do sterowania robotem. Klasyczne systemy wymagały osobnych modułów – jeden odpowiadał za rozpoznawanie obiektów, drugi za planowanie ruchu, trzeci za wykonanie sekwencji. VLA łączy te warstwy w jednej sieci neuronowej trenowanej end-to-end. Oznacza to mniej punktów awarii, łatwiejszą personalizację i lepszą generalizację na nowe scenariusze, których robot wcześniej nie widział. Integracja OpenVLA w LeRobot 0.4.0 sprawia, że skorzystanie z tego podejścia nie wymaga już budowania własnego stosu od zera.

Szybszy trening, mniejsze zbiory danych

Wersja 0.4.0 wprowadza nowy format zapisu demonstracji – LeRobot Dataset Format v2.0. Zmiana może wydawać się techniczna, ale ma realne konsekwencje. Zbiory danych zajmują teraz o 30% mniej miejsca. Ładowanie próbek jest dwukrotnie szybsze.

Dodano też wsparcie dla kalibracji kamer i synchronizacji timestampów między różnymi sensorami. Niekoniecznie – to właśnie te detale decydują, czy robot nauczy się chwytać kubek, czy będzie ciągle pudłował o 2 centymetry.

Synchronizacja timestampów to jeden z tych problemów, które brzmią banalnie, dopóki się z nimi nie zetkniemy. Gdy kamera nagrywa z częstotliwością 30 klatek na sekundę, a enkodery silników raportują pozycję z inną częstotliwością, dane z różnych źródeł muszą być precyzyjnie dopasowane w czasie. Drobne przesunięcia powodują, że model uczy się błędnych korelacji między tym, co widzi, a tym, co robi ramię. LeRobot 0.4.0 automatyzuje ten proces, który wcześniej programiści rozwiązywali ręcznie w każdym projekcie osobno.

Koch v1.1 i Moss v1 dołączają do ekosystemu

LeRobot 0.4.0 oficjalnie wspiera teraz manipulatory Koch v1.1 i Moss v1. Oba zaprojektowane z myślą o niskim koszcie i łatwym dostępie. Dokumentacja zawiera gotowe konfiguracje – możesz zacząć zbierać dane treningowe praktycznie od razu po złożeniu hardware'u.

Zespół dodał również przykładowe datasety dla zadań manipulacji obiektami. Każdy zbiór zawiera 500-1000 demonstracji z adnotacjami. To wystarczy do wytrenowania podstawowych zachowań (i zaoszczędza Ci tygodni nudnego zbierania danych).

Wejście Koch v1.1 i Moss v1 do oficjalnie wspieranego sprzętu to istotny sygnał dla społeczności. Do tej pory każdy użytkownik taniego manipulatora musiał samodzielnie pisać sterowniki i konfiguracje, często bazując na nieoficjalnych forumularzach i repozytoriach. Ujednolicone wsparcie oznacza, że błędy zgłaszane przez jednego użytkownika trafiają do jednego miejsca i są naprawiane dla wszystkich. Ekosystem zaczyna działać jak ekosystem – a nie jak zbiór niezależnych projektów hobbyistów.

Uczenie przez demonstrację – jak to działa w praktyce

LeRobot od początku stawia na uczenie przez imitację. Zamiast programować robota sekwencja po sekwencji, operator ręcznie prowadzi ramię przez żądany ruch. System nagrywa każdą demonstrację i trenuje model, który następnie odtwarza zachowanie autonomicznie.

W wersji 0.4.0 proces zbierania demonstracji jest bardziej ustrukturyzowany. Nowe narzędzia CLI pozwalają szybko etykietować nagrania, odrzucać nieudane próby i weryfikować jakość danych przed rozpoczęciem treningu. To szczególnie ważne, bo jakość zbioru demonstracji ma bezpośredni wpływ na skuteczność wytrenowanego modelu. Tysiąc dobrych demonstracji bije dziesięć tysięcy złych.

Zbieranie danych: operator prowadzi robota przez zadanie, system nagrywa obrazy z kamer i pozycje stawów
Przetwarzanie: Dataset Format v2.0 kompresuje i synchronizuje dane automatycznie
Trening: model uczy się polityki sterowania w 6 godzin na pojedynczym GPU
Ewaluacja: gotowe skrypty testują skuteczność modelu na nowych wariantach zadania

Cały ten cykl – od surowych demonstracji do działającego modelu – jest teraz możliwy do przeprowadzenia przez jedną osobę w ciągu jednego dnia roboczego. Rok temu wymagało to zazwyczaj zespołu i tygodnia pracy.

Kontekst rynkowy

LeRobot 0.4.0 pojawia się w momencie, gdy rynek robotyki humanoidalnej i manipulatorów przeżywa wyraźne ożywienie. Firmy takie jak Figure, Physical Intelligence czy 1X Technologies pozyskały w ostatnich miesiącach setki milionów dolarów na zamknięte systemy uczenia robotów. Hugging Face idzie w odwrotnym kierunku – otwiera narzędzia, które dotąd były domeną dużych laboratoriów.

Znaczenie tego ruchu wykracza poza samą bibliotekę. Otwarte narzędzia przyciągają badaczy akademickich, którzy publikują wyniki i poprawiają algorytmy. Każde ulepszenie wraca do społeczności. Ten efekt sieciowy jest czymś, czego zamknięte laboratoria nie mogą łatwo odtworzyć, nawet dysponując większymi budżetami.

LeRobot 0.4.0 jest dostępny na GitHubie i przez pip install. Pełna dokumentacja, przykłady i pretrenowane modele czekają na Hugging Face Hub.

Źródła

Hugging Face Blog – LeRobot v0.4.0 Release

LeRobot 0.4.0: Hugging Face przyspiesza naukę robotów

Kurs AI Evolution

VLA Models w Twoim zasięgu

Szybszy trening, mniejsze zbiory danych

Koch v1.1 i Moss v1 dołączają do ekosystemu

Uczenie przez demonstrację – jak to działa w praktyce

Kontekst rynkowy

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

LeRobot 0.4.0: Hugging Face przyspiesza naukę robotów

Kurs AI Evolution

VLA Models w Twoim zasięgu

Szybszy trening, mniejsze zbiory danych

Koch v1.1 i Moss v1 dołączają do ekosystemu

Uczenie przez demonstrację – jak to działa w praktyce

Kontekst rynkowy

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

Robotyka i AI w 2026-2030: co naprawdę się zmieni

Spot czyta wskaźniki na fabryce. Google dało mu Gemini

Gemini Robotics ER 1.6: Google uczy roboty widzieć przestrzeń