LeRobot 0.4.0: Hugging Face przyspiesza naukę robotów
Źródło: Link
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
Hugging Face właśnie pokazał, że uczenie robotów może być tak proste jak trenowanie modeli językowych. LeRobot 0.4.0 wprowadza wsparcie dla Vision-Language-Action Models i skraca czas treningu o 40%. To konkretna odpowiedź na pytanie, dlaczego robotyka open source wciąż nie dogoniła zamkniętych laboratoriów.
LeRobot to biblioteka Pythona, która od stycznia 2024 roku demokratyzuje dostęp do narzędzi do uczenia robotów. Wersja 0.4.0 to największa aktualizacja od premiery. Zespół Hugging Face dodał funkcje, które dotąd wymagały miesięcy pracy nad własną infrastrukturą.
Najważniejsza nowość? Pełna integracja z Vision-Language-Action Models. Te modele łączą widzenie komputerowe z rozumieniem języka naturalnego. Efekt: robot może wykonać polecenie "połóż czerwoną kostkę na niebieską" bez wcześniejszego programowania tej sekwencji. LeRobot 0.4.0 wspiera teraz OpenVLA i dodaje gotowe skrypty treningowe.
Konkretnie: czas treningu modelu spadł z około 10 godzin do 6 godzin na standardowym setupie z pojedynczym GPU. To efekt przepisania pipeline'u danych i optymalizacji ładowania obrazów z kamer.
Warto zrozumieć, czym różnią się VLA od wcześniejszych podejść do sterowania robotem. Klasyczne systemy wymagały osobnych modułów – jeden odpowiadał za rozpoznawanie obiektów, drugi za planowanie ruchu, trzeci za wykonanie sekwencji. VLA łączy te warstwy w jednej sieci neuronowej trenowanej end-to-end. Oznacza to mniej punktów awarii, łatwiejszą personalizację i lepszą generalizację na nowe scenariusze, których robot wcześniej nie widział. Integracja OpenVLA w LeRobot 0.4.0 sprawia, że skorzystanie z tego podejścia nie wymaga już budowania własnego stosu od zera.
Wersja 0.4.0 wprowadza nowy format zapisu demonstracji – LeRobot Dataset Format v2.0. Zmiana może wydawać się techniczna, ale ma realne konsekwencje. Zbiory danych zajmują teraz o 30% mniej miejsca. Ładowanie próbek jest dwukrotnie szybsze.
Dodano też wsparcie dla kalibracji kamer i synchronizacji timestampów między różnymi sensorami. Niekoniecznie – to właśnie te detale decydują, czy robot nauczy się chwytać kubek, czy będzie ciągle pudłował o 2 centymetry.
Synchronizacja timestampów to jeden z tych problemów, które brzmią banalnie, dopóki się z nimi nie zetkniemy. Gdy kamera nagrywa z częstotliwością 30 klatek na sekundę, a enkodery silników raportują pozycję z inną częstotliwością, dane z różnych źródeł muszą być precyzyjnie dopasowane w czasie. Drobne przesunięcia powodują, że model uczy się błędnych korelacji między tym, co widzi, a tym, co robi ramię. LeRobot 0.4.0 automatyzuje ten proces, który wcześniej programiści rozwiązywali ręcznie w każdym projekcie osobno.
LeRobot 0.4.0 oficjalnie wspiera teraz manipulatory Koch v1.1 i Moss v1. Oba zaprojektowane z myślą o niskim koszcie i łatwym dostępie. Dokumentacja zawiera gotowe konfiguracje – możesz zacząć zbierać dane treningowe praktycznie od razu po złożeniu hardware'u.
Zespół dodał również przykładowe datasety dla zadań manipulacji obiektami. Każdy zbiór zawiera 500-1000 demonstracji z adnotacjami. To wystarczy do wytrenowania podstawowych zachowań (i zaoszczędza Ci tygodni nudnego zbierania danych).
Wejście Koch v1.1 i Moss v1 do oficjalnie wspieranego sprzętu to istotny sygnał dla społeczności. Do tej pory każdy użytkownik taniego manipulatora musiał samodzielnie pisać sterowniki i konfiguracje, często bazując na nieoficjalnych forumularzach i repozytoriach. Ujednolicone wsparcie oznacza, że błędy zgłaszane przez jednego użytkownika trafiają do jednego miejsca i są naprawiane dla wszystkich. Ekosystem zaczyna działać jak ekosystem – a nie jak zbiór niezależnych projektów hobbyistów.
LeRobot od początku stawia na uczenie przez imitację. Zamiast programować robota sekwencja po sekwencji, operator ręcznie prowadzi ramię przez żądany ruch. System nagrywa każdą demonstrację i trenuje model, który następnie odtwarza zachowanie autonomicznie.
W wersji 0.4.0 proces zbierania demonstracji jest bardziej ustrukturyzowany. Nowe narzędzia CLI pozwalają szybko etykietować nagrania, odrzucać nieudane próby i weryfikować jakość danych przed rozpoczęciem treningu. To szczególnie ważne, bo jakość zbioru demonstracji ma bezpośredni wpływ na skuteczność wytrenowanego modelu. Tysiąc dobrych demonstracji bije dziesięć tysięcy złych.
Cały ten cykl – od surowych demonstracji do działającego modelu – jest teraz możliwy do przeprowadzenia przez jedną osobę w ciągu jednego dnia roboczego. Rok temu wymagało to zazwyczaj zespołu i tygodnia pracy.
LeRobot 0.4.0 pojawia się w momencie, gdy rynek robotyki humanoidalnej i manipulatorów przeżywa wyraźne ożywienie. Firmy takie jak Figure, Physical Intelligence czy 1X Technologies pozyskały w ostatnich miesiącach setki milionów dolarów na zamknięte systemy uczenia robotów. Hugging Face idzie w odwrotnym kierunku – otwiera narzędzia, które dotąd były domeną dużych laboratoriów.
Znaczenie tego ruchu wykracza poza samą bibliotekę. Otwarte narzędzia przyciągają badaczy akademickich, którzy publikują wyniki i poprawiają algorytmy. Każde ulepszenie wraca do społeczności. Ten efekt sieciowy jest czymś, czego zamknięte laboratoria nie mogą łatwo odtworzyć, nawet dysponując większymi budżetami.
LeRobot 0.4.0 jest dostępny na GitHubie i przez pip install. Pełna dokumentacja, przykłady i pretrenowane modele czekają na Hugging Face Hub.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar