Veo 3.1: Google otwiera API do generowania wideo z dźwiękiem
Źródło: Link
Źródło: Link
118 lekcji bez kodowania. ChatGPT, Claude, Gemini, automatyzacje. Notatnik AI i AI Coach w cenie.
Google właśnie wypuściło Veo 3.1 – najnowszą wersję modelu do generowania wideo – w płatnej wersji preview przez Gemini">Gemini API. Tym razem to coś więcej niż kosmetyczna aktualizacja: dostajemy natywny dźwięk w generowanych materiałach, lepszą kontrolę nad narracją i mocno usprawnione możliwości tworzenia wideo z obrazów.
Dla Ciebie jako twórcy czy dewelopera oznacza to jedno: możesz teraz programatycznie tworzyć materiały wideo z prawdziwym audio. Bez doklejania ścieżki dźwiękowej w postprodukcji. Google jednocześnie udostępnia dwie wersje modelu – standardową Veo 3.1 oraz Veo 3.1 Fast, która jak nazwa wskazuje, stawia na szybkość generowania.
Veo 3.1 to wersja stawiająca na jakość. Model oferuje bogatszy natywny dźwięk – generowane wideo od razu zawiera ścieżkę audio dopasowaną do treści wizualnej. Dostajesz też większą kontrolę nad narracją. Możesz precyzyjniej kierować tym, co dzieje się w poszczególnych scenach.
Veo 3.1 Fast to odpowiedź na potrzeby tych, którzy potrzebują szybkich wyników. Model zoptymalizowano pod kątem czasu generowania. To będzie kluczowe dla aplikacji wymagających tworzenia większej liczby materiałów w krótszym czasie (bo kto ma ochotę czekać pół godziny na 10-sekundowy klip?).
Największa nowość? Możliwość kierowania generowaniem za pomocą obrazów referencyjnych. Zamiast polegać wyłącznie na promptach tekstowych, możesz teraz pokazać modelowi konkretny obraz. I poprosić, żeby użył go jako punktu odniesienia dla stylu, kompozycji czy nastroju.
Google dodało też funkcję wydłużania wideo – możesz wziąć istniejący klip i kazać modelowi kontynuować akcję. Ulepszona konwersja obraz-na-wideo (image-to-video) oznacza lepsze rezultaty przy animowaniu statycznych grafik.
Veo 3.1 jest dostępne w ramach płatnej wersji preview przez Gemini API. To nie jest jeszcze pełne, publiczne wydanie. Google testuje model z ograniczoną grupą użytkowników, którzy są gotowi zapłacić za dostęp. Dla deweloperów to szansa na wcześniejsze wdrożenie technologii do własnych produktów, zanim trafi ona do szerszej publiczności.
Model dostępny jest również przez Flow – narzędzie Google do kreatywnej pracy z AI. Pozwala na bardziej wizualne podejście do generowania treści niż surowe wywołania API.
Dla zespołów zajmujących się contentem to spory krok naprzód. Możliwość programatycznego generowania wideo z audio otwiera drzwi do automatyzacji produkcji materiałów marketingowych, tutoriali czy contentu społecznościowego. Obrazy referencyjne dają większą kontrolę nad spójnością wizualną – możesz utrzymać konkretny styl marki bez żmudnego opisywania go w promptach.
Dla deweloperów aplikacji AI to kolejne narzędzie w arsenale. Możliwość wyboru między jakością (Veo 3.1) a szybkością (Veo 3.1 Fast) pozwala dostosować rozwiązanie do konkretnego przypadku użycia. Tworzysz platformę do szybkiej produkcji contentu? Fast. Pracujesz nad materiałami premium? Standardowa wersja.
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar