Alibaba wypuściła AI, które sklonuje Twoją twarz i głos w wideo
Źródło: Link
Źródło: Link
118 lekcji od zera do eksperta. Bez kodowania.
Alibaba pokazała Wan2.6-R2V. Model AI, który wstawia Twoją twarz i głos do wygenerowanego wideo.
Już działa.
I nie, nie mówimy tu o prostym deepfake'u.
Wan2.6-R2V generuje wideo z konkretną osobą — jej wyglądem i głosem. Wystarczy dostarczyć materiał źródłowy: kilka zdjęć lub nagranie głosu. Resztę robi algorytm.
Alibaba twierdzi, że to pierwszy taki model w Chinach. I tu nie chodzi tylko o wklejenie twarzy do jednej klatki. System utrzymuje spójność wizualną i dźwiękową przez całe wideo. Twarz wygląda naturalnie w różnych ujęciach, pod różnymi kątami. Głos przypomina Twój — nie jak robot odczytujący tekst z kartki.
Dla porównania: większość dotychczasowych narzędzi albo generowała wideo bez konkretnej osoby, albo wstawiała twarz, ale bez głosu. Albo głos, ale z animacją avatara. Tu masz kompletny pakiet.
Prowadzisz firmę. Potrzebujesz materiału wideo na LinkedIn — prezentacji produktu, powitania dla klientów, szkolenia dla zespołu.
Dotychczas miałeś dwie opcje: albo staniesz przed kamerą (co zabiera czas i wymaga sprzętu), albo wynajmiesz kogoś do nagrania (co kosztuje).
Teraz? Piszesz scenariusz, wrzucasz swoje zdjęcie i sample głosu. System generuje wideo, w którym "Ty" mówisz to, co napisałeś.
Bez studia. Bez kamery. Bez montażu.
To przypomina oszczędność czasu i pieniędzy. I jest. Ale jest też druga strona tej monety.
Jeśli model potrafi sklonować Twoją twarz i głos na podstawie kilku zdjęć i nagrań, to... kto kontroluje, kto tego używa?
Alibaba nie podała szczegółów dotyczących zabezpieczeń. Nie wiadomo, czy system wymaga zgody osoby, której wizerunek jest używany. Nie wiadomo, czy materiały są w ogóle weryfikowane. Nie wiadomo, jak chronione są dane źródłowe.
To pułapka. Technologia sama w sobie jest neutralna — to narzędzie. Ale w rękach kogoś, kto chce manipulować, może stać się bronią. Fałszywe oświadczenia. Fake newsy. Oszustwa finansowe z "Tobą" w roli głównej.
I tu pojawia się pytanie: czy jesteśmy gotowi na świat, w którym każdy może "być" kimkolwiek?
Alibaba celuje w kilka branż. Marketing to oczywisty kierunek — reklamy, treści na social media, kampanie e-mailowe z wideo. E-learning — kursy online, w których prowadzący "nagrywa" setki lekcji bez wchodzenia do studia. Obsługa klienta — wirtualni asystenci, którzy wyglądają i brzmią jak prawdziwi ludzie.
W Chinach rynek generowania treści Wideo AI rośnie szybciej niż gdziekolwiek indziej. Firmy takie jak Kuaishou, ByteDance czy Tencent już testują podobne rozwiązania. Wan2.6-R2V to kolejny krok w tym wyścigu.
Pytanie brzmi: czy Zachód nadąży.
OpenAI ma Sora, ale wciąż w ograniczonym dostępie. Google testuje Veo. Meta pracuje nad swoimi modelami. Żadne z nich nie oferuje jeszcze pełnej integracji wizerunku i głosu w jednym narzędziu dostępnym publicznie.
Alibaba nie podała daty publicznego uruchomienia Wan2.6-R2V. Nie wiadomo, czy model będzie dostępny globalnie, czy tylko w Chinach. Nie wiadomo, ile będzie kosztować.
Jedno jest pewne: próg wejścia do tworzenia profesjonalnych treści wideo właśnie spadł. Dramatycznie.
Za rok tworzenie wideo z Twoją twarzą i głosem będzie tak proste jak dziś pisanie maila.
Pytanie nie brzmi "czy to się stanie", ale "jak się do tego przygotujemy".
Bo technologia nie czeka. I nie pyta o zgodę.
Przeczytaj też:
Podoba Ci się ten artykuł?
Co piątek wysyłam podsumowanie najlepszych artykułów tygodnia. Zapisz się!
90 minut praktycznej wiedzy o AI. Pokaze Ci krok po kroku, jak zaczac oszczedzac 10 godzin tygodniowo dzieki sztucznej inteligencji.
Zapisz sie na webinar