Filmy z AI wchodzą na wyższy poziom. Google prezentuje Veo 3.1 z audio i lepszą spójnością postaci

...

Veo 3.1 od Google to pożegnanie z filmowym chaosem

Największym problemem w generowaniu długich lub złożonych filmów AI było dotychczas utrzymanie spójności. Bohater, który w jednym ujęciu ma niebieskie oczy, w następnym mógł mieć już inne ubranie lub zupełnie inny kolor włosów. Veo 3.1 ma to zmienić, zyskując trzy kluczowe ulepszenia:

1. Wbudowany, natywny dźwięk

Veo 3.1 to nie tylko wideo – to także audio. Nowe modele potrafią teraz generować lepszy, natywny dźwięk, w tym:

Naturalne konwersacje — modele lepiej radzą sobie z synchronizacją dialogów.
Zsynchronizowane efekty dźwiękowe — dźwięki tła i efekty są logicznie powiązane z akcją na ekranie.

Wcześniej twórcy musieli generować ścieżkę wizualną, a potem żmudnie dodawać dźwięk w postprodukcji. Wbudowane, logiczne audio to duża oszczędność czasu i ogromna poprawa realizmu.

2. Ulepszona spójność postaci

Aby rozwiązać problem “migających” i zmieniających się postaci, Google wprowadza nową metodę kontroli. Deweloperzy mogą teraz dostarczyć do trzech referencyjnych zdjęć postaci, obiektu lub sceny. Dzięki tym obrazom model uczy się, jak dany element ma wyglądać i jest w stanie utrzymać jego spójny wygląd przez całe wideo, niezależnie od kąta kamery czy ruchu. To potężne narzędzie, które przenosi generowanie filmów AI z fazy “ciekawostki” do fazy “produkcyjnej”.

3. Scene Extension — dłuższe historie

Dotychczas standardem były klipy o maksymalnej długości 30 sekund. Próba połączenia dwóch lub więcej 30-sekundowych klipów, tak aby postacie i sceneria pozostały spójne, była prawdziwym wyzwaniem.

Czytaj też: Instagram wprowadza ograniczenia dla nastolatków. Nowy system wzoruje się na klasyfikacji filmów

Funkcja Scene Extension (rozszerzenie sceny) radykalnie zmienia tę sytuację, pozwalając na tworzenie dłuższych filmów. Każdy nowy klip jest generowany na podstawie ostatniej sekundy poprzedniego wideo, co zapewnia wizualną ciągłość. Daje to twórcom możliwość opowiadania znacznie bardziej rozbudowanych i złożonych historii. Ponadto, wprowadzono możliwość podania obrazu początkowego i końcowego oraz poproszenia Veo 3.1 o wygenerowanie nie tylko samej płynnej transformacji między nimi, ale także dźwięku towarzyszącego tej scenie. To otwiera nowe drogi dla kreatywnego montażu i narracji.

Dostępność i przyszłość wideo AI

Modele Veo 3.1 i Veo 3.1 Fast są już dostępne dla deweloperów za pośrednictwem Gemini API w Google AI Studio oraz Vertex AI. Co warte podkreślenia, pomimo tak dużych ulepszeń, Google utrzymało cenę Veo 3.1 na tym samym poziomie, co jego poprzednika. To świetna wiadomość dla małych studiów i niezależnych twórców, ponieważ innowacje stają się bardziej dostępne.

Czytaj też: Google szuka inspiracji u konkurencji. Aplikacja Zdjęcia pożycza funkcje od Instagrama

Zwykli użytkownicy też będą mogli wypróbować moc Veo 3.1, ponieważ model ten będzie dostępny poprzez aplikację Gemini oraz platformę Flow.

Trzeba przyznać, że Veo 3.1 to znaczący skok w rozwoju generowania wideo AI. Skupienie się na rozwiązaniu dwóch kluczowych problemów – spójności postaci w ujęciach (dzięki referencyjnym obrazom) i integracji natywnego audio – pokazuje, że Google podnosi poprzeczkę dla całej branży. Wideo AI wchodzi w kolejną erę i ciekawie będzie obserwować reakcje konkurencji.