Nowy model sztucznej inteligencji Google do generowania wideo Lumiere Używane jest A Nazywa się nowy model dyfuzji Space-Time-U-Net lub STUNet, który określa, gdzie znajdują się obiekty w filmie (przestrzeń) oraz w jaki sposób się poruszają i zmieniają w tym samym czasie (czas). Ars Technica Ta metoda pozwala Lumiere stworzyć wideo w jednym procesie, zamiast łączyć ze sobą mniejsze nieruchome klatki, zauważa ta metoda.
Lumiere zaczyna od stworzenia podstawowej ramki z wektora. Następnie wykorzystuje platformę STUNet, aby rozpocząć przybliżanie miejsc, w których obiekty będą się poruszać w tej klatce, aby utworzyć więcej klatek, które przenikają się nawzajem, tworząc wrażenie płynnego ruchu. Lumiere tworzy również 80 klatek w porównaniu do 25 klatek ze Stable Video Diffusion.
Co prawda zajmuję się raczej reporterem SMS-ów niż wideo, ale komunikat prasowy Google wraz z artykułem naukowym przed drukiem pokazują, że narzędzia do tworzenia i edycji wideo oparte na sztucznej inteligencji przekształciły się z doliny niesamowitości w niemal rzeczywiste w ciągu zaledwie kilku lat . Ustanawia także technologię Google w przestrzeni już zajmowanej przez konkurentów, takich jak Runway, Stable Video Diffusion czy Meta's Emu. Runway, jedna z pierwszych masowo produkowanych platform zamiany tekstu na wideo, uruchomiła Runway Gen-2 w marcu ubiegłego roku i zaczęła oferować bardziej realistyczne filmy. Filmy z wybiegu również mają trudności z uchwyceniem akcji.
Google był na tyle miły, że umieścił klipy i podpowiedzi w witrynie Lumiere, co pozwoliło mi umieścić te same podpowiedzi w całym Runway dla porównania. Oto wyniki:
Tak, niektóre z prezentowanych klipów mają industrialny charakter, zwłaszcza jeśli przyjrzeć się fakturze skóry lub jeśli scena jest bardziej klimatyczna. Ale Spójrz na tego żółwia! Porusza się jak żółw w wodzie! Wygląda jak prawdziwy żółw! Wysłałem film wprowadzający Lumiere znajomemu, który jest profesjonalnym montażystą wideo. Chociaż zauważyła, że „od razu widać, że to nie jest całkiem realne”, uznała za imponujące, że gdybym jej nie powiedziała, że to sztuczna inteligencja, pomyślałaby, że to CGI. (Powiedziała też: „To zabrałoby mi pracę, prawda?”)
Inne modele łączą klipy wideo z klatek kluczowych wygenerowanych w miejscu, w którym faktycznie miała miejsce akcja (np. rysunki w papierowej książce), podczas gdy STUNet pozwala Lumiere skupić się na samej akcji w oparciu o to, gdzie powinna znajdować się wygenerowana treść w czasie określonym dla filmu.
Google nie był dużym graczem w kategorii przetwarzania tekstu na wideo, ale powoli wypuszczał bardziej zaawansowane modele sztucznej inteligencji i zaczął skupiać się na multimediach. Jego Model Wielkiego Języka Bliźniąt w końcu umożliwi bardowi generowanie obrazu. Lumiere nie jest jeszcze dostępny do testów, ale pokazuje, że Google może opracować platformę wideo AI, która jest porównywalna – i prawdopodobnie nieco lepsza – od ogólnie dostępnych generatorów wideo AI, takich jak Runway i Pika. A tak dla jasności, to tutaj Google kilka lat temu zajmował się wideo AI.
Oprócz tworzenia konwersji tekstu na wideo, Lumiere umożliwi także konwersję obrazu na wideo, kreację stylizowaną, umożliwiającą użytkownikom tworzenie filmów w określonym stylu, grafikę kinową animującą tylko część wideo oraz rysowanie do zamaskuj obszar wideo, aby zmienić kolor lub wzór.
Jednak w badaniu Google Lumiere zauważono, że „istnieje ryzyko nadużyć polegających na tworzeniu fałszywych lub złośliwych treści przy użyciu naszej technologii, dlatego uważamy, że opracowanie i wdrożenie narzędzi do wykrywania uprzedzeń i przypadków złośliwego użycia jest niezbędne, aby zapewnić bezpieczne i uczciwe doświadczenie .” jest używany.” Autorzy artykułu nie wyjaśnili, w jaki sposób można to osiągnąć.
. „Nieuleczalny entuzjasta muzyki. Bacon geek. Badacz internetu. Hipsterski miłośnik telewizji”.