27 grudnia 2023

Czy model językowy może stworzyć wideo? Google pokazuje, że tak

Jak dotąd większość z nas korzystała z dużych modeli językowych do rozmowy z chatbotem. Z kolei generatywna sztuczna inteligencja wykorzystywana do tworzenia obrazów czy wideo korzystała z tzw. modeli dyfuzyjnych. Teraz Google pokazuje, że model językowy może stworzyć wideo. I to imponujące.

Marcin Bokszczanin

0 komentarzy

Dziennikarz HomoDigital. Wcześniej redaktor w anglojęzycznym serwisie dla inwestorów – PAP Market Insider

Jak dotąd większość z nas korzystała z dużych modeli językowych do rozmowy z chatbotem. Z kolei generatywna sztuczna inteligencja wykorzystywana do tworzenia obrazów czy wideo korzystała z tzw. modeli dyfuzyjnych. Teraz Google pokazuje, że model językowy może stworzyć wideo. I to imponujące.

W niedawnym raporcie badacze z Google Research pokazali możliwości swojego najnowszego modelu VideoPoet. Model, wytrenowany na infrastrukturze znanej z dużych modeli językowych (LLM), ale z użyciem plików wideo i dźwiękowych, potrafi stworzyć wideo z zapytania tekstowego, stworzyć dźwięk do wideo, stworzyć wideo z pliku graficznego (jeśli do obrazu doda się tekst wyjaśniający, co wideo ma przedstawiać) oraz dokonać stylizacji wytworzonego wideo na podstawie zapytania tekstowego.

Animacja wytworzona przez VideoPoet z tekstu: Koń galopujący przez „Gwiaździstą noc” van Gogha. Źródło: Google Research

Google zastosował nowe podejście: użył istniejące tekenizery dla dźwięku i wideo, by zamienić pliki dźwiękowe i wideo w serię tzw. tokenów, czyli indeksów w postaci liczb całkowitych. W taki sam sposób kodowany jest tekst, więc model taki jest w stanie skorzystać bezproblemowo z architektury dotychczas używanej do trenowania modeli tworzących treści językowe. A na wyjściu z modelu tokeny są z powrotem zamienianie w obraz lub dźwięk.

Według badaczy Google’a takie podejście pozwala na stworzenie jednolitego modelu multimodalnego (a więc umiejącego przetwarzać różne rodzaje treści takie jak tekst, wideo czy dźwięk). To oznacza, że nie trzeba modelu sklejać z kilku niezależnych od siebie części (jak ma to miejsce w modelach dyfuzyjnych) i sprzyja spójności powstałych klipów. Pozwala to mieć również nadzieję, że po rozbudowaniu model taki pozwoli na stworzenie w pełni multimodalnego systemu, który na przykład umożliwi generację treści wideo z pliku dźwiękowego.

Przykłady wideo stworzonego z obrazka z instrukcjami tekstowymi. Źródło: Google Research

Jak długie wideo jest w stanie stworzyć VideoPoet? Cóż, pojedynczy klip wytworzony przez model nie ma może zbyt imponującej długości: to raptem 2 sekundy. Ale jak odnotowują badacze, druga sekunda takiej animacji może posłużyć do stworzenia następnych 2 sekund wideo przy zachowaniu spójności wizualnej tak powstałego filmiku. Pozwala to na łańcuchowe zlepianie dłuższych sekwencji. To zapewne nie wystarczy na stworzenie pełnometrażowego filmu, ale może posłużyć do produkcji klipu reklamowego.

I tu dochodzimy do podstawowej wady VideoPoet. Niestety na razie mogą się nim pobawić tylko badacze Google’a – nie został on udostępniony szerszej publice. Więc twórcy reklam muszą jeszcze poczekać.

Więcej przykładów na to, jak model językowy może stworzyć wideo, czyli twórczości VideoPoet, dostępnych jest na tej stronie.

Jeśli chcesz skorzystać z generatywnej sztucznej inteligencji do wytwarzania grafik, z naszego poradnika dowiesz się, w jakich zastosowaniach możesz je wykorzystać.

Źródło obrazka: sztuczna inteligencja, model Dall-E 3

Tagi:Sztuczna inteligencja