Dr hab. inż. Tomasz Trzciński analizuje ten dynamiczny krajobraz, zwracając szczególną uwagę na wpływ sztucznej inteligencji na branżę filmową oraz inne dziedziny kreatywne. W wywiadzie opisuje te obszary badawcze AI, które mogą znaleźć zastosowanie zarówno w produkcji filmowej, jak i szerzej – w branżach twórczych.
Justyna Minkiewicz, HomoDigital: Jest Pan liderem grupy badawczej „Uczenie maszynowe zero-waste w wizji komputerowej” w IDEAS NCBR. Proszę wyjaśnić, czym dokładnie zajmuje się ta grupa.
Tomasz Trzciński: Naszym głównym celem jest tworzenie modeli uczenia maszynowego, które są zoptymalizowane pod kątem efektywnego wykorzystania zasobów i minimalizacji marnotrawstwa energii. Koncentrujemy się na rozwijaniu systemów wizji komputerowej, które są w stanie adaptować się do specyficznych kontekstów ich użytkowania, aktywując jedynie te fragmenty modelu, które są niezbędne do wykonania danej czynności lub analizy określonych danych.
Przykładem zastosowania naszej pracy może być wykorzystanie smartfonu do rozpoznawania obiektów w środowisku naturalnym takim jak las. W takim scenariuszu nasz model byłby zdolny do zidentyfikowania, że znajduje się w lesie i mógłby aktywować jedynie tę część sieci neuronowej, która jest niezbędna do rozpoznania obiektów typowych dla tego środowiska, ignorując elementy przeznaczone do analizy obiektów niewystępujących w lesie jak wysokie wieżowce czy zwierzęta żyjące na Antarktydzie.
Dążymy do tego, aby nasze modele były nie tylko precyzyjne i efektywne, ale także aby ich działanie było zbliżone do mechanizmów adaptacyjnych obserwowanych w ludzkim mózgu, gdzie tylko konkretne fragmenty są aktywowane do wykonania określonych zadań, co pozwala na znaczną oszczędność energii. Nasza praca opiera się na głębokim przekonaniu, że odpowiedzialne i zrównoważone podejście do uczenia maszynowego jest kluczem do rozwoju technologii, która wspiera ludzkość, nie obciążając przy tym niepotrzebnie naszej planety.
Czy mógłby Pan przybliżyć koncepcję uczenia maszynowego zero-waste w kontekście widzenia komputerowego i jakie ma to implikacje dla efektywności algorytmów używanych w przemyśle kreatywnym?
Koncepcja uczenia maszynowego zero-waste w kontekście widzenia komputerowego skupia się na efektywności opracowywanych modeli. Dzięki temu w branżach takich jak medycyna czy motoryzacja, gdzie szybkość i efektywność przetwarzania danych obrazowych są kluczowe, możemy znacząco poprawić jakość wykonywanych zabiegów czy bezpieczeństwo dokonywanych przez auto decyzji.
Jeśli chodzi o przemysł kreatywny, to w ramach naszych prac część wysiłku poświęcamy modelom generatywnym, w tym bardzo popularnym ostatnimi czasy modelom dyfuzyjnym. Mają one nieprawdopodobne zdolności kreowania skomplikowanych obrazów wysokiej jakości na podstawie tekstowego promptu. Przyspieszenie działania tych modeli, które na chwilę obecną nie są łatwe do osiągnięcia ze względu na sekwencyjny charakter tworzenia obrazków przez model, może znacząco zdemokratyzować dostęp do narzędzi tworzących treści wizualne.
Czy może Pan podzielić się spostrzeżeniami na temat rodzajów narzędzi i rozwiązań technologicznych opartych na AI, które mogą jeszcze w najbliższym czasie zrewolucjonizować branżę kreatywną?
Ciężko przewidywać, jakie konkretne narzędzia związane z tematyką branży kreatywnej pojawią się w najbliższym czasie, natomiast kierunek jest dosyć klarowny. Będziemy w stanie coraz dokładniej generować i edytować treści wizualne, już nie tylko zdjęcia, ale i filmy czy gry komputerowe, modyfikując je przy użyciu języka naturalnego. Na przykład tworzenie “w czasie rzeczywistym” wysokiej jakości filmów wzbogaconych o dźwięk i ciekawy scenariusz będzie na pewno kolejnym krokiem milowym w rozwoju branży rozrywkowej. I tutaj jestem przekonany, że to nie kwestia “czy” tylko “kiedy”.
Ciężko przewidywać, jakie konkretne narzędzia związane z tematyką branży kreatywnej pojawią się w najbliższym czasie, natomiast kierunek jest dosyć klarowny. Będziemy w stanie coraz dokładniej generować i edytować treści wizualne, już nie tylko zdjęcia, ale i filmy czy gry komputerowe, modyfikując je przy użyciu języka naturalnego. Na przykład tworzenie “w czasie rzeczywistym” wysokiej jakości filmów wzbogaconych o dźwięk i ciekawy scenariusz będzie na pewno kolejnym krokiem milowym w rozwoju branży rozrywkowej. I tutaj jestem przekonany, że to nie kwestia “czy” tylko “kiedy”.
Jak rozwój w dziedzinie AI przez międzynarodowych liderów takich jak OpenAI i projekt Google Gemini wpływa na strategiczny kierunek IDEAS NCBR? Oczywiście szczególnie chodzi w tym przypadku o rozwój AI dla branży kreatywnej.
Przede wszystkim IDEAS NCBR nie stanowi konkurencji dla OpenAI czy Google’a w kwestiach strategicznych. IDEAS NCBR to centrum badań nad sztuczną inteligencją, której głównym celem jest budowanie wysoko wykwalifikowanej kadry naukowców, inżynierów i przedsiębiorców. Ten kierunek nie ulega zmianom, natomiast z praktycznych powodów, takich jak rosnąca ze strony gigantów konkurencja podczas publikowania naszych badań na topowych konferencjach rangi A* (takich jak CVPR, NeurIPS czy ICML), część naszych działań staje się po prostu trudniejsza. Bo o ile jeszcze 5-10 lat temu opublikowanie pracy na takiej konferencji było w zasięgu ręki doktoranta raz, czasem dwa razy do roku, teraz wymaga to pracy dużo większych zespołów, a i nawet to nie gwarantuje sukcesu.
W jaki sposób prace IDEAS NCBR wzmocnią pozycję Polski na globalnym rynku technologicznym? Czy rozwiązania proponowane przez polskie ośrodki będą miały szanse na globalnym rynku konkurować z gigantami technologicznymi takimi jak np. Google czy Microsoft we współpracy z OpenAI? Co będzie wyróżniało te rozwiązania?
Praca badawcze, które prowadzimy w ramach IDEAS NCBR, prowadzą do publikacji naszych badań na najlepszych konferencjach na świecie, gdzie prezentujemy nasze rozwiązania ramię w ramię z badaczami z Google, MIT czy Uniwersytetu Stanforda. To istotnie wzmacnia naszą pozycję naukową na świecie, a w rezultacie buduje jeszcze silniejsze skojarzenie Polski jako kraju słynącego z talentów informatycznych. To z kolei w długim terminie powinno przynieść odpowiednie finansowanie, w tym z prestiżowych grantów ERC czy w ramach europejskich funduszy z programu Horyzont Europa, i przełożyć się na bardziej konkurencyjne, przyciągające uwagę naukowców, studentów i inwestorów z całego świata.
Jakie są najbardziej obiecujące obszary badawcze w AI, które mogą znaleźć zastosowanie w produkcji filmowej i szerzej w innych branżach kreatywnych?
Nie będzie zaskoczeniem, jeśli powiem, że modelowanie generatywne czy szerzej generatywna sztuczna inteligencja, to na pewno jedna z najbardziej gorących i rewolucyjnych dziedzin uczenia maszynowego. Od czasu pierwszych modeli generatywnych, które z jako taką rozdzielczością potrafiły tworzyć obrazki ludzkich twarzy, np. Generative Adversarial Networks (GANs), wiele się zmieniło, a nie upłynęło nawet 10 lat! Myślę, że święcące tryumfy modele dyfuzyjne, kolejne iteracje SORY czy wreszcie rozumiejące większy i dłuższy kontekst duże modele językowe, które potrafią na przykład przetworzyć już nie krótkie prompty tekstowe, ale całe tomy scenariuszy i na tej podstawie napisać nowy. To są technologie, które jeszcze wiele namieszają w branży kreatywnej.
Jak sztuczna inteligencja może jeszcze wpłynąć na kreatywność i proces twórczy reżyserów i scenarzystów? Istnieje już wiele sposobów wsparcia kreatywności tych zawodów od tworzenia scenariuszy (generowanie pomysłów i tworzenie scenariuszy), analiza i selekcja materiału filmowego, efekty specjalne i animacja. Jakie widzi Pan jeszcze możliwości w tym zakresie?
Sztuczna inteligencja może dalej rewolucjonizować kreatywność i proces twórczy reżyserów oraz scenarzystów poprzez personalizację narracji i adaptację treści do preferencji konkretnych grup odbiorców. AI ma potencjał do analizowania reakcji widzów w czasie rzeczywistym, umożliwiając twórcom dostosowanie historii lub tempa filmu do oczekiwań publiczności. Dodatkowo rozwój technologii AI w przetwarzaniu języka naturalnego i rozpoznawaniu obrazu może zapewnić narzędzia do jeszcze bardziej zaawansowanej edycji i dopasowywania treści, co może otworzyć nowe możliwości dla storytellingu, tworzenia bardziej złożonych i wielowarstwowych narracji, które byłyby trudne lub niemożliwe do zrealizowania bez wsparcia AI.
Jakie główne innowacje w dziedzinie sztucznej inteligencji (AI) i widzenia maszynowego mogą jeszcze zrewolucjonizować branżę filmową i kreatywną? Jakie są najnowsze trendy i odkrycia w tych dziedzinach technologii? W jakim kierunku, według Pana, będzie rozwijała się AI?
Wspominałem o tym wyżej, ale wydaje mi się, że technologie takie jak SORA czy Talking Head Generation będą szły coraz dalej, pozwalając na coraz łatwiejszą edycję filmu za pomocą interfejsu naturalnego – języka czy głosu. To z kolei pozwoli na większą indywidualizację treści wizualnych podawanych widzom i, w połączeniu np. z analizą ich emocji czy odbioru danej sceny, dostarczy bardzo sprofilowany i dostosowany do sytuacji przekaz. Sama dziedzina sztucznej inteligencji stawia przed sobą coraz bardziej ambitne wyzwania związane z rozumowaniem, planowaniem czy wreszcie interakcją ze światem rzeczywistym. Ten kierunek jest raczej ortogonalny do wyzwań branży kreatywnej. Natomiast praktyka pokazuje, że ciekawość badawcza pozwala opracować naukowcom bardzo ciekawe rozwiązania, które twórcy treści mogą po prostu dołączyć do wachlarza swoich narzędzi.
Jak uczenie ciągłe w kontekście computer vision wpływa na rozwój i adaptację algorytmów widzenia maszynowego w dynamicznie zmieniających się warunkach, takich jak te w produkcjach filmowych?
Uczenie ciągłe to dziedzina uczenia maszynowego, której głównym celem jest opracowanie metod pozwalających uczyć modele tak, jak uczą się ludzie, a więc nie zapominając wcześniej nabytych umiejętności przy uczeniu się nowych. Co więcej, w uczeniu ciągłym chodzi o to, żeby te kolejne umiejętności były dla modeli coraz łatwiejsze do nauczenia, tak jak w przypadku nauki języków obcych przez ludzi łatwiejsze jest uczenie się kolejnego języka z tej samej grupy (np. języków łacińskich), znając już inny.
Dynamicznie zmieniające się warunki w produkcjach filmowych mogą stanowić wyzwanie dla konwencjonalnych modeli uczenia maszynowego, nieuczonych w sposób ciągły, ponieważ wymagają one ciągłego dostosowania się modeli np. do zmieniających się warunków oświetleniowych czy nowych planów zdjęć.
Jak wygląda współpraca między Pańskim zespołem badawczym a przedstawicielami branż kreatywnych? Czy są jakieś konkretne projekty, którymi mogą Państwo podzielić się jako przykłady udanej synergii?
Tematami związanymi z branżą kreatywną zajmowałem się wielokrotnie podczas moich badań, w ramach projektów realizowanych na Politechnice Warszawskiej i we współtworzonej przeze mnie firmie Tooploox. Dwa najbardziej udane projekty to rozwijany przeze mnie wraz z zespołem zestaw narzędzi do predykcji popularności filmów w sieciach społecznościowych, o którym pisano m.in. w innpoland.pl, a także projekt Comixify, który pozwala na zamianę filmu w komiks. Ta ostatnia platforma była z powodzeniem wykorzystywana przez producentów filmowych, m.in. do tworzenia tzw. story-boardów przygotowujących aktorów do nagrania określonej sceny filmowej.
Jak te rozwiązania są wprowadzane do praktycznego zastosowania przez organizacje z branż kreatywnych? W jaki sposób IDEAS NCBR, której celem jest rozwój i promowanie sztucznej inteligencji w Polsce, zamierza połączyć świat nauki z praktycznym wykorzystaniem AI? Nawiązuję tu do misji IDEAS NCBR.
Te rozwiązania powstały jeszcze przed rozpoczęciem prac grupy badawczej w IDEAS NCBR. Natomiast w ramach komercjalizacji badań prowadzonych w IDEAS NCBR przygotowywane są już projekty związane z bezpieczeństwem, których potencjał wdrożeniowy pozwala na wniesienie realnej wartości z opracowywanych przez nas algorytmów do biznesu.
Przykładem tego może być algorytm pochodzący z opublikowanego przez nas zeszłorocznego artykułu na jednej z najważniejszych konferencji w obszarze informatyki – IJCAI. Jest to metoda aktywnej wizualnej eksploracji. Poprzez nią chcemy najbardziej wydajnie przeanalizować wysokiej jakości, wysokiej rozdzielczości obraz np. z kamery 360 stopni znajdującej się w robocie. Można to robić, analizując cały obraz, ale dużo wydajniejszym podejściem jest analizowanie mniejszych jego fragmentów, jeden po drugim. Tego typu rozwiązanie doskonale może się sprawdzić np. w autonomicznych autach czy dronach, podczas patrolowania dużych połaci terenu. A to tylko jeden z wielu projektów, nad którymi toczymy intensywne prace.
Dr hab. inż. Tomasz Trzciński, prof. Politechniki Warszawskiej, kieruje pracami zespołu zajmującego się widzeniem maszynowym CVLab na Politechnice Warszawskiej. Jest liderem grupy badawczej „Uczenie maszynowe zero-waste w wizji komputerowej” w IDEAS NCBR. Chief Scientist w Tooploox.
Czytaj też: Sztuczna inteligencja zmieni wyższe uczelnie, jak bardzo i kto skorzysta?
Czytaj też: Czy sztuczna inteligencja zrewolucjonizuje sztukę i grafikę użytkową? Co na to nasz mózg?
Źródło zdjęcia: IDEAS NCBR