„Wygeneruj latającego konia”. Co potrafi animacja generatywna?


AI uwolni animatorów od nudnej pańszczyzny, a zespołom indie pozwoli zaoszczędzić na sesjach motion capture – wieszczą Polacy odpowiedzialni za technologię Animatric.

Adrian Perdjon i Marcin Panek prowadzą Bones, studio animacji i motion capture. Fajnych zleceń im nie brakuje, pracowali m.in. nad cutscenami Hellblade’a 2 oraz mocapem  do PUBG. Ostatnio ich oczkiem w głowie jest jednak Animatric, GenAI, który tworzy animacje na podstawie tekstowych promptów.

Zapytany, czy aby nie podcina gałęzi, na której sam siedzi, Panek natychmiast wypala:

– Nie. Udzielam ci tej samej odpowiedzi, której udzielałem dziesięć lat temu, gdy pojawiły się stocki. Za ich pośrednictwem możesz dziś kupić miliony modeli drzew czy kamieni, mało tego: pobrać miliony darmowych. Jakoś jednak nigdy nie widziałem artystów protestujących przeciw asset store’om…

Ale niepokoje są w środowisku jak najbardziej realne – alarmuje kalifornijska Gildia Animacji w styczniowym raporcie „Niepewna przyszłość: Wpływ generatywnej sztucznej inteligencji na pracę w branży rozrywkowej”. Co trzeci badany lęka się, że GenAI może „przyczynić się do eliminacji, redukcji lub konsolidacji stanowisk”. Z drugiej strony: 6 na 10 przyznaje, iż LLM-y „zwiększają wydajność w rutynowych zadaniach”, tymczasem liderzy biznesu nie mają wątpliwości, że będą one miały coraz większy wpływ na twórczość (uważa tak 90% z nich).

Baza i nadbudowa

– Zaczęliśmy prace nad AI do animacji ponad cztery lata temu, jeszcze przed wybuchem mody na generatywną sztuczną inteligencję – wspomina Adrian Perdjon, prezes Bones. Problemem natychmiast okazał się dla jego ekipy brak ogólnodostępnych danych mocapowych, którymi trzeba przecież było takie narzędzie nakarmić. Panowie zaczęli więc gromadzić je sami.

W nagraniach na poczet ich bazy ruchów wzięło udział niemal dwustu performerów różnej płci, postury, wieku i wzrostu. Za Bones ponad sto sześćdziesiąt sesji motion capture, acz – przyznaje Perdjon – pierwszych czterdzieści nadawało się do kosza, dotychczasową metodykę pracy trzeba było bowiem skalibrować pod kątem nowego zadania metodą prób i błędów. A choć w międzyczasie studio realizowało zamówienia m.in. pod kątem Ghostrunnera, Company of Heroes 3 czy Gorda – prezes dumnie podkreśla, że nie wykorzystał do treningu AI „ani sekundy” ze zleceń komercyjnych. I że wszyscy aktorzy i aktorki podpisali na jego projekt osobne umowy.

– Prawo do wizerunku i własność intelektualna to dla nas istotne kwestie, dbamy więc o maksymalną przejrzystość w tych tematach – dodaje. I dobrze.

Dziś baza warszawiaków liczy sobie 350 tys. animacji. Sporo; jak skrupulatnie wylicza Papers with Code – konkurencyjne repozytoria nakarmiomo maksymalnie kilkunastoma tysiącami. Przykładowo na HumanML3D składa się raptem 14,5 tys. klipów.

Zdaniem Perdjona, by stworzyć tzw. model uniwersalny, należałoby rozbudować taki zbiór do ok. 5 mln ruchów. Dopiero wówczas odpowie on na potrzeby większości developerów gier i producentów animacji.

Czy aby nie są to zbyt optymistyczne szacunki – pytam Panka. – W przypadku modeli generujących wideo potrzebujemy setek milionów nagrań; modele generujące obrazki chcą od nas miliardów grafik, a ich tekstowe odpowiedniki – wręcz biliony artykułów.

– Ruch humanoidów jest jednak dość uniwersalny, wytrenowanie algorytmu wymaga mniejszej ilości danych. Kilka milionów referencji powinno wystarczyć. Oczywiście przy założeniu, że zarejestrujemy je w wysokiej jakości i dobrze opiszemy.

Animatrica da się sprawdzić już teraz, wystarczy wejść na jego oficjalną stronę, wypełnić formularz rejestracyjny i voilà, można ruszać do promptowania. Dobrze radzi on sobie z animacyjnym abecadłem: chodzeniem, bieganiem czy strzelaniem, w dodatku potrafi nadać im emocjonalny ton. Gdy bohater ma się ruszać smutno – faktycznie spuszcza głowę i ramiona, a kiedy potrzeba nam wesołej postaci – jej model dziarsko kroczy przed siebie sprężystym krokiem. Siłą rzeczy algorytm nie wygeneruje natomiast ruchu, którego wcześniej nie widział. Skonfrontowany z poleceniem odtworzenia kluczowej sceny „Powrotu Jedi” („Use force lightning from Star Wars”) awatar wpierw zakręci w dłoniach niewidzialną piłką, następnie uniesie ręce do góry, by finalnie wyciągnąć je przed siebie.

Wykorzystując doświadczenie zdobyte przy Animatricu, Bones Studio tworzy dedykowane zbiory ruchów, które licencjonuje kilku zewnętrznym partnerom. Współpraca z nimi bynajmniej nie kończy się zresztą na udzieleniu licencji (Panek: – Jeśli zleceniodawca wyśle mi maila, że potrzebuje superdokładnych animacji gotowania, nagrywamy dataset dedykowany tej konkretnej czynności). Wśród klientów warszawskiej firmy są już m.in Nvidia i Unity.

Muza nie będzie koniem

Niszę, która znalazła się w centrum zainteresowaniu polskiego zespołu, zauważyli także zachodni giganci. Producent popularnego silnika Unity zaprezentował niedawno Muse, narzędzie mające tworzyć tekstury, sprite’y i zachowania, ale chyba największe nadzieje rozbudza jego moduł animacji.

Choć na razie twórcy gier otrzymali dostęp do bardzo wczesnej wersji przedpremierowej, już na tym etapie rokuje ona wcale nieźle.

Muse Animate generuje ruch na podstawie tekstu; wklepując komendę w rodzaju: „niech postać zrobi fikołka”, otrzymujemy od niego kilka propozycji przewrotek. A choć często musimy ręcznie skorygować efekt (bo np. bohater lewituje nad ziemią lub wtapia się w grunt), da się to jednak zrobić w intuicyjnym edytorze. Podczas naszych testów algorytm świetnie poradził sobie z animacją chodu  „pewnego siebie mężczyzny” i „uwodzicielskiej kobiety”, ale nadal miewał kłopoty przy bardziej skomplikowanych poleceniach. Szczególnie, gdy kazaliśmy mu zasymulować interakcje z otoczeniem, np. popchanie samochodu.

Właściwie skąd problem? – pytam Panka: – Prawdziwym wyzwaniem nadal są więzy, czyli constrainy. Możemy zakomunikować modelowi generatywnym, że postać stoi przed drzwiami i powinna nacisnąć klamkę, ale w tej chwili żadna technologia sobie z tym nie poradzi, bo żadnej nie nakarmiono dostateczną ilością danych wsadowych.

Plotka głosi, że do mocapowego studia CD Projektu Red wjechał ostatnio koń, którego Redzi zmocapowali pod kątem czwartego Wiedźmina. Zarówno ów wierzchowiec, jak i inni zwierzęcy performerzy nie muszą na razie obawiać się bezrobocia. Ani w Unity, ani w Animatricu nikt nawet nie myśli jeszcze o animowaniu niehumanoidalnych postaci. – Ludzie są standardowi, łatwo sprowadzić nas do wspólnego mianownika. Psy, koty, czy konie to jest natomiast zupełnie inne zagadnienie animacyjne, nie wiem, czy ktoś się nim w tej chwili na poważnie zajmuje w kontekście modeli generatywnych. Jeśli zdecydujemy się kiedyś dodać do bazy danych zwierzęta, zapewnią nam one kolejne trudności, bo przecież jamnik rusza się inaczej niż owczarek niemiecki – komentuje Perdjon.

Esencja smutku & transfer stylów

Nawet jednak ten „pewny siebie mężczyzna” i ta „uwodzicielska kobieta”, z których motoryką radzą sobie i Animatric, i Muse, to spore osiągnięcie – twierdzą eksperci. – Jeśli polecę aktorom, by ruszyli do przodu smutnym krokiem, to pewnie będą robić różne długości kroków i różnie machać rękami – tłumaczy Panek. – Na ogół emocje wyrażamy dość podobnie, ale dopiero mając tysiąc próbek „smutnych” ruchów, będziemy w stanie wyciągnąć „esencję” smutku i dokonać tzw. transferu stylów.

Słowem: przełożyć emocję nie tylko na bieg, skok czy trucht, ale także na specyficzne ruchy potrzebne konkretnym projektom. – W przyszłości chciałbym móc polecić LLM-owi, by przez drzwi przeszedł wściekły opryszek, a mieczem walczyła osoba pod wpływem alkoholu… Ale do tego jeszcze daleka droga – przyznaje prezes Bones.

Modele generatywne rozczarowują ponadto, gdy chcemy uzyskać od nich ruch osób z niepełnosprawnościami albo animację z postacią nietypowych rozmiarów czy wagi. Tymczasem podczas sesji motion capture takie niuanse da się zasymulować. Jeśli zdrowy aktor wciela się kulejącego bohatera – wystarczy założyć mu na kostkę ciężarek. Gdy performer ma oddać chód bohatera w zbroi płytowej – może np. przywdziać kamizelkę obciążeniową.

Grymasy pierwszej klasy

Już teraz sztuczna inteligencja pozwala ograniczyć koszty sesji motion capture, zwłaszcza, gdy dopiero prototypujemy projekt. Przykładów jej zastosowań nie trzeba długo szukać, taki Animate 3D od DeepMotion generuje ruch na bazie materiału filmowego. Niekoniecznie zresztą realistycznego, równie dobrze możemy podsunąć mu kreskówkę z Youtube’a.

RADiCaL nie wymaga od nas profesjonalnego sprzętu do motion capture. W dodatku jego narzędzie od niedawna nieźle radzi sobie nawet z odwzorowywaniem ruchu palców.

Podobne rozwiązanie, choć skupione na mimice, oferuje Reallusion. W ramach ekosystemu iClone znajdziemy AccuFACE, który rejestruje na kamerce twarz i w czasie rzeczywistym przekłada nasze miny na cyfrowego awatara.

A skoro już o buziach: prawdziwą rewolucję szykuje na polu automatyzacji ekspresji Nvidia, która udostępniła trzy autorskie narzędzia: Audio2Face, Audio2Emotion oraz Audio2Gesture. Pierwsze z nich „tłumaczy” plik dźwiękowy na realistyczną mimikę, drugie pozwala zmodyfikować poziom widocznych na twarzy „strachu”, „radości” czy „bólu”, trzecie dodaje zaś do puli wiarygodną gestykulację (oraz możliwość wyregulowanie intensywności tejże).

Nvidia liczy, że rozwój technologii pomoże jej w budowie autorskiego metaversum (gigant rywalizuje na tym polu z Apple i Metą). Już teraz jej pomysły znajdują zastosowanie m.in. w ukraińskim Stalkerze 2 czy polskim Fort Solis; benchmarkiem możliwości Audio2Face będą ponadto turecki akcyjniak Unawake oraz chiński MMORPG World of Jade Dynasty.

Oczywiście generowanie mimiki na podstawie głosu nie jest w branży nowością. By uzmysłowić sobie, dlaczego AI może stanowić na tym polu skok jakości, cofnijmy się do momentu, gdy stare technologie sromotnie zawiodły. A konkretnie: do premiery Mass Effecta: Andromedy, po której dworowaliśmy sobie wszyscy ze „zmęczonych twarzy” enpeców.

Już wówczas ukazywały się na rynku produkcje – vide The Last of Us – w których każda postać brzmiała, gestykulowała i krzywiła się naturalnie. Jak jednak uwrażliwiał na X (ówczesnym Twitterze) Jonathan Cooper, mający w CV współpracę i z BioWare, i z Naughty Dog: czym innym jest animowanie rozpisanej na kilkanaście godzin liniowej gry akcji, a czym innym praca nad stugodzinnym RPG-iem w otwartym świecie.

Większość kwestii Drake’a z Uncharted nagrano w studio motion capture, w sekwencjach akcji kamera odjeżdżała zaś na tyle daleko, że trudno byłoby dopatrzyć się na twarzy protagonisty nienaturalnego grymasu. Tymczasem w Andromedzie wystąpiło 1,2 tys. postaci mówiących (dwa razy więcej niż w „trójce”), z których sporą część obserwowaliśmy na zbliżeniach, a w dodatku jej scenariusz liczył sobie dwa razy więcej linii dialogowych od poprzednich części razem wziętych! Budżetu koniecznego na zmocapowanie ich wszystkich nie udźwignąłby w naszej branży nikt.

BioWare pracowało wówczas na silniku Frostbite, pod który podpięło FaceFX, middleware’a, z jakiego robili użytek także autorzy The Division, nowożytnych Falloutów czy batmańskiej „trylogii Arkham”. To on odpowiadał za synchronizację ruchu ust z wypowiadanymi kwestiami oraz generowanie mimiki na bazie plików audio. Nawet jeśli spekulował w audycji Extra Credits animator Dan Floyd Kanadyjczycy rozbudowali jego bibliotekę gestów, zachowań i fonemów, ich wysiłki obróciły się w niwecz przez brak szlifów.

Efekt końcowy w dalszym ciągu wymagał bowiem ręcznej obróbki, na którą crunchujący zespół nie znalazł czasu. Tymczasem choć FaceFX rozpoznaje „w locie” wściekłość, błogość czy znużenie – pomyłki nie należą do rzadkości. Każda twarz jest przecież inna, tembr głosu może okazać się mylący, a baza BioWare zawierała raptem po kilka „wściekłości”, „błogości” i „znużeń”. Spójrzcie zresztą na podobne narzędzie autorstwa CD Projekt Red. Cała obsada Wiedźmina 3 mogła na cztery sposoby coś wytłumaczyć, na trzy zadać pytanie, a głowy zwieszała zawsze tak samo.

AI nie tylko zautomatyzuje mimikę i gestykulację, ale także pozwoli na stworzenie animacji bardziej złożonych i dopasowanych do konkretnych typów urody. Oblicza bohaterów nie będą dzięki jego zastosowaniu „zmęczone”, nawet jeśli odpowiedzialny za grę zespół nie wygospodaruje czasu na ich obróbkę.

Symulować i nadzorować

Gdy pytam Panka o trendy związane z wykorzystywaniem AI w animacji, ten wskazuje na połączenie modeli językowych z symulacją fizyczną. Czyli? – Pamiętasz pewnie, jak postacie z GTA reagują na to, że dookoła nich dzieje się coś niedobrego? Mają np. tendencję do osłaniania rękami strategicznych części ciała, nagrywania zajścia komórką albo kucania i zakrywania głowy.

Nadal też trwa walka o to, by generatywna sztuczna inteligencja uporała się z inbetweeningiem. Nawet, jeśli LLM skorzysta z obszernej bazy, tworząc na jej podstawie sekwencje ruchów, przestrzeń między kluczowymi klatkami (keyframes) trzeba uzupełnić klatkami pośrednimi (inbetweens), bo to one zapewniają wrażenie płynności. Dla klasycznych programów (Maya, Blender) to nie pierwszyzna, ale modelom generatywnym nadal sprawia kłopoty.

– Ale największym wyzwaniem będzie nauczenie algorytmów artystycznej kontroli. We wszystkich rozwiązaniach – również naszym – jest ona jeszcze niewielka, model generatywny nie potrafi ocenić efektów swojej pracy, gdy tymczasem ludzkie oko w mig rozpozna, który ruch jest wiarygodny, a który – nie – kwituje Panek.

Mocap do TikToka

Moi rozmówcy są zgodni: zawsze będziemy musieli organizować sesje mocapowe. – Generatywna animacja rozwija się dość prężnie, ale nie zastąpi ona pracy reżysera i aktorów. W skomplikowanych scenach, zwłaszcza przy cinematikach i filmach animowanych, motion capture potrzebne będzie zawsze – diagnozuje Panek. – Jeśli jednak chodzi o produkcję animacji gameplayowych – już wkrótce narzędzia AI pozwolą zrezygnować z drogiego mocapu optycznego czy inercyjnych kostiumów. Dla wielu twórców mniejszych, mniej skomplikowanych gier wideo takie rozwiązanie może okazać się wystarczające. Mimo to Perdjon, jakby nie było: właściciel studia motion capture, pozostaje optymistą: – Odbijemy sobie zleceniami na ambitne, customowowe animacje, zamawiane np. pod kątem filmów fabularnych i cutscen w grach AAA – konstatuje. Albo – to już przypuszczenie złośliwego dziennikarza – kręcąc pod kątem produkcji sieciowych trendujące na TikToku tańce.

Obaj rozmówcy są zgodni co do jednego: upowszechnienie machine learningu sprawi, że animatorzy będą mieć mniej powtarzalnej pracy. Nowe narzędzia uwolnią ich od nudnej pańszczyzny, pozwalając skupić się na wielkich, kreatywnych wyzwaniach. A na nich przecież artystom zależy szczególnie.

Kategorie