Zdjęcie przemawia. Microsoft chwali się nowym osiągnięciem w dziedzinie AI

Microsoft Research Lab Asia pochwaliło się nowym narzędziem wykorzystującym dobrodziejstwa sztucznej inteligencji. VASA-1 (Visual Affective Skills Animator), bo o nim mowa, potrafi sprawić, że twarz z portretu zacznie przemawiać udostępnioną jej ścieżką audio. Oczywiście, usta osoby z portretu będą się ruszać, a nawet zaimplementowano tutaj całkiem rozbudowaną mimikę twarzy. Oto jak prezentuje się VASA-1 w praktyce.

Robi wrażenie? Ma pełne prawo. Uwagę zwraca na pewno całkiem niezła dokładność ruchu warg oraz możliwość przełączania portretu w czasie rzeczywistym. Ponadto, warto zwrócić także uwagę na symulowanie efektu 3D portretu i niemal nieograniczoną dowolność w „ustawieniu” przemawiającej twarzy. VASA-1 umożliwia nawet „zmianę emocji” u przemawiającej osoby. Można sprawić, że postać ze zdjęcia stanie się nagle szczęśliwa, zaskoczona czy wściekła.

Czy VESA-1 jest zatem idealnym narzędziem do tworzenia np. deepfake’ów? W mojej opinii – nie. A przynajmniej jeszcze nie na tym etapie. Na wideo w oczy rzuca się nieco nienaturalna ekspresja twarzy oraz nienaturalne zachowanie oczu, które momentami przypomina wzrok dziewczyny z dawnych memów znanej jako „przesadnie zaangażowana dziewczyna”. Z drugiej strony jednak, nie zawsze takie niuanse da się zauważyć przy pojedynczym obejrzeniu materiału, więc jeżeli ktoś chciałby stworzyć mówiącego awatara jakiegoś celebryty czy polityka, to w mojej opinii jest w stanie sporą rzeszę osób wprowadzić w błąd. Mało tego, VASA-1 generuje wideo w całkiem niezłej jakości, gdyż mówimy tu o rozdzielczości 512 x 512 pikseli i 40 klatkach na sekundę.

W przypadku demo, naukowcy z azjatyckich laboratoriów Microsoftu wykorzystali portrety, które również zostały stworzone za pomocą algorytmów sztucznej inteligencji, w tym przypadku DALL-E-3 oraz StyleGAN2.

Na chwilę obecną jednak Microsoft nie planuje wypuszczać żadnego z elementów swojego narzędzia dla publiki: ani API, ani tym bardziej gotowego demo. Wynika to m.in. właśnie z troski o bezpieczeństwo. Twórcy nie będą publikować VESA-1, dopóki nie będą mieć pewności, że „technologia będzie wykorzystana w sposób odpowiedzialny i zgodny z odpowiednimi przepisami”.

Animowanie zdjęć za pośrednictwem algorytmów AI nie jest niczym specjalnie nowym, gdyż podobne zabiegi, ale na zdecydowanie mniejszą skalę mogliśmy oglądać choćby dzięki narzędziu Deep Nostalgia. Tam jednak mieliśmy do czynienia z krótką animacją fotografii, bez głosu oraz ograniczoną mimiką. Różnice pomiędzy narzędziami są więc dość spore.

Źródło: techspot, microsoft