Napomena: Sve portretne slike na ovoj stranici su virtualni, nepostojeći identiteti generirani pomoću StyleGAN2 ili DALL·E-3.
Microsoft VASA, okvir za generiranje realističnih lica virtualnih likova s privlačnim vizualnim afektivnim vještinama (VAS) koristeći jednu statičnu sliku i audio zapis govora. Naš prvi model, VASA-1, ne samo da može proizvoditi pokrete usana koji su savršeno usklađeni s audio zapisom, već također hvata širok spektar facijalnih nijansi i prirodnih pokreta glave koji pridonose percepciji autentičnosti i živosti. Ključne inovacije uključuju sveobuhvatan model generiranja facijalne dinamike i pokreta glave koji djeluje u latentnom prostoru lica, kao i razvoj tako izražajnog i razdvojenog latentnog prostora lica koristeći videozapise. Kroz opsežne eksperimente, uključujući evaluaciju na setu novih metrika, pokazujemo da naša metoda značajno nadmašuje prethodne metode u raznim dimenzijama. Naša metoda ne samo da pruža visokokvalitetne videozapise s realističnom facijalnom i dinamikom glave, već također podržava online generiranje videozapisa rezolucije 512×512 piksela do 40 FPS uz neznatnu početnu latenciju. Ovaj rad otvara put za stvarne interakcije s realističnim avatarima koji oponašaju ljudsko konverzacijsko ponašanje.
Realizam i živost
Naša metoda ne samo da proizvodi preciznu sinkronizaciju usana i zvuka, već također generira širok spektar izražajnih facijalnih nijansi i prirodnih pokreta glave. Može obraditi audio zapise proizvoljne duljine i stabilno izvesti besprijekorne videozapise govorećih lica.
Rizici i razmatranja odgovorne AI tehnologije
Naše istraživanje fokusira se na generiranje vizualnih afektivnih vještina za virtualne AI avatare, s ciljem pozitivnih primjena. Nije namijenjeno stvaranju sadržaja koji se koristi za zavaravanje ili obmanjivanje. Međutim, kao i druge tehnike generiranja sadržaja, potencijalno bi se moglo zloupotrijebiti za oponašanje ljudi. Protivimo se bilo kakvom ponašanju koje bi stvorilo obmanjujući ili štetan sadržaj stvarnih osoba, i zainteresirani smo za primjenu naše tehnike u unapređenju detekcije krivotvorina. Trenutno, videozapisi generirani ovom metodom još uvijek sadrže prepoznatljive artefakte, a numerička analiza pokazuje da još uvijek postoji razlika u postizanju autentičnosti stvarnih videozapisa.
Iako priznajemo mogućnost zloupotrebe, važno je prepoznati značajan pozitivan potencijal naše tehnike. Prednosti – kao što su poboljšanje obrazovne jednakosti, unapređenje pristupačnosti za osobe s komunikacijskim poteškoćama, pružanje društva ili terapeutske podrške onima kojima je potrebna, među mnogim drugima – naglašavaju važnost našeg istraživanja i drugih sličnih istraživanja. Posvećeni smo razvoju AI tehnologije na odgovoran način, s ciljem unapređenja dobrobiti ljudi.
S obzirom na taj kontekst, nemamo planove za objavljivanje online demonstracije, API-ja, proizvoda, dodatnih detalja o implementaciji ili bilo kojih povezanih ponuda dok ne budemo sigurni da će tehnologija biti korištena odgovorno i u skladu s odgovarajućim propisima.