VASA-1 generator realističnih lica koja govore u stvarnom vremenu

May 20, 2024 Tehno

Napomena: Sve portretne slike na ovoj stranici su virtualni, nepostojeći identiteti generirani pomoću StyleGAN2 ili DALL·E-3.

Microsoft VASA, okvir za generiranje realističnih lica virtualnih likova s privlačnim vizualnim afektivnim vještinama (VAS) koristeći jednu statičnu sliku i audio zapis govora. Naš prvi model, VASA-1, ne samo da može proizvoditi pokrete usana koji su savršeno usklađeni s audio zapisom, već također hvata širok spektar facijalnih nijansi i prirodnih pokreta glave koji pridonose percepciji autentičnosti i živosti. Ključne inovacije uključuju sveobuhvatan model generiranja facijalne dinamike i pokreta glave koji djeluje u latentnom prostoru lica, kao i razvoj tako izražajnog i razdvojenog latentnog prostora lica koristeći videozapise. Kroz opsežne eksperimente, uključujući evaluaciju na setu novih metrika, pokazujemo da naša metoda značajno nadmašuje prethodne metode u raznim dimenzijama. Naša metoda ne samo da pruža visokokvalitetne videozapise s realističnom facijalnom i dinamikom glave, već također podržava online generiranje videozapisa rezolucije 512×512 piksela do 40 FPS uz neznatnu početnu latenciju. Ovaj rad otvara put za stvarne interakcije s realističnim avatarima koji oponašaju ljudsko konverzacijsko ponašanje.

Realizam i živost

Naša metoda ne samo da proizvodi preciznu sinkronizaciju usana i zvuka, već također generira širok spektar izražajnih facijalnih nijansi i prirodnih pokreta glave. Može obraditi audio zapise proizvoljne duljine i stabilno izvesti besprijekorne videozapise govorećih lica.

Rizici i razmatranja odgovorne AI tehnologije

Naše istraživanje fokusira se na generiranje vizualnih afektivnih vještina za virtualne AI avatare, s ciljem pozitivnih primjena. Nije namijenjeno stvaranju sadržaja koji se koristi za zavaravanje ili obmanjivanje. Međutim, kao i druge tehnike generiranja sadržaja, potencijalno bi se moglo zloupotrijebiti za oponašanje ljudi. Protivimo se bilo kakvom ponašanju koje bi stvorilo obmanjujući ili štetan sadržaj stvarnih osoba, i zainteresirani smo za primjenu naše tehnike u unapređenju detekcije krivotvorina. Trenutno, videozapisi generirani ovom metodom još uvijek sadrže prepoznatljive artefakte, a numerička analiza pokazuje da još uvijek postoji razlika u postizanju autentičnosti stvarnih videozapisa.

Iako priznajemo mogućnost zloupotrebe, važno je prepoznati značajan pozitivan potencijal naše tehnike. Prednosti – kao što su poboljšanje obrazovne jednakosti, unapređenje pristupačnosti za osobe s komunikacijskim poteškoćama, pružanje društva ili terapeutske podrške onima kojima je potrebna, među mnogim drugima – naglašavaju važnost našeg istraživanja i drugih sličnih istraživanja. Posvećeni smo razvoju AI tehnologije na odgovoran način, s ciljem unapređenja dobrobiti ljudi.

S obzirom na taj kontekst, nemamo planove za objavljivanje online demonstracije, API-ja, proizvoda, dodatnih detalja o implementaciji ili bilo kojih povezanih ponuda dok ne budemo sigurni da će tehnologija biti korištena odgovorno i u skladu s odgovarajućim propisima.

odabrano news portal koji nudi odabrane vijesti i informacije

VASA-1 generator realističnih lica koja govore u stvarnom vremenu

Realizam i živost

Rizici i razmatranja odgovorne AI tehnologije

Povezane vijesti