Исследователи Microsoft разработали новую систему VASA-1, которая может создавать реалистичные говорящие лица из одного изображения и звуковой дорожки.
VASA-1 может воссоздавать выражения лица, точно синхронизированные движения губ и естественные движения головы. Новая нейросеть может улавливать широкий спектр эмоций и тонкие нюансы, делая сгенерированные лица более правдоподобными. Пользователи могут указать направление взгляда персонажа, воспринимаемое расстояние и даже эмоциональное состояние персонажа.
VASA-1 достигает этого реализма за счёт разделения черт лица, трёхмерного положения головы и выражений лица на отдельные части. Исследователи, стоящие за VASA-1, подчеркивают эффективность работы системы в режиме реального времени. Она может создавать видео разрешением 512 × 512 пикселей с частотой 45 кадров в секунду.
Посмотреть массу примеров работы технологии можно на официальном сайте.