Нейросеть научили угадывать движение рук человека по его речи (видео)

Алгоритм изучает только аудиозапись речи.

Ученые из Калифорнийского университета в Беркли создали алгоритм, который может угадать движение рук человека по его речи. Как сообщает N+1, для этого нейросеть изучает только аудиозапись речи, затем создает анимированную модель тела человека, а потом на ее основе генерирует реалистичный видеоролик.

Отмечается, что работу алгоритма можно разбить на две части: сначала он предсказывает движение рук по аудиозаписи речи, а затем визуализирует предсказанные жесты с помощью алгоритма, который разработала в 2018 году смежная группа исследователей.

На первом этапе алгоритм на базе сверточной нейросети UNet принимает двумерную спектрограмму аудиозаписи и превращает ее в одномерный промежуточный сигнал. Затем этот сигнал превращается в последовательность поз, представленных в виде скелетной модели с 49 ключевыми точками, отражающими части рук, плеч и шеи. После этого последовательность поз передается алгоритму визуализации, который превращает ее в видеоролик.

Для обучения алгоритма ученые собрали базу данных, которая состояла из записей суммарной длительностью 144 часа. В частности, она содержала записи речей телеведущих, лекторов и проповедников. С помощью алгоритма OpenPose исследователи сопоставили каждому кадру из датасета скелетную модель. Получая во время обучения записи речи и кадры с готовой моделью, алгоритм научился создавать реалистичные видеоролики. 

Источник: zn.ua 

view counter

Статистика

Всего тем на форумах 181385
Все сообщения 272373
Всего зарегистрированных пользователей 65091
Последний зарегистрированный пользователь beredis

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.