Новые инструменты превращают аудиоклипы в реалистичное видео

Как подробно обрисовано в документе, что будет представлен 2 августа на SIGGRAPH 2017, команда удачно создала высокореалистичное видео, на котором экспрезидент Обама говорит о терроризме, отцовстве, вторых рабочих создании и темах мест, используя аудиоклипы этих выступлений и существующие еженедельные видеообращения. каковые изначально были по второй теме.«Чтобы типа результаты ни разу не демонстрировались», — сказала Ира Кемельмахер-Шлизерман, доцент Школы компьютерных наук им. Пола Г. Аллена Университета Вашингтона. Инженерное дело. «Реалистичное преобразование аудио в видео имеет практические приложения, такие как улучшение видеоконференцсвязи для встреч, и футуристические, такие как возможность поддерживать беседу с исторической фигурой в виртуальной реальности, создавая зрительные эффекты только из аудио.

Это собственного рода прорыв, что окажет помощь сделать следующие шаги ".В визуальной форме синхронизации губ совокупность преобразует аудиофайлы речи человека в реалистичные формы рта, каковые затем прививаются и смешиваются с головой этого человека из другого существующего видео.

Команда выбрала Обаму, по обстоятельству того, что для техники машинного обучения требуется недорогое видео человека, у которого вероятно обучаться, а в открытом доступе были часы президентских видеороликов. «В будущем видео инструменты чата, такие как Skype или Messenger, дадут любому собирать видеоролики, каковые вероятно использовать для обучения компьютерных моделей», — сказал Кемельмахер-Шлизерман.Вследствие того что потоковая передача звука через Интернет занимает намного меньше полосы пропускания, чем видео, новая совокупность может завершить видеочаты, каковые постоянно отключаются из-за плохого соединения.

«В то время, в то время, когда вы смотрите Skype или Гугл Hangouts, соединение частенько заикается, с низким разрешением и очень не весьма приятно, но частенько со звуком достаточно замечательно», — сказал соавтор и профессор школы Аллена Стив Зейтц. «Так что, если бы вы имели возможность использовать звук для видео более громадного качества, это было бы потрясающе».Способом обращения процесса — подачи видео в сеть вместо легко звука — команда также вероятно имела возможность бы создать способы, каковые имели возможность бы определять, имеется ли видео настоящим или произведенным.Новый инструмент машинного обучения добился громадного прогресса в преодолении так называемой неприятности "сверхъестественной равнины", которая упорно пробовала создать реалистичное видео из звука.

В то время, в то время, когда синтезированные человеческие сходства кажутся фактически настоящими — но все же каким-то образом не попадают в цель — люди находят их страшными или отталкивающими.«Люди особенно чувствительны к любым областям вашего рта, каковые выглядят нереалистично», — сказал ведущий создатель Супасорн Суваджанакорн, недавний выпускник докторантуры в школе Аллена. «Если вы не сделаете зубы верными или подбородок двигается в неподходящее время, люди смогут сходу заметить это, и это будет смотреться фальшивым.

Так что вам нужно идеально отрисовать область рта, чтобы выйти за пределы страшной равнины».Раньше процессы преобразования аудио в видео включали в себя съемку нескольких людей в студии, повторяющих однообразные предложения снова и снова, чтобы попытаться уловить, как конкретный звук соотносится с разными формами рта, что было дорого, утомительно и отнимало большое время. Напротив, Суваджанакорн создал способы, каковые смогут обучаться на видео, каковые существуют «в природе» в сети или где-либо еще.«Имеется миллионы часов видео, каковые уже существуют из интервью, видеочатов, фильмов, телевизионных программ и других источников.

И эти способы глубокого обучения очень требовательны к данным, исходя из этого это хороший вариант, чтобы делать это так», — сказал Суваджанакорн.Вместо того, чтобы синтезировать окончательное видео из аудио, команда решила проблему в два этапа. Первый включал обучение нейронной сети для просмотра видео с человеком и преобразования различных звуков в главные формы рта.

Объединив прошлые изучения команды UW Graphics and Image Laboratory с новой техникой синтеза рта, они затем смогли реалистично наложить и смешать эти формы и текстуры рта с существующим эталонным видео этого человека. Еще одно важное открытие было в том, чтобы дать добро нейронной сети за небольшой временной сдвиг предвидеть, что говорящий собирается сказать дальше.Новый процесс синхронизации губ дал исследователям создавать реалистичные видеоролики, на которых Обама выступает в Белом доме, используя слова, каковые он сообщил в телевизионном ток-шоу или в течении интервью пара десятилетий назад.

Сейчас нейронная сеть предназначена для обучения по одному человеку за раз, а это показывает, что голос Обамы — сообщённые им слова — единственная информация, используемая для «управления» синтезированным видео. Но грядущие шаги включают в себя помощь способам в обобщении в разных обстановках для распознавания голоса и речевых паттернов человека с меньшим числом данных — к примеру, с часом видео для обучения вместо 14 часов.

«Не разрещаеться чей-то голос и перевоплотить его в видео Обамы», — сказал Зейтц. «Мы очень сознательно решили не идти по пути вкладывания чужих слов в чьи-то уста. Мы настоящие слова, каковые кто-то сказал, и превращаем их в реалистичное видео этого человека».