Технология редактирует голоса как текст

на данный момент разработка, созданная компьютерными учеными Принстонского университета, может сделать для аудиозаписи людской голоса то же самое, что ПО для обработки текста сделало для написанного слова.ПО именующиеся VoCo предоставляет простые средства для добавления или замены слова в аудиозаписи людской голоса способом редактирования расшифровки записи.

Новые слова машинально синтезируются в голосе говорящего, даже если они больше нигде не появляются в записи.Совокупность, в которой употребляется сложный способ для изучения и воссоздания звука определенного голоса, в один раз может значительно упростить редактирование подкастов и повествование в видео. В более широком смысле разработка может стать отправной точкой для персонализированных роботизированных голосов, каковые звучат само собой разумеется.

«VoCo разрешает взглянуть на очень практичную разработку редактирования аудиодорожек, вместе с тем имеется предвестником будущих разработок, каковые дадут синтезировать и автоматизировать человеческий голос отличными способами», — сказал Адам Финкельштейн, профессор компьютерных наук в Принстон.Зейю Джин, аспирантка из Принстона, которую консультировал Финкельштейн, представит собственную работу на конференции SIGGRAPH Ассоциации вычислительной техники в июле. Работа в Принстоне финансировалась Фондом Project X, что предоставляет инженерам начальное финансирование для реализации спекулятивных проектов.

Исследователи из Принстона сотрудничали с учеными Гаутам Майсуром, Стивеном Ди Верди и Джингван Лу из Adobe Research.Команда обрисовала развитие VoCo в статье, которая будет размещена в июльском номере издания Transactions on Graphics. Исследовательская пара разместила препринт статьи, и видео, демонстрирующее проект и примеры синтезированных голосов на собственных веб-страницах.

На экране компьютера интерфейс пользователя VoCo похож на второе ПО для редактирования аудио, такое как популярная программа для редактирования подкастов Audacity или программа для редактирования музыки Apple GarageBand. Он предлагает визуализацию формы волны звуковой дорожки и набор инструментов для вырезания, копирования и вставки для редактирования. Но, в отличие от вторых программ, VoCo также дополняет форму волны текстовой расшифровкой дорожки и разрешает пользователю заменять или вставлять новые слова, каковые еще не существуют в дорожке, легко вводя расшифровку. В то время, в то время, когда пользователь вводит новое слово, VoCo обновляет звуковую дорожку, машинально синтезируя новое слово, объединяя фрагменты звука из вторых мест повествования.

«Сейчас аудиоредакторы смогут вырезать фрагменты из дорожки повествования и перемещать клип из одного места в второе. Но, если вы хотите добавить слово, которого нет в записи, это возможно только по окончании кропотливого опробования и — неточность процесса поиска мелких фрагментов аудио, каковые смогут достаточно замечательно соответствовать друг другу, чтобы организовать слово », — сказал Финкельштейн. «VoCo автоматизирует процесс поиска и сшивания и дает результаты, каковые как правило звучат помимо этого лучше, чем те, каковые созданы вручную экспертами в области звука».

В базе какое количество лежит способ оптимизации, что ищет в записи голоса и выбирает наилучшие возможные комбинации частичных звуков слов, именуемых «фонемами», для новых слов в голосе пользователя. Для этого ему нужно не только найти отдельные фонемы, но и найти их последовательности, каковые сливаются совместно без резких переходов, и вписать их в существующее предложение, чтобы новое слово медлено сливалось.

Слова произносятся с разным акцентом и интонацией в зависимости от того, где они попадают в предложение, исходя из этого важен контекст.Дабы узнать этот контекст, VoCo обращается к звуковой дорожке предложения, которая машинально синтезируется неестественным голосом из расшифровки текста — того, что звучит как робот для людской уха. Эта запись употребляется как точка отсчета при построении нового слова.

Затем VoCo сопоставляет фрагменты звука из настоящей записи людской голоса, чтобы они соответствовали слову в синтезированной дорожке — метод, известный как «преобразование голоса», что вдохновил проект на наименование VoCo., в случае если синтезированное слово не совсем верное, VoCo предлагает пользователям на выбор пара вариантов слова. Совокупность также предоставляет расширенный редактор для изменения звука и длительности высоты, разрешая умелым пользователям еще больше отшлифовать трек.Чтобы проверить, как действенна их совокупность при редактировании аутентичного звучания, исследователи попросили людей послушать набор звуковых дорожек, кое-какие из которых были отредактированы при помощи VoCo, а другие были полностью естественными.

Целиком и полностью автоматизированные догадки ошибочно принимались за настоящие записи более чем в 60% случаев.Джин, чьи изучения связаны со звуком и машинным обучением, объявил, что технологии преобразования голоса перспективны для последовательности приложений, не считая редактирования аудиодорожек. К примеру, люди, потерявшие голос из-за травмы или болезни, смогут воссоздать личный голос при помощи роботизированной совокупности.«К нам обратился мужчина с нейродегенеративным заболеванием, что может сообщить только через совокупность преобразования текста в обращение, управляемую его столетиями», — сказал Джин. "Голос звучит как робот, как совокупность, используемая Стивеном Хокингом, но он хочет, чтобы его маленькая дочь слышала его настоящий голос.

Возможно, в один раз станет возможным проанализировать прошлые записи его речи и создать вспомогательное устройство, которое говорит его собственным голосом. . "В противном случае, Джин объявил, что преобразование голоса вероятно использовано для восстановления в далеком прошлом утерянных голосов знаковых персонажей мультипликационных фильмов, таких как Багз Банни или Попай. голоса и — Такие голоса известных актеров или исторических личностей — затем вероятно было бы использовать для повествования для новых фильмов или помимо этого интегрировать в автоматизированных интеллектуальных персональных помощников, таких как Siri от Apple или Alexa от Amazon.Исследователи из Принстона сейчас совершенствуют способ VoCo, чтобы улучшить свойство совокупности более медлено интегрировать синтезированные слова в аудиодорожки. Они также трудятся над расширением возможностей совокупности по созданию более продолжительных фраз или помимо этого целых предложений, синтезируемых из голоса рассказчика.Финкельштейн объявил, что ПО для редактирования, такое как VoCo, поднимает важные вопросы о том, как обращаться с цифровым контентом, в то время, в то время, когда мы знаем, что он мог быть поменян, чтобы поменять его значение. «Этот вопрос стал актуальным для фотографии пара десятилетий назад с происхождением ПО для редактирования цифровых изображений, чтобы как Adobe Photoshop», — сказал он.

Он объявил, что появление стремительного и несложного редактирования фотографий стало обстоятельством продолжительным дискуссиям о надежности фотографий в новостях. Еще перед тем, как стало доступно цифровое редактирование, у умелых фотографов было много уловок для изменения собственных отпечатков, но новые программы сделали это стремительнее и несложнее и не "настойчиво попросили" такой же степени опыта.«на данный момент мы вычисляем само собой разумеющимся, что фотографии вероятно редактировать, и оцениваем фотографии с мало громадным скептицизмом», — сказал он. «Мы понимаем, что фотографии связаны с журналистской серьезностью».Он объявил, что такая же дискуссия сейчас происходит с цифровым звуком.

Редакторы уже давно смогут изменять аудиофайлы, чтобы очистить звуковую дорожку, и они смогут поменять ее значение, например, легко удалив слово «не». Но он объявил, что такие программы, как VoCo, упрощая этот процесс, возможнее, приведут к озабоченности.

«Этот инструмент точно подпитывает разговор об аудио, которому предшествовал разговор о фотографиях», — сказал Финкельштейн. «Не так долго осталось ждать за этим последует разговор о видео».