На этой неделе на Siggraph, главной конференции по цифровой графике, исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и Google представляют новую систему, которая может автоматически ретушировать изображения в стиле профессионального фотографа. Однако он настолько энергоэффективен, что может работать на мобильном телефоне, и настолько быстр, что может отображать отретушированные изображения в реальном времени, так что фотограф может видеть окончательную версию изображения, все еще кадрируя снимок.Эта же система может также ускорить существующие алгоритмы обработки изображений. В тестах с использованием нового алгоритма Google для создания изображений с расширенным динамическим диапазоном, которые фиксируют тонкости цвета, потерянного в стандартных цифровых изображениях, новая система дала результаты, которые были визуально неотличимы от результатов алгоритма примерно в одной десятой части времени — опять же, достаточно быстро для отображения в реальном времени.
Система представляет собой систему машинного обучения, что означает, что она учится выполнять задачи, анализируя данные обучения; в этом случае для каждой новой задачи он обучался на тысячах пар изображений, сырых и отретушированных.Работа основана на более раннем проекте исследователей Массачусетского технологического института, в котором мобильный телефон отправлял версию изображения с низким разрешением на веб-сервер. Сервер отправит обратно «рецепт преобразования», который можно использовать для ретуширования версии изображения с высоким разрешением на телефоне, уменьшая потребление полосы пропускания.«Google слышал о моей работе над рецептом преобразования», — говорит Майкл Гарби, аспирант Массачусетского технологического института в области электротехники и информатики и первый автор обеих статей. «Они сами сделали продолжение этого, поэтому мы встретились и объединили два подхода.
Идея заключалась в том, чтобы сделать все, что мы делали раньше, но вместо того, чтобы обрабатывать все в облаке, изучить это. И первая цель изучения этого было, чтобы ускорить его ".Короткие сокращенияВ новой работе основная часть обработки изображения выполняется на изображении с низким разрешением, что резко сокращает время и потребление энергии.
Но это создает новую трудность, потому что значения цвета отдельных пикселей в изображении с высоким разрешением должны быть выведены из гораздо более грубого вывода системы машинного обучения.В прошлом исследователи пытались использовать машинное обучение, чтобы научиться «повышать дискретизацию» изображения с низким разрешением или увеличивать его разрешение, угадывая значения пропущенных пикселей. Во время обучения входом в систему является изображение с низким разрешением, а на выходе — изображение с высоким разрешением.
Но на практике это не работает; изображение с низким разрешением просто оставляет слишком много данных.Гарби и его коллеги — профессор электротехники и информатики Массачусетского технологического института Фредо Дюран и Джиавен Чен, Джон Баррон и Сэм Хасинофф из Google — решают эту проблему с помощью двух хитрых уловок. Во-первых, результат их системы машинного обучения не является изображением; скорее, это набор простых формул для изменения цвета пикселей изображения.
Во время обучения производительность системы оценивается в соответствии с тем, насколько хорошо выходные формулы, примененные к исходному изображению, аппроксимируют отретушированную версию.Принимая подшипникиВторой трюк — это метод определения того, как применить эти формулы к отдельным пикселям изображения с высоким разрешением. Результатом работы системы исследователей является трехмерная сетка 16 на 16 на 8. Грани сетки 16 на 16 соответствуют расположению пикселей в исходном изображении; восемь слоев, расположенных поверх них, соответствуют разной интенсивности пикселей.
Каждая ячейка сетки содержит формулы, определяющие модификации значений цвета исходных изображений.Это означает, что каждая ячейка одной из граней сетки размером 16 на 16 должна заменять тысячи пикселей в изображении с высоким разрешением.
Но предположим, что каждый набор формул соответствует одному месту в центре своей ячейки. Тогда любой заданный пиксель с высоким разрешением попадает в квадрат, определяемый четырьмя наборами формул.
Грубо говоря, изменение значения цвета этого пикселя представляет собой комбинацию формул в углах квадрата, взвешенных в зависимости от расстояния. Аналогичное взвешивание происходит в третьем измерении сетки, соответствующем интенсивности пикселей.Исследователи обучили свою систему на наборе данных, созданном группой Дюрана и Adobe Systems, создателями Photoshop.
Набор данных включает 5000 изображений, каждое из которых отретушировано пятью разными фотографами. Они также обучили свою систему тысячам пар изображений, созданных с применением определенных алгоритмов обработки изображений, таких как алгоритм для создания изображений с высоким динамическим диапазоном (HDR).
Программное обеспечение для выполнения каждой модификации занимает примерно столько же места в памяти, сколько одна цифровая фотография, поэтому, в принципе, мобильный телефон может быть оборудован для обработки изображений в различных стилях.Наконец, исследователи сравнили производительность своей системы с производительностью системы машинного обучения, которая обрабатывала изображения с полным разрешением, а не с низким разрешением. Во время обработки версии с полным разрешением требовалось около 12 гигабайт памяти для выполнения своих операций; версии исследователей требовалось около 100 мегабайт, или одна сотая этого количества. Версия системы HDR с полным разрешением потребовала примерно в 10 раз больше времени для создания изображения, чем исходный алгоритм, или в 100 раз дольше, чем система исследователей.
«Эта технология может оказаться очень полезной для улучшения изображений в реальном времени на мобильных платформах», — говорит Баррон. "Использование машинного обучения для вычислительной фотографии — захватывающая перспектива, но она ограничена жесткими вычислительными и энергетическими ограничениями мобильных телефонов. Эта статья может предоставить нам способ обойти эти проблемы и создать новые, убедительные фотографические возможности в реальном времени, не истощая аккумулятор или медленный видоискатель ".
