
Усовершенствованный метод кодирования этого важного контекста из изображения позволил Дева Раманан, доценту робототехники, и Пейюн Ху, доктору философии.D. студент в области робототехники, чтобы продемонстрировать значительный прогресс в обнаружении крошечных лиц.
При применении к эталонным наборам данных лиц их метод уменьшил ошибку в два раза, и 81 процент лиц, обнаруженных с помощью их методов, оказались настоящими лицами, по сравнению с 29-64 процентами для предыдущих методов.
«Это как обнаружить зубочистку в чьей-то руке», — сказал Раманан. "Зубочистку легче увидеть, когда есть намеки на то, что кто-то может использовать зубочистку.
Для этого основными подсказками являются ориентация пальцев, движение и положение руки."
Точно так же, чтобы найти лицо, которое может быть размером всего в несколько пикселей, полезно сначала найти тело на большом изображении или понять, что изображение содержит толпу людей.
Обнаружение крошечных лиц может иметь такие приложения, как подсчет персонала для расчета размера толпы. Обнаружение мелких предметов в целом будет приобретать все большее значение, поскольку беспилотные автомобили движутся с большей скоростью и должны отслеживать и оценивать условия дорожного движения на расстоянии.
Исследователи представят свои выводы на CVPR 2017, конференции по компьютерному зрению и распознаванию образов, 21-26 июля в Гонолулу.
Их исследовательская работа доступна в Интернете.
По словам Раманана, идея о том, что контекст может помочь в обнаружении объектов, не нова.
Однако до недавнего времени было трудно проиллюстрировать эту интуицию на практических системах. Это связано с тем, что в контексте кодирования обычно используются «многомерные дескрипторы», которые содержат много информации, но с которыми сложно работать.
В методе, который он и Ху разработали, используются «фовеальные дескрипторы» для кодирования контекста аналогично тому, как устроено человеческое зрение.
Точно так же, как центр поля зрения человека сосредоточен на ямке сетчатки, где острота зрения самая высокая, дескриптор фовеа обеспечивает резкие детали для небольшого участка изображения, при этом окружающая область отображается как более размытая.
Размывая периферийное изображение, дескриптор фовеа обеспечивает достаточный контекст, чтобы помочь в понимании пятна, показанного в высоком фокусе, но не настолько, чтобы компьютер перегружался. Это позволяет системе Ху и Раманана использовать пиксели, которые относительно далеки от патча, когда решает, содержит ли он крошечное лицо.
Точно так же простое увеличение разрешения изображения не может быть решением для поиска крошечных объектов.
Высокое разрешение создает проблему «Где Уолдо?» — у объектов много пикселей, но они теряются в океане пикселей. В этом случае контекст может быть полезен, чтобы сосредоточить внимание системы на тех областях, которые, скорее всего, содержат лицо.
В дополнение к контекстным рассуждениям Раманан и Ху улучшили способность обнаруживать крошечные объекты, обучая отдельные детекторы для объектов разного масштаба.
Они отметили, что детектор, который ищет лицо высотой всего в несколько пикселей, будет сбит с толку, если встретит нос в несколько раз больше.
