Мня собственную работу на Конференции по совокупностям обработки нейронной информации в этом году, Тененбаум и один из его учеников, Цзяцзюнь Ву, являются соавторами четырех статей, в которых исследуются фундаментальные когнитивные способности, необходимые интеллектуальному агенту для навигации по миру: распознавание отдельных объектов и делая вывод о том, как они реагируют на физические силы.Создавая компьютерные совокупности, каковые начинают приближаться к этим возможностям, исследователи уверены в том, что они смогут оказать помощь ответить на вопросы о том, какие конкретно конкретно ресурсы обработки информации люди используют на каких стадиях развития.
Попутно исследователи смогут также забрать кое-какие идеи, необходимые для совокупностей машинного зрения.«Неспециализированная тема тут — в самом деле обучиться принимать физику», — говорит Тененбаум. «Это начинается с просмотра полных трехмерных форм объектов и множества объектов в сцене, и их физических изюминок, таких как масса и трение, а затем рассуждения о том, как эти объекты будут двигаться с течением времени.
Четыре статьи Цзяцзюня обращаются к этому пространству. . Дружно мы начинаем создавать машины, каковые улавливают все больше людей из основных представлений о физическом мире ».Три статьи касаются вывода информации о физической структуре объектов как на базе визуальных, так и звуковых данных.
Четвертый касается прогнозирования поведения объектов на базе этих данных.Улица с двусторонним перемещением
Что-то еще, что объединяет все четыре статьи, — это их неординарный подход к машинному обучению, методике, в которой компьютеры обучаются делать вычислительные задачи, разбирая огромные наборы обучающих данных. В простой совокупности машинного обучения эти обучения помечены: человек-аналитик, скажем, идентифицирует объекты в визуальной сцене или расшифровывает слова сообщённого предложения. Совокупность пробует выяснить, какие конкретно конкретно особенности данных соотносятся с какими метками, и оценивает, как замечательно она маркирует ранее невидимые эти.
В новых статьях Ву и Тененбаум совокупность научена выводить физическую модель мира — к примеру, трехмерные формы объектов, каковые в основном скрыты от глаз. Но затем он трудится в обратном направлении, используя модель для повторного синтеза входных данных, и его производительность оценивается по тому, как замечательно восстановленные эти соответствуют исходным данным.К примеру, использование визуальных изображений для построения трехмерной модели объекта в сцене требует удаления любых закрывающих объектов; фильтрация мешающих визуальных текстур, отражений и теней; и определение формы невидимых поверхностей. Но, в то время, когда совокупность сейчас и Тененбаум выстроит такую ??модель, она вращает ее в пространстве и снова додаёт визуальные текстуры, пока не сможет приблизиться к входным данным.
В самом деле, две из четырех статей исследователей посвящены сложной проблеме вывода трехмерных моделей из визуальных данных. В этих статьях к ним присоединились еще четыре исследователя Массачусетского технологического университета, и Уильям Фриман, профессор компьютерных электротехники и наук Перкинса, и коллеги из DeepMind, ShanghaiTech University и Shanghai Jiao Tong University.Разделяй и властвуйСовокупность исследователей основана на влиятельных теориях нейробиолога Массачусетского технологического университета Дэвида Марра, что погиб в первой половине 80-ых годов двадцатого века в трагически молодом возрасте 35 лет.
Марр высказал предположение, что при интерпретации визуальной сцены мозг вначале формирует то, что он назвал 2,5-мерным эскизом. содержащихся в нем объектов — представление только тех поверхностей объектов, каковые обращены к наблюдателю. Затем, основываясь на 2,5-мерном эскизе, а не на необработанной визуальной информации о сцене, мозг выводит полные трехмерные формы объектов.«Обе неприятности очень сложны, но имеется хороший способ их разобраться», — говорит Ву. «Вы имеете возможность делать их по одному, исходя из этого вам не требуется будет заниматься ими обоими одновременно, что еще сложнее».
Совокупность Ву и его работников необходимо научить на данных, каковые включают как визуальные изображения, так и трехмерные модели объектов, каковые они изображают. Построение верных трехмерных моделей объектов, изображенных на настоящих фотографиях, потребует чрезмерно много времени, исходя из этого первоначально исследователи обучают собственную совокупность, используя синтетические эти, в которых визуальное изображение создается из трехмерной модели, а не наоборот. Процесс создания данных похож на создание компьютерного анимационного фильма.Но по окончании обучения совокупности на синтетических данных ее вероятно настроить с применением настоящих данных.
Это потому, что его конечным критерием производительности имеется точность, с которой он восстанавливает входные эти. Он все еще строит трехмерные модели, но их не нужно сравнивать с моделями, созданными человеком, для оценки производительности.При оценке собственной совокупности исследователи использовали меру, именуемую пересечением, а не объединением, которое обширно распространено в данной области. По этому показателю их совокупность превосходит собственных предшественников.
Но эта оценка пересечения по объединению оставляет много места для локальных вариаций и формы гладкости трехмерной модели. Исходя из этого Ву и его коллеги также совершили качественное изучение верности моделей исходным изображениям. 74% участников изучения предпочли реконструкцию новой совокупности реконструкциям ее предшественников.Все это падение
В второй статье Ву и Тененбаума, в которой к ним снова присоединились Фриман и исследователи из Массачусетского технологического университета, Кембриджского университета и Шанхайского технологического университета, они обучают совокупность для анализа аудиозаписей падающего объекта, чтобы вывести такие свойства, как форма объекта, его состав и высота, с которой он упал. Опять же, совокупность научена создавать абстрактное представление объекта, которое, со своей стороны, она использует для синтеза звука, издаваемого объектом при падении с определенной высоты.
О производительности совокупности делают выводы по сходству синтезированного звука и исходного звука.Наконец, в собственной четвертой статье Ву, Тененбаум, Фриман и его коллеги из DeepMind и Оксфордского университета обрисовывают совокупность, которая начинает моделировать интуитивное познание людьми физических сил, действующих на объекты в мире. Эта статья продолжает работу с того места, где заканчиваются прошлые: предполагается, что совокупность уже вычислила трехмерные формы объектов.Эти формы несложны: шары и кубики.
Исследователи обучили собственную совокупность выполнению двух задач. Первый — это оценка скорости движущихся по бильярдному столу шаров и на данной базе прогнозирование их поведения по окончании столкновения. Второй — проанализировать статическое изображение сложенных кубиков и узнать, упадут ли они, и если да, то где кубики приземлятся.
Ву создал репрезентативный язык, что он именует XML сцены, что может количественно характеризовать относительное положение объектов в визуальной сцене. Совокупность вначале обучается обрисовывать входные эти на этом языке. Затем он передает это описание так именуемому физическому движку, что моделирует физические силы, действующие на представленные объекты. Физические движки являются базой как компьютерной анимации, где они генерируют перемещение одежды, падающих объектов и т. Д., Так и научных вычислений, где они употребляются для крупномасштабного физического моделирования.
По окончании того, как физический движок предсказал перемещения коробок и шаров, эта информация подается в графический движок, результат которого снова сравнивается с исходными изображениями. Как и при с работой по визуальному различению, исследователи тренируют собственную совокупность на синтетических данных, перед тем как улучшать ее при помощи настоящих данных.В тестах совокупность исследователей снова превзошла собственных предшественников.
Фактически, в некоторых тестах с бильярдными шарами он также частенько превосходил людей-наблюдателей.
