Система может позволить тысячам исследователей участвовать в проектах анализа данных: веб-система автоматически оценивает предложения от удаленных специалистов по данным.

Исследователи Массачусетского технологического университета создали новый инструмент для совместной работы, названный FeatureHub, призванный сделать идентификацию функций более действенной и действенной. С FeatureHub специалисты по данным и эксперты по определенным темам смогут войти на центральный сайт и израсходовать час или два на рассмотрение проблемы и предложение функций. Затем ПО осуществляет контроль бесчисленное количество комбинаций функций с целевыми данными, чтобы узнать, какие конкретно конкретно из них самый необходимы для данной прогнозной задачи.в течении тестов исследователи наняли 32 аналитика с опытом работы в области науки о данных, каковые совершили по пять часов с совокупностью, ознакомились с ней и использовали ее, чтобы предложить функции-кандидаты для каждой из двух задач науки о данных.

Прогностические модели, созданные совокупностью, были протестированы против моделей, представленных на соревнование по науке о данных именующиеся Kaggle. Записи Kaggle были оценены по 100-балльной шкале, а модели FeatureHub были в пределах трех и пяти баллов от победивших записей по двум задачам.Но в том месте, где записи, забравшие огромнейшее количество баллов, были результатом недель или помимо этого месяцев работы, записи FeatureHub были созданы за считанные дни. И без оглядки на то, что 32 сотрудника в одном проекте по обработке и анализу данных — это много по сегодняшним меркам, Мика Смит, аспирант Массачусетского технологического университета в области электротехники и информатики, что помогал руководить проектом, имеет гораздо большие амбиции.

FeatureHub — как и его наименование — был вдохновлен GitHub, онлайн-репозиторием программных проектов с открытым исходным кодом, кое-какие из которых привлекли тысячи участников. Смит сохраняет веру, что FeatureHub когда-нибудь достигнет чтобы же масштаба.«Я в самом деле надеюсь, что мы сможем оказать помощь тысячам людей трудиться над единым ответом для прогнозирования, где ДТП самый вероятны в Нью-Йорке, или для прогнозирования того, каким больным в поликлинике, возможнее, потребуется медицинское вмешательство», — говорит он. . «Я пологаю, что концепция массовых и открытых данных может быть в самом деле использована в регионах, где имеется сильное социальное воздействие, но не обязательно единственная коммерческая или правительственная структура, координирующая ответные шаги».

его коллеги и Смит представили документ с описанием FeatureHub на Интернациональной конференции IEEE по науке о данных и продвинутой аналитике. Его соавторами в работе являются его научный руководитель, Калян Веерамачанени, главный Лаборатории информации систем и научный сотрудник принятия ответов Массачусетского технологического университета, и Рой Ведж, что начал работату с группой Вирамачанени еще в течении учебы в Массачусетском технологическом университете, а сейчас трудится инженером-программистом в Feature Labs. компания по обработке данных, основанная на работе группы.

Интерфейс пользователя FeatureHub выстроен на базе стандартного пакета ПО для анализа данных, что именуется Jupyter Notebook, а оценка наборов функций выполняется стандартными пакетами ПО для машинного обучения. Функции должны быть написаны на языке программирования Python, но их дизайн обязан соответствовать шаблону, что намеренно сохраняет несложной синтаксис. Простая функция может "упорно попросить" от пяти до 10 строк кода.Исследователи из Массачусетского технологического университета написали код, что имеется посредником между вторыми программными пакетами и командует данными, объединяя функции, представленные множеством разных пользователей, и отслеживая те наборы функций, каковые оптимальнее подходят для конкретных задач анализа данных.

В прошлом пара Веерамачанени разрабатывала ПО, которое машинально генерирует функции, выявляя связи между данными по их способу организации. Но, в то время, в то время, когда эта организационная информация отсутствует, подход делается менее действенным.Но, в соответствии с точки зрения Смита, непроизвольный синтез функций вероятно использовать в сочетании с FeatureHub, чтобы запускать проекты перед тем, как добровольцы начнут вносить в них личный вклад, избавляя от тяжелой работы по перечислению очевидных функций и расширяя самые действенные наборы функций, предоставленные людьми. .Найдите отчет «На пути к совместной науке о данных» на сайте http://dai.lids.mit.edu/featurehub-smith.pdf