Инструмент очистки данных для создания более совершенных моделей прогнозирования: исследователи разрабатывают интерактивную систему для очистки массивных наборов данных

Это вдохновение для программного обеспечения, разработанного компьютерными учеными из Колумбийского университета и Калифорнийского университета в Беркли, которые возлагают большую часть грязной работы на машины. Система, получившая название ActiveClean, анализирует модель прогнозирования пользователя, чтобы решить, какие ошибки следует отредактировать в первую очередь, при обновлении модели по мере ее работы. С каждым проходом пользователи видят, что их модель улучшается.
«Грязные данные распространены и мешают людям делать полезные вещи», — сказал Юджин Ву, профессор информатики в Columbia Engineering и член Института науки о данных. "Это наш первый шаг к автоматизации процесса очистки данных."

Команда представит свое исследование в сентябре. 7 февраля в Нью-Дели, на конференции по очень большим базам данных 2016 г. Ву участвовал в разработке ActiveClean в качестве постдокторского исследователя в AMPLab в Беркли и продолжил эту работу в Колумбии.
Наборы больших данных по-прежнему в основном объединяются и редактируются вручную с помощью программного обеспечения для очистки данных, такого как Google Refine и Trifacta, или пользовательских сценариев, разработанных для конкретных задач очистки данных. Этот процесс отнимает до 80 процентов времени аналитиков, поскольку они ищут грязные данные, очищают их, повторно обучают свою модель и повторяют процесс.

Очистка в основном выполняется наугад.
"Поможет это модели или повредит?

Ты понятия не имеешь, — сказал Ву. "Специалисты по данным либо очищают все, что невозможно для огромных наборов данных, либо очищают случайные подмножества и надеются на лучшее."
В процессе могут быть внесены статистические ошибки, которые искажают модели и приводят к неверным результатам.

Эти ошибки могут быть обнаружены только через несколько недель, как выяснили исследователи в более раннем опросе отраслевых специалистов по данным.

«Большинство этих ошибок достаточно незаметны, чтобы их можно было проанализировать», — сказал один консультант из крупного поставщика баз данных. «Обычно это обнаруживается только через несколько недель после того, как кто-то замечает что-то вроде:« Ну, у филиала в Уилмингтоне не может быть продаж на 1 миллион долларов за неделю."
ActiveClean пытается минимизировать подобные ошибки, избавляя людей от наиболее подверженных ошибкам этапов очистки данных: поиска грязных данных и обновления модели. Используя машинное обучение, инструмент анализирует структуру модели, чтобы понять, какие ошибки больше всего сбивают ее с толку.

Сначала он идет после этих данных с понижением приоритета и очищает ровно столько данных, чтобы дать пользователям уверенность в том, что их модель будет достаточно точной.
Исследователи протестировали ActiveClean на Dollars for Docs, базу данных корпоративных пожертвований врачам, которую журналисты ProPublica собрали для анализа конфликтов интересов и выявления ненадлежащих пожертвований.
Результаты ActiveClean сравнивались с двумя базовыми методами.

Один отредактировал подмножество данных и повторно обучил модель. Другой использовал популярный алгоритм приоритизации, называемый активным обучением, который выбирает наиболее информативные метки для неоднозначных данных.

Алгоритм улучшает модель, не беспокоясь, как это делает ActiveClean, о том, точны ли метки.
Почти четверть из 240 000 записей ProPublica содержала несколько названий лекарств или компаний.

Если не устранить эти несоответствия, журналисты могут занижать объем пожертвований крупных компаний, которые с большей вероятностью будут иметь такие несоответствия.
Без очистки данных модель, обученная на этом наборе данных, могла предсказать неправильное пожертвование только в 66% случаев.

Они обнаружили, что ActiveClean повысил уровень обнаружения до 90 процентов, очистив всего 5000 записей. Активный метод обучения, напротив, требовал в 10 раз больше данных или 50000 записей, чтобы достичь сопоставимого уровня обнаружения.
«По мере того, как наборы данных становятся больше и сложнее, их становится все труднее и труднее очищать», — сказал соавтор исследования Санджай Кришнан, аспирант Калифорнийского университета в Беркли. «ActiveClean использует методы машинного обучения, чтобы упростить очистку данных, гарантируя, что вы не выстрелите себе в ногу."

ActiveClean — это бесплатный инструмент с открытым исходным кодом, выпущенный в августе. Загрузите его здесь: http: // www.CS.Колумбия.edu / ~ ewu / чистка.html

Портал обо всем