Вопрос в том, что статистики именуют «неточностью множественных предположений». Неприятность, по сути, в следующем: чем больше вопросов кто-то задает о наборе данных, тем больше возможность, что он наткнется на что-то, что выглядит как настоящее открытие, но в конечном итоге имеется легко случайным изменением набора данных.Команда исследователей из Университета Брауна трудится над программным обеспечением, которое окажет помощь бороться с данной проблемой.
На этой неделе на конференции SIGMOD2017 в Чикаго они представили новую совокупность именующиеся QUDE, которая додаёт статистические обеспечения в настоящем времени к интерактивным совокупностям изучения данных, чтобы оказать помощь уменьшить количество фальшивых открытий.«Все больше людей используют ПО для изучения данных, такое как Tableau и Spark, но большинство из этих пользователей не являются экспертами в статистике или машинном обучении», — сказал Тим Краска, доцент кафедры информатики в Brown и соавтор изучить. «Вы имеете возможность совершить множество статистических неточностей, исходя из этого мы разрабатываем методы, каковые оказывают помощь людям их избегать».
Неточность проверки множественных предположений — замечательно узнаваемая проблема в статистике. По словам Краски, в эру огромных данных и интерактивного изучения данных неприятность приобрела новое значение.«Эти инструменты разрешают легко запрашивать эти», — сказал он. «Вы имеете возможность легко проверить 100 предположений за час, используя эти инструменты визуализации.
Без исправления неточностей множественных предположений большие шансы, что вы столкнетесь с совсем фальшивой корреляцией».Существуют замечательно узнаваемые статистические методы ответа данной проблеме.
Большинство этих способов включают корректировку уровня статистической значимости, нужного для проверки конкретной предположения, в зависимости от того, сколько предположений было установлено в целом. По мере увеличения числа опробований предположений уровень значимости, необходимый дабы вычислять вывод настоящим, также возрастает.Но эти методы коррекции фактически все корректируют постфактум.
Это инструменты, каковые употребляются в конце исследовательского проекта по окончании завершения проверки всех предположений, что не идеально для интерактивного изучения данных в настоящем времени.«Мы не хотим ожидать финиша сеанса, чтобы сообщить людям, верны ли их результаты», — сказал Эли Упфал, профессор компьютерных наук в Brown и соавтор изучения. «Мы также не хотим, чтобы совокупность целиком и полностью изменилась, информируя вам в какой-то момент сеанса, что что-то очень важно, только дабы сказать вам позднее — по окончании того, как вы удостоверились в надежности больше предположений, — что ваш ранний результат не имеет значения. больше."
Оба этих сценария возможны с применением самый распространенных способов коррекции множественных предположений. Исходя из этого исследователи создали второй метод для этого проекта, что разрешает им отслеживать риск фальшивого открытия, пока продолжаются проверки предположений.«Идея пребывает в том, что у вас имеется бюджет, в котором вы имеете возможность принять на себя риск фальшивого обнаружения, и мы обновляем этот бюджет в настоящем времени, в то время, в то время, когда пользователь взаимодействует с данными», — сказал Упфаль. «Мы также принимаем во внимание способы, которыми пользователь может изучить эти. Осознавая последовательность их вопросов, мы можем приспособить отечественный способ и поменять способ распределения бюджета».
Для пользователей опыт подобен применению любого ПО для визуализации данных, только с обратной связью с цветовой кодировкой, которая дает информацию о статистической значимости.«Зеленый цвет свидетельствует, что визуализация представляет собой важное открытие», — сказал Краска. «Если он красный, это показывает, что нужно быть осмотрительным; это шаткая статистическая база».По словам исследователей, совокупность не может снабжать полную точность. Никакая совокупность не может.
Но в серии пользовательских тестов с применением синтетических данных, для которых была подтверждена настоящая и фиктивная корреляция, исследователи показали, что совокупность в самом деле сократила количество фальшивых открытий, сделанных пользователями.Исследователи вычисляют эту работу шагом к системе и визуализации изучения данных, которая целиком и полностью интегрирует набор статистических средств защиты.«Отечественная цель — сделать науку о данных более недорогой для более широкого круга пользователей», — сказал Краска. «Решение проблемы множественных предположений будет важным, но сделать это также очень сложно.
Мы рассматриваем этот документ как хороший первый движение».
