Два метода деидентификации больших наборов данных пациентов значительно снижают риск повторной идентификации

"Исследователи как правило покупают доступ к обезличенным данным, вторыми словами к данным без какой-либо личной идентифицирующей информации, такой как имена, адреса и номера социального страхования. Но этого вероятно не достаточно для защиты конфиденциальности лиц, участвующих в изучении. , — сказал Урсин.

Урсин заявил, что наборы данных больных частенько содержат тайные эти, такие как информация о здоровье человека и диагнозе заболевания, которую человек может не захотеть делиться публично, и хранители данных несут ответственность за защиту такой информации. «Люди, у которых имеется разрешение на доступ к таким наборам данных, должны делать законы и этические принципы, но неизменно имеется опасения, что эти смогут попасть в чужие руки и быть использованы не по назначению», — добавила она. «Как хранитель данных, это мое самое страшное кошмар».Чтобы проверить силу собственной техники деидентификации, Урсин и его сотрудники использовали эти скрининга, каковые содержат 5 693 582 записей от 911 510 дам, участвовавших в Норвежской программе скрининга рака шейки матки.

Эти включали даты рождения пациентов и даты скрининга шейки матки, результаты, заглавия лабораторий, в которых проводились тесты, последующие заключения рака, если таковые были, и дату смерти, если они погибли.Исследователи использовали инструмент именующиеся ARX для оценки риска повторной идентификации, обращаясь к набору данных с применением «сценария обвинения», в котором инструмент предполагает, что преступник знает, что некоторые сведенья о человеке находятся в наборе данных. Атака считается успешной, если большая часть людей в наборе данных может быть повторно идентифицирована кем-то, кто имел доступ к некоей информации об этих людях.Команда оценила риск повторной идентификации тремя разными способами: вначале они использовали эти для реалистичного набора данных, что содержал всю вышеупомянутую информацию о больных (D1).

Затем они «k-анонимизировали» эти, поменяв все даты в записях на 15-е число месяца (D2). В-третьих, они размыли эти, добавив случайный коэффициент от -4 до +4 месяцев (не считая нуля) к каждому месяцу в наборе данных (D3).Способом добавления нечеткого фактора в записи каждого больного вероятно поменять месяцы рождения, обследования и других событий; но промежутки между процедурами и последовательность процедур сохраняются, что гарантирует, что набор данных равно как и прежде вероятно будет использовать в исследовательских целях.

«Мы осознали, что изменение дат с применением стандартной процедуры k-анонимизации скоро снизило шансы на повторную идентификацию большинства людей в наборе данных», — отметил Урсин.В D1 средний риск установления личности прокурором составил 97,1%.

Более 94 процентов историй заболевания были неповторимыми, и исходя из этого эти больные подвергались риску повторной идентификации. В D2 средний риск установления личности прокурором снизился до 9,7%; но 6 процентов записей все еще были неповторимыми и подвергались риску повторной идентификации. Добавление нечеткого фактора в D3 не снизило риск повторной идентификации еще больше: средний риск того, что прокурор установит личность, составил 9,8 процента, а 6 процентов записей подвергались риску повторной идентификации.Это означало, что в D3 было столько же неповторимых записей, сколько в D2.

Но скремблирование месяцев всех записей в наборе данных способом добавления нечеткого фактора затрудняет для прокурора привязку записи из этого набора данных к записям в других наборах данных и повторную идентификацию человека, растолковал Урсин.«Любой раз, в то время, в то время, когда исследовательская пара запрашивает разрешение на доступ к набору данных, хранители данных должны задавать вопрос:« Какая информация им в самом деле нужна и какие конкретно конкретно подробности не требуются для ответа на их исследовательский вопрос », и прилагать все усилия, чтобы свернуть и нечеткие эти, чтобы обезопасисть конфиденциальности больных », — сказал Урсин.Урсин заявил, что эти больных в целом превосходно защищены, и вторичная идентификация еще не есть ответственной угрозой. "Но, учитывая недавнюю тенденцию к обмену данными и объединению наборов данных для анализа огромных данных, что имеется хорошим шагом, неизменно имеется шанс, что информация попадет в руки кого-то со злым умыслом. Так, хранители данных являются справедливо обеспокоены потенциальными проблемами в будущем и тестируют предупредительные меры ".

По словам Урсина, главным ограничением изучения имеется то, что подходы к анонимизации данных в этом изучении специфичны для используемого набора данных; такие подходы неповторимы для каждого набора данных и должны разрабатываться с учетом характера данных.