Вышеупомянутый твит выглядит как 140 символов страдания. Но в руках Алессандро Веспиньяни из Северо-Востока и его коллег это намного больше.
Международная команда под руководством Веспиньяни разработала уникальную вычислительную модель для прогнозирования распространения сезонного гриппа в режиме реального времени. Он использует сообщения в Твиттере в сочетании с ключевыми параметрами эпидемии каждого сезона, включая инкубационный период болезни, уровень иммунизации, количество людей, инфицированных вирусом, и имеющиеся штаммы вируса.
Проверенная на соответствие официальным системам эпиднадзора за гриппом, модель показала, что она точно прогнозирует развитие болезни на шесть недель вперед — значительно раньше, чем другие модели. Это позволит агентствам общественного здравоохранения заранее планировать распределение медицинских ресурсов и запуск кампаний, которые побуждают людей принимать профилактические меры, такие как вакцинация и более частое мытье рук.«В прошлом мы ничего не знали о начальных условиях гриппа», — говорит Веспиньяни, который также является директором Института сетевых наук в Северо-Востоке. Начальные условия, которые показывают, где и когда началась эпидемия, а также степень распространения инфекции, служат стартовой площадкой для прогнозирования распространения любой болезни.
Чтобы выяснить эти условия, исследователи включили Twitter в свою модель, основанную на параметрах. «Такой интеграции никогда раньше не было», — говорит Веспиньяни. «Мы не искали количество заболевших, потому что Твиттер не сообщит вам об этом. Мы хотели знать следующее: больше ли у нас гриппа в данный момент времени в Техасе или Нью-Джерси, в Сиэтле или в Сан-Франциско? Франциско? Twitter, который включает местоположения GPS, является прокси для этого.
Глядя на то, сколько людей писали в Твиттере о своих симптомах или насколько они были несчастны из-за гриппа, мы смогли получить относительный вес в каждой из этих областей Соединенные штаты"Статья о новой модели получила желанную награду Best Paper Honorable Mention на Международной конференции World Wide Web 2017 года в прошлом месяце после ее презентации. Это была одна из четырех работ из более чем 400 представленных для отбора на награду.
Незавершенная работаРабота исследователей началась, когда Центры по контролю и профилактике заболеваний объявили в ноябре 2013 года «Прогнозирование сезона гриппа» — приглашение внешним исследователям продвигать науку прогнозирования инфекционных заболеваний. С тех пор Веспиньяни и его команда участвуют в исследовании, и в новом документе представлены их прогнозы на сезоны гриппа 2014-15 и 2015-16 годов в США, Италии и Испании.В течение этих периодов времени они еженедельно применяли прогнозирование и другие алгоритмы к ключевым параметрам, указанным в данных Twitter. «Это дало нам большое количество возможных путей развития болезни», — говорит Веспиньяни.
Затем они сопоставили полученное моделирование с данными эпиднадзора, полученными CDC, а также с клиническими и личными отчетами о гриппоподобных заболеваниях из трех стран. «Данные наблюдения говорят нам основную правду за последние четыре недели, но они всегда задерживаются примерно на одну неделю, потому что вам нужно получить отчет от врача», — говорит он. Анализируя динамику развития, выявленную в прошлых данных, они смогли выбрать модель, которая с наибольшей вероятностью предсказывала бы будущее.
Явное моделирование параметров болезни — информации о динамике самого заболевания — отличало модель Веспиньяни от других в этой задаче. Например, они могут определить неделю, когда эпидемия достигнет своего пика, и величину этого пика с точностью от 70 до 90 процентов за шесть недель до события.«Регистрируя ключевые параметры, мы могли отслеживать, насколько серьезным был грипп каждый год по сравнению с каждым другим годом, и видеть, что способствовало его распространению», — говорит первый автор Цянь Чжан, доктор философии’14, младший научный сотрудник Северо-Восточного региона. «Это то, что действительно волнует агентства общественного здравоохранения и эпидемиологов.
Мы не просто играем в игру чисел, как это делают простые статистические модели».Хотя в документе представлены результаты с использованием данных Twitter, исследователи отмечают, что модель может работать с данными из многих других цифровых источников, а также с онлайн-опросами людей, такими как influenzanet, который очень популярен в Европе.
«Наша модель находится в стадии разработки», — подчеркивает Веспиньяни. «Мы планируем добавить новые параметры, например структуру школы и рабочего места. Это не проблема в том смысле, что вы хотите победить. Это научная задача, в которой вы хотите учиться — увидеть, что нет одна модель, но набор моделей, которые расскажут нам что-то новое ».
