Исследователи Twitter предлагают понять, почему победил Трамп

«Мы хотели понять, как развивалась каждая кампания кандидата, и уметь объяснить, почему кто-то выиграл или проиграл», — говорит Луо, доцент кафедры информатики.Луо и Ван, кандидат политических наук и доктор компьютерных наук, обобщили свои выводы в восьми статьях в ходе кампании, включая следующие наблюдения:Чем больше твитнул Дональд Трамп, тем быстрее росли его последователи — даже после того, как он плохо выступил в дебатах против других республиканских кандидатов, и даже после того, как он вызвал споры, такие как предложение запретить мусульманскую иммиграцию. (Прочтите статью на https://arxiv.org/abs/1603.08174)Когда Трамп обвинил Хиллари Клинтон в разыгрывании «женской карты», женщины с большей вероятностью последовали за Клинтон и с меньшей вероятностью «отказались» от нее в течение следующей недели.

Но это не повлияло на гендерный состав последователей Трампа. (Прочтите статью по адресу https://arxiv.org/abs/1605.05401)Более того, «эффект гендерной близости», наблюдаемый на других выборах — женщины, как правило, голосуют за женщин, — похоже, не сработал на Клинтон, когда праймериз подошли к концу. Процент женщин-подписчиков в Твиттере в лагере Клинтон был не больше, чем в лагере Трампа.

Более того, хотя «непоследователи» чаще были женщинами для обоих кандидатов, это явление было «особенно ярко выражено» для Клинтон. (Прочтите статью по адресу https://arxiv.org/abs/1604.07103)В то же время несколько опросов, в том числе ABC / Washington Post и CBS / New York Times, показали, что некоторые сторонники Берни Сандерса могут «покинуть колонну демократов и в конечном итоге проголосовать за Трампа, если Сандерс выйдет из нее».

Ло и Ван нашли подтверждающие доказательства, согласно которым число последователей Берни Сандерса, которые также следовали за Трампом, увеличивалось, но число последователей Клинтона сокращалось. Двойные последователи Сандерса / Трампа также непропорционально (до 64 процентов) были мужчинами. (Прочтите статью по адресу https://arxiv.org/abs/1605.09473)

«В конце концов, даже несмотря на то, что мы предпочли не делать никаких прогнозов, мы совсем не были удивлены победой Дональда Трампа», — говорит Луо.Почему Twitter?

Использование Бараком Обамой социальных сетей в президентской гонке 2008 года помогло превратить Twitter и другие социальные сети в мощные инструменты для кандидатов, позволяющих быстро достигать и получать обратную связь от большого числа потенциальных избирателей и атаковать своих оппонентов.С тех пор растет интерес к научным исследованиям, в которых наука о данных используется для анализа выборов на основе сообщений в социальных сетях.

Twitter, в частности, является богатым источником данных, потому что миллионы твитов, публикуемых его участниками каждый день, легко доступны с помощью интерфейса прикладного программирования.Ключевым моментом для Ло, Ванга и их коллег было собрать как можно больше этих данных, начиная с самого начала кампании, а затем «добыть» их новаторскими способами.

Пол кандидатов, подписчиков в Твиттере в апреле 2016 г., составлено Ван и Луо.«Сама природа этих данных состоит в том, что они исчезнут завтра, поэтому нам пришлось начать сбор их с самого начала и разработать структуру исследования, чтобы мы могли продолжать сбор данных все время», — сказал Ван.

С сентября 2015 года по октябрь 2016 года команда начала собирать огромный набор данных, который включал:Количество подписчиков в Твиттере каждого из основных кандидатов в изначально переполненном поле обновляется каждые 10 минут.

8 миллионов твитов от последователей Клинтона и Трампа.1 миллион изображений фолловеров кандидатов в Twitter.5 миллионов идентификаторов Twitter, включая всех подписчиков кандидатов, по состоянию на начало апреля 2016 года.

Используя передовые инструменты компьютерного зрения, исследователи обучили искусственную нейронную сеть (так называемую сверточную нейронную сеть) определять — с точностью 90 или более процентов — возраст, пол и расу подписчиков кандидатов по их фотографиям в Twitter. Это помогло исследователям проанализировать роль каждого из этих факторов в кампании, поскольку они отслеживали изменения в числе подписчиков каждого кандидата до и после дебатов, например, и то, как подписчики реагировали на собственные твиты кандидатов.У майнинга Twitter есть свои ограничения по сравнению с ответами, полученными при традиционном телефонном опросе. Например, нет возможности задать уточняющие вопросы, а твиты сложно разместить географически, что ограничивает их применение для изучения тенденций в колебательных состояниях. (Даже твиты с геотегами могут быть отправлены, когда отправитель находится в отпуске или участвует в митинге в другом штате.)

Но у Twitter-майнинга есть свои преимущества: исследователи могут быстро, непрерывно и недорого производить выборку данных в масштабе, намного превышающем 1000 или около того ответов, которые социологам все труднее собирать с помощью традиционных методов. Например, в одном исследовании Ло и Ван смогли охарактеризовать 322 116 последователей Трампа или Клинтона, которые впоследствии перестали следовать за ними.

«Это широко применимый подход, — говорит Луо. «Если вы хотите проверить реакцию общественности на следующее поколение iPhone или новую модель автомобиля, вы можете использовать тот же подход, чтобы узнать, что нравится или не нравится потребителям. Это позволяет нам отслеживать миллионы людей и получать достоверные данные об их предпочтениях ".