Суперкомпьютерная эволюция модельного цветка

Исследование компьютерной биологии цветущего горчичного сорняка Arabidopsis thaliana было опубликовано в журнале Molecular Biology Evolution в сентябре 2014 года. В исследовании участвовали iPlant Collaborative и суперкомпьютеры Stampede, Lonestar и Ranger из Техасского центра передовых вычислений. Финансирование исследования поступило от Национального научного фонда (NSF) и Министерства сельского хозяйства США.«Мы нашли довольно убедительные доказательства, безусловно, лучшее доказательство на сегодняшний день, что эволюция экспрессии генов является важным способом адаптации популяций растений к местным условиям», — сказал соавтор исследования Джесси Ласки, научный сотрудник Института Земли Колумбийского университета.

Томас Юенгер — еще один соавтор и преподаватель кафедры интегративной биологии Техасского университета в Остине. Juenger Lab изучает Arabidopsis thaliana более десяти лет. «Это одно из модельных растений, которые изучают биологи», — сказал Юнгер. У арабидопсиса один из самых маленьких геномов среди всех растений, и в 2000 году это был первый геном растения, который был полностью секвенирован.

Биологи растений считают арабидопсис плодовой мушкой своих генетических исследований. Но вместо того, чтобы уничтожать или усиливать гены с помощью генной инженерии, Юнгер изучает естественные вариации генов. «Мы хотим понять, как они эволюционировали в ответ на процессы естественного отбора, потока генов и мутаций в полевых условиях», — сказал он.На сегодняшний день растения поставили ученых в тупик в понимании того, как жизнь адаптируется к климату, в частности, деталей экспрессии генов, которые могут сильно варьироваться у таких выносливых видов растений, как арабидопсис, которые процветают в таких разнообразных средах, как Скандинавия, Северная Африка и Центральная Азия.

Гены, или фрагменты четырехбуквенной молекулы ДНК, несут не только код, для которого белки обеспечивают ее выживание, но и инструкции о том, сколько их сделать или экспрессировать. Экспрессия генов. «… это часть организма, которая, как мы показываем, активно участвует в локальной адаптации к окружающей среде», — сказал Ласки.Поскольку растения укоренены, они должны противостоять перепадам температуры, влажности почвы и нападениям насекомых, и это лишь некоторые из них.

Юнгер объяснил, что один из способов справиться с изменением окружающей среды — это изменить экспрессию своих генов.«Когда растение начинает ощущать снижение температуры, каскад экспрессии генов может позволить растению акклиматизироваться к холоду и, по сути, подготовиться к приближающимся морозным условиям», — сказал Юнгер. Поэтому его научная группа использовала предыдущие лабораторные работы, в ходе которых сеянцы арабидопсиса подвергались искусственному стрессу от холода и засухи, чтобы измерить изменения в экспрессии генов по всему геному.

Юнгер описал проблему поиска нужного гена как иголку в стоге сена. Относительно крошечный геном арабидопсиса все еще содержит более 25 000 генов.

Игла, которую искала команда Юнгера, была так называемым полиморфизмом SNP, разницей в одну букву в более чем 100 миллионах пар оснований ДНК, составляющих гены арабидопсиса. «Это фундаментальная проблема биологии», — сказал Юнгер. «Мы просматриваем десятки тысяч генов, чтобы найти нужные, те немногие, которые действительно могут иметь значение».Ученые взяли найденные ими гены и сравнили их с геномными данными из предыдущих исследований, в которых были взяты образцы арабидопсиса из популяций по всей Европе и Азии. Они сузили эти справочные данные до 1003 штаммов цветущих сорняков горчицы. Из тех генов, которые показали изменения в их реакции на окружающую среду, ученым нужно было знать, обнаруживают ли они также изменения в ДНК в зависимости от градиентов окружающей среды.

Такая картина «предполагает, что есть изменения в последовательности ДНК, адаптированные к этим местным условиям и связанные с изменениями в экспрессии генов», — сказал Ласки.Исследовательская группа статистически проверила связь между климатом и полиморфизмом SNP, сделав гипотезу нулевой или предположив отсутствие связи. Они сделали это, перетасовывая данные и выполняя перестановочное тестирование. «Мы можем рандомизировать климатические вариации по отношению к вариациям полиморфизма SNP и делать это тысячи и тысячи раз и спрашивать, какую статистику теста мы можем наблюдать случайно», — сказал Юенгер. «Мы можем сравнить это с нашими реальными эмпирическими данными».

Вычислительные задачи были устрашающими, включая тысячи отдельных штаммов Arabidopsis с сотнями тысяч маркеров в геноме и тестирование дюжины переменных окружающей среды. «Это невозможно сделать на стандартном настольном компьютере, и это требует некоторой пропускной способности, которую мы можем иметь в кластере, таком как Stampede или Lonestar», — сказал Юенгер. «Вычислительное время на кластерах в TACC позволило нам оценить гипотезу, сгенерированную на основе данных SNP».Ласки добавил, что «для прогона этих моделей по геному у вас быстро заканчивается время. На самом деле это просто проблема, когда вы делаете множество мелочей много-много раз. ядра в кластере.

Это была проблема ».«До этого у меня не было опыта работы с высокопроизводительными вычислениями», — признался Ласки.Ласки обратился к Вэйцзя Сюй, руководителю группы по интеллектуальному анализу данных и статистике в TACC. «Он помог мне сориентироваться в том, какая у меня проблема и как ее масштабировать, чтобы запустить ее на некоторых кластерах», — сказал Ласки.

Сюй также помог, написав параметрическую программу запуска заданий, которая позволила Ласки легче запускать отдельные прогоны по геному.«Это был код, который я разработал для параллельного запуска нескольких заданий R с использованием интерфейса MPI», — сказал Сюй о программе запуска. Ученые обычно используют язык статистического программирования R; а MPI — это сокращение от интерфейса передачи сообщений, который представляет собой программную библиотеку, которая разделяет большие вычислительные задания на более мелкие для параллельного выполнения на узлах кластера.

IPlant Collaborative, финансируемый NSF, помогает ученым-биологам использовать высокопроизводительные компьютеры. Юенгер отметил, что «iPlant, связанный с TACC, безусловно, разрабатывает множество новых инструментов, упрощающих вычислительные инструменты для биологов и предоставляющих нам доступ к хранилищу данных, а также к сервисным единицам через высокопроизводительные вычислительные кластеры, подобные тем, что находятся в TACC. Это полезно , своевременная программа, которая затрагивает биологов растений в отдельных лабораториях по всей стране ".

Ласки отмечает, что, хотя результаты эксперимента с арабидопсисом многообещающие, необходимы дополнительные подтверждения. «У нас есть экспериментальная работа, но мы не показали экспериментально, что гены, которые мы идентифицировали, вызывают локальные адаптации».


Портал обо всем