Смена правил игры: метагеномная кластеризация на базе суперкомпьютеров: алгоритм позволяет биологам использовать возможности суперкомпьютеров с массовым параллелизмом, чтобы разобраться в геномном «потоке данных»

В биологии подобные способы кластеризации графов вероятно использовать для понимания белков, каковые делают большинство жизненных функций. Подсчитано, что одно человеческое тело содержит около 100 000 различных типов белков, и фактически все биологические задачи — от пищеварения до иммунитета — выполняются, в то время, в то время, когда эти микробы взаимодействуют между собой. Лучшее познание этих сетей может оказать помощь исследователям узнать эффективность лекарства или узнать потенциальные методы лечения различных заболеваний.на данный момент передовые высокопроизводительные разработки разрешают исследователям захватывать большое количество миллионов белков, генов и других клеточных компонентов одновременно и в различных условиях окружающей среды.

Затем к этим наборам данных употребляются способы кластеризации для выявления и взаимосвязей закономерностей, каковые смогут показывать на структурное и функциональное сходство. Без оглядки на то, что эти методы широко используются уже более десяти лет, они не смогут угнаться за потоком биологических данных, генерируемых секвенсорами и микрочипами нового поколения. Фактически, очень немногие существующие способы смогут кластеризовать биологическую сеть, содержащую миллионы узлов (белков) и ребер (соединений).Вот почему пара исследователей из Национальной лаборатории Лоуренса Беркли Министерства энергетики (DOE) (Berkeley Lab) и Объединенного университета генома (JGI) применила один из самых популярных подходов к кластеризации в современной биологии — способ кластеризации Маркова (MCL) — — и модифицировал его для стремительной, действенной и громадной работы на суперкомпьютерах с распределенной памятью.

В тестовом случае их высокопроизводительный способ, названный HipMCL, достиг ранее неосуществимого подвига: кластеризовать громадную биологическую сеть, содержащую около 70 миллионов узлов и 68 миллиардов рёбер, за пара часов, используя примерно 140000 процессорных ядер на National Суперкомпьютер Cori Научно-вычислительного центра энергетических изучений (NERSC). Статья с описанием данной работы была относительно недавно размещена в издании Nucleic Acids Research.

«Настоящее преимущество HipMCL содержится в его способности кластеризовать массивные биологические сети, каковые невозможно было объединить с существующим программным обеспечением MCL, что разрешает нам идентифицировать и охарактеризовать новое функциональное пространство, присутствующее в микробных сообществах», — говорит Никос Кирпидес, возглавляющий JGI. Упрочнения Microbiome Data Science и Prokaryote Super Program, и он имеется соавтором статьи. «Более того, мы можем сделать это, не жертвуя чувствительностью или точностью исходного метода, что всегда является самой огромной проблемой в подобных упрочнениях по масштабированию».«По мере роста количества данных делается все более настоятельной необходимость переносить отечественные инструменты в высокопроизводительные вычислительные среды», — додаёт он. «Если бы вы задали вопрос меня, насколько велико пространство белков? В конечном итоге мы не знаем, по обстоятельству того, что до сих пор у нас не было вычислительных инструментов, чтобы действенно кластеризовать все отечественные геномные эти и изучить функциональную тёмную материю. "Не считая достижений в технологии сбора данных, исследователи все чаще предпочитают делиться собственными данными в базах данных сообщества, таких как Integrated Microbial Genomes.

Совокупность микробиомов (IMG / M), которая была создана в следствии продолжительного сотрудничества между учеными JGI и Отделом вычислительных изучений (CRD) лаборатории Беркли. Но разрешая пользователям проводить сравнительный анализ и изучать функциональные возможности микробных сообществ на базе их метагеномной последовательности, инструменты сообщества, такие как IMG / M, также содействуют взрывному росту данных в разработках.Как случайные блуждания приводят к происхождению узких мест в вычисленияхЧтобы получить контроль над этим потоком данных, исследователи сохраняют надежду на кластерный анализ или кластеризацию.

По сути, это задача группировки объектов так, чтобы элементы в одной группе (кластере) были более похожи, чем элементы в других кластерах. Более десяти лет компьютерные биологи отдают предпочтение MCL для кластеризации белков по сходству и взаимодействиям.

«Одна из событий того, что MCL стал популярным среди вычислительных биологов, содержится в том, что он достаточно не содержит параметров; пользователям не нужно устанавливать тонну параметров, для получения правильных результатов, и он страно устойчив к мелким изменениям в данных. очень важно, по обстоятельству того, что вам, возможно, необходимо будет переопределить сходство между точками данных или вам, возможно, необходимо будет исправить мелкую неточность измерения в ваших данных. В этих событиях вы не хотите, чтобы ваши изменения поменяли анализ с 10 кластеров на 1000 кластеров ", говорит Айдын Булюк, ученый CRD и один из соавторов статьи.Но, додаёт он, сообщество вычислительной биологии сталкивается с вычислительным узким местом, по обстоятельству того, что инструмент в основном трудится на одном компьютерном узле, требует больших вычислительных ресурсов и требует огромного количества памяти — все это ограничивает количество данных, каковые этот способ может кластеризовать. .Один из этапов этого анализа, что требует памяти и громаднейшего количества вычислений, — это процесс, именуемый случайным блужданием.

Этот метод разрешает количественно оценить силу соединения между узлами, что полезно для классификации и прогнозирования связей в сети. При поиска в сети это может оказать помощь вам найти недорогой номер в отеле в Сан-Франциско на весенние каникулы и дать совет вам, в то время, в то время, когда лучше его забронировать. В биологии такой инструмент может оказать помощь вам узнать белки, каковые оказывают помощь вашему организму бороться с вирусом гриппа.

Для произвольного графа или сети не легко узнать самый действенный способ визита всех узлов и ссылок. Случайное блуждание дает представление о следе, случайным образом исследуя целый граф; он начинается с узла и произвольно перемещается по ребру к соседнему узлу. Этот процесс продолжается до тех пор, пока не будут достигнуты все узлы сети графа. Вследствие того что существует много разных способов перемещения между узлами в сети, этот движение повторяется много раз.

Способы, подобные MCL, будут делать этот процесс случайного блуждания до тех пор, пока не провалится через почву громадная отличие между итерациями.В любой данной сети у вас вероятно узел, что подключен к сотням узлов, и второй узел только с одним подключением. Случайные обходы будут захватывать узлы с высокой степенью связи, по обстоятельству того, что любой раз при запуске процесса будет обнаруживаться второй путь.

Обладая данной информацией, способ может с определенной степенью уверенности предугадать, как узел в сети связан с другим. Между каждым запуском случайного блуждания способ отмечает личный предсказание для каждого узла на графике в столбце матрицы Маркова — что-то наподобие бухгалтерской книги — и в конце отображаются конечные кластеры.

Это звучит достаточно легко, но для протеиновых сетей с миллионами узлов и миллиардами рёбер это может стать проблемой, требующей весьма большого объёма и памяти вычислений. В HipMCL ученые-компьютерщики Berkeley Lab использовали передовые математические инструменты для преодоления этих ограничений.«Мы особенно сохранили магистраль MCL, сделав HipMCL массовой параллельной реализацией исходного способа MCL», — говорит Арифул Азад, компьютерный ученый из CRD и ведущий создатель статьи.Без оглядки на то, что ранее предпринимались попытки распараллелить способ MCL для работы на одном графическом процессоре, инструмент все еще имел возможность кластеризовать только относительно небольшие сети из-за ограничений памяти на графическом процессоре, отмечает Азад.

«При помощи HipMCL мы существенно переработали способы MCL, чтобы они трудились действенно, параллельно на тысячах процессоров, и настроили его на использование совокупной памяти, недорогой на всех вычислительных узлах», — додаёт он. «Беспрецедентная масштабируемость HipMCL проистекает из применения современных способов для обработки разреженных матриц».По словам Булука, одновременное выполнение случайного блуждания из многих узлов графа оптимальнее рассчитывать при помощи умножения разреженных матриц, которое имеется одной из самых основных операций в относительно недавно выпущенном стандарте GraphBLAS. Булук и Азад создали кое-какие из самый масштабируемых параллельных способов умножения разреженных матриц GraphBLAS и модифицировали один из собственных современных способов для HipMCL.

«Сущность тут заключалась в том, чтобы найти верный баланс между параллелизмом и потреблением памяти. HipMCL динамически извлекает как вероятно больше параллелизма с учетом выделенной ему недорогой памяти», — говорит Булук.HipMCL: кластеризация в масштабе

Не считая математических инноваций, еще одним преимуществом HipMCL имеется его свойство вольно трудиться в любой совокупности, включая ноутбуки, рабочие станции и большие суперкомпьютеры. Исследователи достигли этого, создав личные инструменты на C ++ и используя стандартные библиотеки MPI и OpenMP.«Мы шепетильно протестировали HipMCL на процессорах Intel Haswell, Ivy Bridge и Knights Landing в NERSC, используя до 2000 узлов и полмиллиона потоков на всех процессорах, и во всех этих запусках HipMCL удачно кластеризовал сети, каковые содержат от тысяч до миллиардов ребер, "- говорит Булук. «Мы видим, что нет никакого барьера числом процессоров, каковые он может использовать для работы, и обнаруживаем, что он может кластеризовать сети в 1000 раз стремительнее, чем исходный способ MCL».

«HipMCL будет в самом деле трансформирующим для вычислительной биологии огромных данных, совсем правильно так же, как совокупности IMG и IMG / M были для геномики микробиома», — говорит Кирпидес. «Это достижение имеется свидетельством преимуществ междисциплинарного сотрудничества в лаборатории Беркли. Как биологи мы понимаем науку, но возможность сотрудничества с учеными-компьютерщиками, которая может оказать помощь нам преодолеть отечественные ограничения и продвинуть нас вперед, была бесценной».Их следующий движение — продолжить переработку HipMCL и других инструментов вычислительной биологии для будущих экзадачных совокупностей, каковые смогут делать квинтиллионы вычислений в секунду. Это будет иметь важное значение, вследствие того что эти по геномике возрастают с ошеломляющей скоростью — удваиваясь примерно каждые пять-шесть месяцев.

Это будет сделано в рамках центра совместного проектирования Exagraph на протяжении проекта DOE Exascale Computing Project.

6 комментариев к “Смена правил игры: метагеномная кластеризация на базе суперкомпьютеров: алгоритм позволяет биологам использовать возможности суперкомпьютеров с массовым параллелизмом, чтобы разобраться в геномном «потоке данных»”

  1. Засцяли падлы ! Погань думала что в сказку попала творить беззаконие при помощи закона не выйдет придется рассчитываться

  2. не расстраивайся, Юра. у тебя есть диванная армия порохоботов на цензоре.

  3. Кабаева Ольга

    и правильно, оно только называется антивирус а на самом деле шпионское по

  4. Кожевин Виталий

    Никогда не видела, чтобы так быстро переобувались после очередного бана. Ниче, дай Бог, не последний. ) Всё, пошла общаться с людьми, бувай, какцап, работай, не ленись.)))

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *