Обнародовано: вирусное разнообразие Земли: наборы данных об окружающей среде помогают исследователям удвоить количество микробных типов, которые, как известно, заражены вирусами

Однако изучение микробного разнообразия Земли требует больше узнать о малоизученных взаимосвязях между микробами и вирусами, которые их заражают, вирусами, которые влияют на способность микробов регулировать глобальные циклы. Хотя количество вирусов оценивается как минимум на два порядка больше, чем количество микробных клеток на планете, в настоящее время в базах данных последовательностей содержится менее 2200 секвенированных геномов ДНК-вирусов по сравнению с примерно 50 000 геномов бактерий. В исследовании, опубликованном в Интернете 17 августа 2016 года в журнале Nature, исследователи из Объединенного института генома Министерства энергетики США (DOE JGI), научного учреждения Министерства энергетики США, использовали самую большую коллекцию собранных наборов метагеномных данных со всего мира, чтобы раскрыть 125 000 частичных и полных вирусных геномов, большинство из которых инфицированы микробами. Это единственное усилие увеличивает количество известных вирусных генов в 16 раз и предоставляет исследователям уникальный ресурс информации о вирусных последовательностях.

«Это первый случай, когда кто-то систематически изучил все среды обитания и такой большой сборник данных», — сказал старший автор исследования и глава программы DoE JGI Prokaryote Super Никос Кирпидес. «Ключом к раскрытию всех этих новых вирусов был чувствительный вычислительный подход, который мы разработали в ходе этой работы».«Ключ к обнаружению новых вирусов»

Этот подход, как объяснил первый автор и научный сотрудник Дэвид Паез-Эспино, предполагал использование нецелевого метагеномного подхода, связанного как с изолированными вирусами, так и с вручную отобранными моделями вирусных белков, и на то, что он охарактеризовал как «самый большой и самый разнообразный набор данных на сегодняшний день». Команда проанализировала более 5 триллионов оснований (терабаз или Tb) последовательности, доступной в системе интегрированных микробных геномов с образцами микробиома (IMG / M) DOE JGI, собранных из 3042 образцов по всему миру из 10 различных типов среды обитания.

Их усилия по просеиванию настоящих наборов данных дали более 125 000 вирусных последовательностей, содержащих 2,79 миллиона белков.Команда сравнила вирусные последовательности с несколькими образцами в разных средах обитания. Например, одна вирусная группа, которую они идентифицировали, была обнаружена в 95 процентах всех образцов в сумеречной зоне океана — регионе, расположенном на глубине от 200 до 1000 метров ниже поверхности океана, куда проникает недостаточно солнечного света, чтобы микроорганизмы могли выполнять фотосинтез.

Путем анализа системы CRISPR-Cas — иммунного механизма бактерий, который придает устойчивость к чужеродным генетическим элементам за счет включения коротких последовательностей заражающих вирусов и фагов, — команда смогла создать базу данных из 3,5 миллионов спейсерных последовательностей в IMG. Эти спейсеры, фрагменты генетических последовательностей фага, сохраняемые хозяином, затем могут быть использованы для исследования вирусных и фаговых метагеномов на предмет того, откуда эти фрагменты могли быть первоначально взяты. Кроме того, используя в основном этот подход, команда компьютерным путем определила хост почти для 10 000 вирусов. «Большинство этих связей были ранее неизвестны и включают идентификацию организмов, служащих вирусными хозяевами из 16 прокариотических типов, для которых ранее не были идентифицированы вирусы», — сообщили они.

Маяки для белков CRISPR-CasЯн-Фанг Ченг, глава группы функциональной геномики DOE JGI, сказал, что работа, проводимая группой Кирпидеса по идентификации новых вирусных последовательностей, поможет группе синтетической биологии разработать новые промоторы, которые могут работать во многих бактериальных хозяевах. «Мы постоянно ищем регуляторные участки ДНК, которые будут работать во многих различных типах и позволят нам создавать гены и пути, которые могут экспрессироваться во многих разных хозяевах».Ченг также ожидал, что расширенное пространство вирусных последовательностей, созданное командой Кирпидеса, позволит исследователям искать другие генетические последовательности, известные как смежные мотивы прото-спейсера (PAM).

Эти последовательности лежат рядом со спейсерами в фагах и используются белками CRISPR-Cas в качестве маяков, запускающих такие действия, как редактирование или регулирование гена. «Люди ищут новые последовательности PAM и новые Cas9, и с этой новой информацией, если вы можете сопоставить последовательность спейсера с тем же фагом, выровнять их и посмотреть, что общего в соседних последовательностях, тогда вы сможете идентифицировать новые последовательности PAM. "«Мы полагаем, что обнаружение множества крупных фагов, включая самый длинный геном фага, о котором сообщалось до сих пор, указывает на ограничения обычных стратегий обогащения и секвенирования вирома, которые могут смещать исследования против совершенно новых вирусов с необычными свойствами», — сказала Наталья Иванова, руководитель группы в Супер Программе и соавтор этого исследования.«Одним из наиболее важных аспектов этого исследования является то, что мы не сосредоточились на одном типе среды обитания. Вместо этого мы исследовали глобальный виром и изучили поток вирусов во всех экосистемах», — сказал Кирпидес. «Мы увеличили количество вирусных последовательностей в 50 раз, и 99 процентов идентифицированных семейств вирусов не имеют тесного отношения к какому-либо ранее секвенированному вирусу.

Это дает огромное количество новых данных, которые будут изучены более подробно в ближайшие годы. Мы более чем вдвое увеличили количество микробных типов, которые служат хозяевами вирусов, и создали первую глобальную карту распространения вирусов. Объем анализов и открытий, которые, как мы ожидаем, последуют за этим набором данных, невозможно переоценить ».