ДНК естественным образом складывается в крестообразные структуры, называемые крестообразными, которые выступают вдоль длинной ее двойной спирали. Крестообразные формы ДНК многочисленны; По оценкам ученых, в нормальном геноме человека в среднем может существовать до 500 000 крестообразных последовательностей. Более 80 процентов крестообразных форм ДНК считаются маленькими, то есть содержат менее 100 пар оснований ДНК. Маленькие крестовины обеспечивают репликацию ДНК и экспрессию генов, необходимые для жизни человека.
Но ученые также подозревали, что эти маленькие крестообразные формы — структура самой ДНК — связаны с мутациями, которые могут повысить риск рака.Крестообразные формы ДНК создаются короткими перевернутыми повторами нуклеотидов аденин-тимин-цитозин-гуанин, которые образуют основы структуры ДНК. Инвертированные повторы — это нуклеотидные последовательности ДНК, за которыми следует их обратный набор.
Они похожи на палиндром, словосочетание, которое читается взад и вперед одно и то же, например «Никогда даже на фут слишком далеко».Исследование UT Austin показало, что маленькие крестообразные формы ДНК являются мутагенными, изменяя ДНК таким образом, что это может увеличить риск рака у дрожжей, обезьян и людей. Высокопроизводительные вычисления на суперкомпьютерах Stampede и Lonestar в Техасском вычислительном центре в Остине (UT Austin) помогли исследователям найти короткие инвертированные повторы из 30 пар оснований и ниже в справочной базе данных соматических, то есть не наследуемых мутаций рака человека.
Нити ДНК обычно рвутся в клетках человека. Ремонтирующие белки сливают сломанный конец одной цепи ДНК со сломанным концом другой.
Если сформироваться определенным образом, эти «слияния генов или транслокации» могут привести к развитию рака.«Мы обнаружили, что короткие инвертированные повторы действительно обогащены в точках остановки транслокации в геномах рака человека», — сказала ведущий автор исследования Карен Васкес. Васкес — профессор Джеймса Т. Делусио Regents отделения фармакологии и токсикологии Техасского университета в Остине.«Во многих случаях транслокации превращают нормальную клетку в раковую», — сказал соавтор Альбино Баколла.
Баколла — научный сотрудник лаборатории Васкеса. «В ходе нашего исследования мы обнаружили, что участки хромосомных разрывов не случайны вдоль двойной спирали ДНК; вместо этого они происходят преимущественно в определенных местах », — сказал Баколла. «Крестообразные структуры в ДНК, построенные короткими перевернутыми повторами, отмечают места разрывов хромосом, мутаций и потенциально инициируют развитие рака».Васкес сказал: «Мы также изучили потенциальные механизмы, которые участвуют во взаимодействии альтернативных структур ДНК и развитии рака. Наша команда обнаружила по крайней мере два различных механистических пути: один связан с репликацией ДНК, где эти необычные структуры препятствуют репликации ДНК; другой путь не зависит от этого, где белки репарации ДНК, как мы думаем, распознают эти альтернативные структуры ДНК как повреждение, даже если повреждений как таковых нет. Клетки пытаются обработать структуры как повреждения, но на самом деле они обрабатывают естественные необычные образования ДНК, а не реальные повреждения.
Аварийный процесс репарации, подверженный ошибкам, может затем вызвать двухцепочечные разрывы ДНК и привести к серьезным проблемам, включая неопластическую трансформацию ».Двухцепочечные разрывы ДНК могут увеличить риск рака, поскольку они могут приводить к транслокациям, делециям и другим мутагенным событиям, которые нарушают кодирующие свойства генов. «Эти модификации ДНК могут привести к раку», — сказал Васкес. По словам Пола Окано, программного директора Отделения биологии рака Национального института рака, исследования «доктора Васкеса», посвященные механизмам мутаций, вызванных альтернативной структурой ДНК, разрывов ДНК и транслокаций хромосом, являются новым и значительным. аспект гранта NCI поддержал исследования механизмов геномной нестабильности. Исследования доктора Васкеса о роли последовательностей ДНК, не относящихся к группе B, в этих механизмах могут внести вклад в наши знания об этиологии рака человека.
Несколько исследований вошли в отчет, опубликованный Васкес и ее лабораторией в электронном виде перед печатью в марте 2015 года в журнале Cell Reports. В одном исследовании использовались анализы репортерных генов, чтобы подтвердить, что короткие инвертированные повторяющиеся последовательности из клеток COS-7, полученных из ткани почек обезьяны, были мутагенными. «Мы хотели подтвердить, что это биологически значимое открытие», — сказал Васкес. «Именно тогда нам пришлось провести некоторые вычислительные исследования и инсилико-поиск.
Для этого аспекта работы мы использовали суперкомпьютеры TACC ».«Мы использовали кластеры Stampede и Lonestar Linux. Мы обычно делаем резервные копии наших данных на Коррале, — сказал Баколла.
По словам Баколлы, проблема и необходимость использования HPC заключается в том, что время, необходимое для поиска всех комбинаций инвертированных повторов для данной последовательности ДНК, огромно. Команда Васкеса разработала свой алгоритм, который берет строку букв, соответствующую базам ДНК A-T-C-G, и проверяет, соответствуют ли соседние цепочки букв обратному дополнению первой строки.
Затем они изменили длину струны и расстояние между струнами.«Для каждой позиции ДНК программа должна выполнить несколько сотен итераций. Затем количество этих итераций нужно умножить на длину ДНК, а затем на количество транслокаций у наших онкологических больных, — сказал Баколла. «Мы разработали в основном наши собственные сценарии, которые написали на Oak в оболочке», — сказал Баколла. Он использовал сценарии для создания около 20 000 случайных хромосомных разрывов. «Нам нужно было сравнить частоты инвертированных повторов, обнаруженных в наборе данных COSMIC, с частотами, которые мы случайно обнаружим в контроле».
COSMIC — это база данных, поддерживаемая Институтом Сэнгера в Великобритании, по мутациям, обнаруженным при соматическом или ненаследуемом раке человека.«У нас было 20 000 транслокаций от рака человека из базы данных COSMIC; 200 оснований ДНК для каждой транслокации; и около 200-400 итераций в каждой позиции », — сказал Баколла. Количество итераций составило около двух миллиардов.«Просто на это уходит много времени.
Мы, конечно же, не можем выполнять такую ??работу на нашем ноутбуке или на чем-то похожем на обычную систему в наших лабораториях; нам нужна очень мощная вычислительная система для выполнения наших поисков последовательностей генов ».Сразу же Баколла обнаружил, что написанные им сценарии зависают, когда он пытается масштабировать до 100 или более последовательностей на одном процессоре.
«Чтобы решить эту проблему, нам пришлось связаться со службой поддержки TACC», — сказал Баколла. «Они проверили наш сценарий и проанализировали полученный нами журнал ошибок. Наконец, мы пришли к решению, давая каждому процессору меньше последовательностей ». Это позволило Баколле масштабировать свой код и использовать более 1000 процессоров одновременно.«Было бы невозможно выполнить эту работу без ресурсов TACC», — сказал Баколла. «Центр — невероятный ресурс с точки зрения возможностей и поддержки.
Мы уже некоторое время пользуемся ресурсами и поддержкой персонала. Это прекрасная возможность для исследователей из UT Austin ».«При поддержке TACC мы смогли увидеть, что это, по крайней мере, одно правдоподобное объяснение этиологии рака человека, потому что эти последовательности обогащены в точках остановки транслокации», — сказал Васкес. «Это дает нам надежду, вдохновение и энтузиазм, чтобы двигаться вперед».Васкес считает, что следующим шагом ее лаборатории будет применение этих результатов для улучшения здоровья человека. «Наш общий интерес — понять, как структура ДНК может влиять на развитие рака. Имея доступ к TACC, мы более уверены в том, что последовательности ДНК, способные образовывать особые необычные структуры, представляют правдоподобное объяснение того, как разрывы ДНК могут приводить к транслокациям при раке », — сказал Васкес.
«Наши следующие шаги — разработать модель мыши, которая может обнаруживать мутации и транслокации в геноме мыши с использованием человеческих последовательностей из этих точек разрыва рака», — сказал Васкес. Действительно ли это происходит сейчас в контексте хромосом живых организмов? Это тканеспецифично?
Имеет ли значение старение? Это типы вопросов, которые задают исследователи.«Долгосрочная цель этих исследований — разработать более эффективные стратегии профилактики или лечения онкологических больных», — сказал Васкес.
Важно понимать, подчеркнул Васкес, что короткие перевернутые повторы и крестообразные структуры, которые они создают, также полезны для тела. Они способствуют срабатыванию ориджина репликации, инициируя репликацию ДНК человека. «У них есть как положительные, так и отрицательные функции, — сказал Васкес. На самом деле это не обязательно что-то, что мы хотим попытаться изменить, чтобы удалить эти последовательности из нашей ДНК, но чтобы лучше понять, что они делают для жизненных процессов, и ослабить любые негативные события, которые могут произойти из-за их « повсеместного » присутствия ‘«Если мы сможем помочь ученым-клиницистам применить механистическую информацию, которая, как мы надеемся, будет получена в результате наших исследований, чтобы улучшить лечение рака и стратегии профилактики рака, мы принесем пользу всем нам».
Васкес видит светлое будущее в переплетении вычислений и наук о жизни. «Я думаю, что потенциал вычислительного анализа просто потрясающий. Биоинформатика и вычислительные центры, такие как TACC, имеют решающее значение для следующих шагов в науке. «Это захватывающее время», — сказала она.
