В новом исследовании в области науки пара исследователей из Колумбийского университета и Нью-Йоркского центра генома (NYGC) показывают, что алгоритм, предназначенный для потоковой передачи видео на мобильный телефон, может раскрыть почти весь потенциал хранения ДНК, сжимая больше информации в ее четырех основных нуклеотидах. . Они демонстрируют, что эта технология также чрезвычайно надежна.ДНК является идеальным носителем для хранения данных, поскольку она сверхкомпактна и может прослужить сотни тысяч лет, если хранить ее в прохладном и сухом месте, как продемонстрировало недавнее извлечение ДНК из костей предка человека возрастом 430000 лет, найденного в пещера в Испании.«ДНК не будет со временем деградировать, как кассеты и компакт-диски, и она не устареет — если это произойдет, у нас возникнут большие проблемы», — сказал соавтор исследования Янив Эрлих, профессор информатики в Columbia Engineering, член Колумбийский институт науки о данных и один из основных членов NYGC.
Эрлих и его коллега Дина Зелински, младший научный сотрудник NYGC, выбрали шесть файлов для кодирования или записи в ДНК: полная компьютерная операционная система, французский фильм 1895 года «Прибытие поезда в Ла-Сиота», подарок Amazon за 50 долларов. карта, компьютерный вирус, мемориальная доска Pioneer и исследование 1948 года теоретика информации Клода Шеннона.Они сжали файлы в главный файл, а затем разбили данные на короткие строки двоичного кода, состоящие из единиц и нулей. Используя алгоритм исправления стирания, называемый исходными кодами, они случайным образом упаковали строки в так называемые капли и сопоставили единицы и нули в каждой капле с четырьмя нуклеотидными основаниями в ДНК: A, G, C и T. Алгоритм удалил букву комбинации, о которых известно, что они создают ошибки, и добавили штрих-код к каждой капле, чтобы облегчить повторную сборку файлов позже.
В общей сложности они создали цифровой список из 72000 нитей ДНК, каждая длиной 200 оснований, и отправили его в текстовом файле в стартап по синтезу ДНК в Сан-Франциско Twist Bioscience, который специализируется на преобразовании цифровых данных в биологические данные. Две недели спустя они получили пробирку с частичкой молекул ДНК.Чтобы получить свои файлы, они использовали современные технологии секвенирования для чтения цепочек ДНК, а затем программное обеспечение для перевода генетического кода обратно в двоичный код.
Они восстановили свои файлы без ошибок, говорится в исследовании. (В этой короткой демонстрации Эрлих открывает свою заархивированную операционную систему на виртуальной машине и, чтобы отпраздновать это событие, играет в игру «Сапер».)Они также продемонстрировали, что практически неограниченное количество копий файлов может быть создано с помощью их техники кодирования путем умножения их образца ДНК посредством полимеразной цепной реакции (ПЦР), и что эти копии и даже копии их копий и т. Д. Могут быть восстановленным без ошибок.Наконец, исследователи показывают, что их стратегия кодирования содержит 215 петабайт данных на один грамм ДНК — в 100 раз больше, чем методы, опубликованные новаторскими исследователями Джорджем Черчем из Гарварда, а также Ником Голдманом и Юэном Бирни из Европейского института биоинформатики. «Мы считаем, что это самое плотное устройство хранения данных из когда-либо созданных», — сказал Эрлих.Емкость хранения данных ДНК теоретически ограничена двумя двоичными цифрами для каждого нуклеотида, но биологические ограничения самой ДНК и необходимость включения избыточной информации для повторной сборки и последующего чтения фрагментов снижает ее емкость до 1,8 двоичных цифр на нуклеотидную основу.
Идея команды заключалась в том, чтобы применить исходные коды — технику, которую Эрлих помнил еще из аспирантуры, — чтобы сделать процесс чтения и письма более эффективным. Используя свою технику «Фонтан ДНК», Эрлих и Зелински вкладывают в каждый базовый нуклеотид в среднем 1,6 бита. Это как минимум на 60 процентов больше данных, чем ранее опубликованные методы, и близко к 1,8-битному пределу.
Стоимость по-прежнему остается препятствием. Исследователи потратили 7000 долларов на синтез ДНК, которую они использовали для архивации своих 2 мегабайт данных, и еще 2000 долларов на ее чтение.
Хотя цена секвенирования ДНК упала в геометрической прогрессии, спрос на синтез ДНК может быть меньше, говорит Шри Косури, профессор биохимии Калифорнийского университета в Лос-Анджелесе, который не принимал участия в исследовании. «Инвесторы могут не захотеть рисковать огромными деньгами, чтобы снизить затраты», — сказал он.Но цена синтеза ДНК может быть значительно снижена, если будут производиться молекулы более низкого качества, а стратегии кодирования, такие как ДНК-фонтан, используются для исправления молекулярных ошибок, говорит Эрлих. «Мы можем делать больше тяжелой работы на компьютере, чтобы избавиться от трудоемкого молекулярного кодирования», — сказал он.
