Секвенирование по Сэнгеру и его вариации, которые совершенствовались по мере развития технологий, сегодня часто называют методами секвенирования первого поколения. В середине 1980-х они позволяли читать ежедневно около тысячи нуклеотидов, или, как принято говорить, оснований. Разницей между нуклеотидами и основаниями здесь можно пренебречь. (Но если быть точными, нуклеотид состоит из аденинового, цитозинового, гуанинового или тиминового азотистого основания, сахара под названием дезоксирибоза и нескольких атомов фосфора и кислорода, объединенных в фосфатную группу. Сахара соседних нуклеотидов связываются друг с другом через фосфатные группы, формируя нить ДНК.)
Чтобы установить последовательность всего генома, нужно виртуально соединить друг с другом все фрагменты. В 1982 году мы собрали полный геном бактериального вируса из 40 тысяч оснований, малый фрагмент которого в 1968 году прочитали Ву и Гилберт. Геном дрожжей S. cerevisiae (12 миллионов оснований) полностью секвенировали в 1996-м, а геном круглого червя C. elegans (100 миллионов оснований) – в 1998-м. Но самой желанной целью был, конечно же, геном Homo sapiens. Секвенирование по Сэнгеру в принципе могло бы справиться с этой задачей, но применение этого метода в отношении генома с миллиардами оснований представлялось огромным технологическим вызовом. Такая задача требовала усовершенствований не только в биохимии – связанных, например, с терминирующими нуклеотидами, – но и в инструментарии физической работы с ДНК: нужно было повышать скорость и надежность плавления и перемещения молекул, детекции световых сигналов и многого другого.
В 1988 году Конгресс США одобрил выделение средств на проект «Геном человека», который планировали запустить в 1990-м и потратить на его реализацию 15 лет и 3 миллиарда долларов. (Для сравнения: в 1990 году совокупные расходы федерального бюджета США на исследования вне оборонного сектора составили около 23 миллиардов.) Подобно космической программе «Аполлон» в 1960-х, проект «Геном человека» ассоциировался с покорением новых рубежей – на сей раз во внутренней вселенной клетки. Государство осуществляло финансирование и управление проектом через Национальные институты здоровья и Министерство энергетики США, хотя и при значительном участии партнеров из других стран. В 1998 году финансируемая из частного капитала группа биотехнолога Крейга Вентера объявила, что планирует самостоятельно секвенировать геном человека, причем быстрее и дешевле. Это положило начало яростной гонке. Обе группы добились успеха и в 2001 году сообщили о прочтении 90 % генома человека. В 2003-м доля покрытия выросла до 99 %, что позволило заявить о выполнении задачи, по сути, на два года раньше намеченного срока. Но нужно было дочитать еще несколько фрагментов, которые не удалось секвенировать сразу из-за сложностей типа длинных нуклеотидных повторов, и к 2004 году геном был определен уже на 99,7 %3.
Вам, возможно, интересно, чей геном тогда секвенировали. В обоих проектах геномы были коллективными: ДНК брали у нескольких человек, и разные прочитанные фрагменты от разных людей должны были дать общую для нашего вида картину. В итоге, однако, вышло так, что бо́льшая часть генетического материала принадлежала двум персонам: в проекте «Геном человека» – вроде бы анониму из города Буффало в штате Нью-Йорк, а в проекте Вентера – анониму, которым, как выяснилось позже, был… сам Крейг Вентер. Эти люди, разумеется, не представляют все человечество: чтобы изучить целый вид, нам нужно добыть его статистический портрет, то есть секвенировать гораздо больше человеческих геномов. Точно так же, если бы у меня обнаружили рак, мой врач захотел бы взглянуть на геном моих, а не средневидовых, злокачественных клеток. Чтобы преодолеть эти ограничения, требовались гораздо более быстрые и дешевые технологии. К счастью, их внедрение было уже не за горами.
Читаем много слов одновременно
При общей стоимости 3 миллиарда долларов чтение каждой пары оснований в проекте «Геном человека» обходилось примерно в доллар. Это было поразительным достижением с учетом того, что еще не сменилось даже поколение, не знавшее структуру ДНК, но все же недостаточным, чтобы применять такую технологию рутинно. В начале XXI века появилось несколько новых хитроумных методов, разработанных отчасти благодаря госфинансированию инноваций в сфере секвенирования. В совокупности эти методы второго поколения называют еще высокопроизводительными, но чаще просто секвенированием нового поколения4. В секвенировании первого поколения (по Сэнгеру) намноженные фрагменты читаются по очереди. Их смешивание обернулось бы катастрофой, поскольку мы потеряли бы уникальное соответствие между длиной оборванного субфрагмента и его меченым нуклеотидом-терминатором. В методы второго поколения изначально заложена параллельность: они позволяют анализировать множество фрагментов одновременно, а в ряде случаев даже читать цепи ДНК по мере их синтеза. Давайте познакомимся с несколькими новыми методами. Различаясь массой деталей, все они используют физические свойства ДНК и (или) связанных с ДНК материалов.
Пиросеквенирование появилось отчасти благодаря удивительным способностям светлячков5. Как мы знаем, ДНК-полимераза прикрепляет новые нуклеотиды к растущим нитям ДНК. Тщательно пересчитав атомы в составе свободного нуклеотида и в составе встроенного в нить, мы обнаружим, что соответствие между ними не полное. В ходе реакции пришивания нуклеотида к цепочке ДНК высвобождается крошечная молекула из двух атомов фосфора и семи атомов кислорода – пирофосфат. Особый белок в составе смеси для пиросеквенирования превращает пирофосфат в АТФ – энергетическую молекулу, которую клетки используют для разных операций. Одна из них – светоиспускающая химическая реакция, выполняемая белками люциферазами, которые расходуют АТФ в качестве топлива. (В переводе с латыни lucifer означает «несущий свет».) Такие организмы, как светлячки, жуки-щелкуны и светящиеся грибы, сами производят люциферазы. Как мы узнали, рассматривая в главе 2 зеленый флуоресцентный белок медузы, многообразие жизни предоставляет нам уйму инструментов, которые можно творчески приспособить для множества задач.
Пиросеквенирование работает следующим образом. Как и в методе Сэнгера, все начинается с множественного копирования фрагментов ДНК и их разделения на одиночные цепи нагреванием. И снова ДНК-полимераза строит вторую, комплементарную цепь по матрице одиночной. Представьте, что у нас в реакционной лунке закреплена единственная одноцепочечная молекула ДНК. Ученый наливает в эту лунку раствор, содержащий люциферазу и другие ингредиенты, но из четырех типов нуклеотидов там есть только один – скажем, А. Если за этим следует световой импульс, значит, ДНК-полимераза встроила А в растущую цепь, то есть он оказался подходящим, комплементарным первому неспаренному нуклеотиду матрицы. Если вспышки нет, А не подошел и нужно пробовать другие нуклеотиды. Ученый выливает из лунки раствор с A и трижды повторяет процесс – с Ц, Г и T. Лишь в одном случае из четырех он видит вспышку света. Теперь очередная буква известна. Повторяя процесс снова, он по излучению кванта света узнает следующую букву, затем еще одну и так далее. То есть ДНК читается по мере синтеза ее комплемента.
Я не объяснил, как можно распараллелить процесс. Помимо этой задачи у метода крайне высоки требования к чувствительности: высвобождение единственного пирофосфата должно неизбежно вести к тому, чтобы единственная люцифераза испустила одиночный, очень слабый световой импульс, который мы во что бы то ни стало обязаны засечь. Если на любом из этапов произойдет сбой, мы пропустим букву. Обе задачи, параллелизм и надежность, решаются с помощью одной физической тактики – объединения идентичных фрагментов ДНК в массивы.
Как и в секвенировании по Сэнгеру, геномную ДНК дробят на случайные фрагменты длиной до тысячи оснований, к их концам пришивают короткие универсальные адаптеры с известными нуклеотидными последовательностями. Затем плавлением разделяют все фрагменты на отдельные цепи (см. главу 1) и смешивают в растворе с микроскопическими шариками, к поверхности которых привязаны маленькие «якоря», комплементарные одному из ДНК-адаптеров. Пропорции смеси продумывают так, чтобы шариков оказалось значительно больше, чем ДНК, и вероятность заякоривания на каждом шарике сразу нескольких фрагментов ДНК стремилась к нулю.