Последняя версия последовательности содержит 2,85 миллиардов пар нуклеотидов с 341 брешью, то есть в этих местах по каким-то причинам секвенировать геномную ДНК не удалось. Сиквенс покрывает около 99 % той части генома человека, которая представлены в некомпактизированной форме — эухроматине. Аккуратность сиквенса в конечной версии — 1 ошибка на 100 тысяч позиций подряд.
Еще точнее секвенировать весь геном уже никто не будет. Напомню, что папин геном отличается у вас от маминого генома примерно в 1 позиции на тысячу.
Предсказанное число генов у человека теперь 20–25 тысяч, что немного меньше, чем предсказывалось раньше.
Кроме данных о последовательности нуклеотидов геномной ДНК человека (референтная последовательность) созданы также базы данных:
1) о последовательности нуклеотидов транскрибируемых участков ДНК (EST database, EST = Expressed Sequence Tags), которая характеризует не геномную ДНК, а то, транскрибировалось с ДНК.
2) о положении и содержании отличий (полиморфизмов, то есть нуклеотидных замен) других известных последовательностей ДНК человека от референтной последовательности (SNP database, SNP = Single Nucleotide Polymorphism)
Геномика (часть 2)
Лекция № 20
Геномика — недавно возникшее направление науки, объектом изучения которой являются геномы всех организмов, не только человека. Одно из направлений геномики — воссоздание суммарной карты метаболических путей живого, состоящей из частных метаболических карт, характерных для каждого организма.
Выявление в разных геномах определенных наборов генов метаболических функций позволяет предположить, функциональную связь генов этого набора в едином участке метаболической цепи. В частности, один из подходов такой. Исследуют ряд видов (рисунок ниже), к примеру, бактерий. У первых трех видов есть гены для белков 1, 3 и 6. Остальные белки у некоторых есть, а у некоторых нет.
Этот набор генов (1, 3 и 6) отсутствует у четвертого вида. Такого рода присутствие-отсутствие цельного набора генов позволяет сделать предположение о том, что кодируемые ими белки каким-то образом связаны в метаболическом цикле. Гены такого набора необязательно располагаются рядом в геноме.
Филогенетический профиль белков — основа гипотез об их функциях белки Р1, Р3 и Р6 присутствуют у трех разных видов бактерий. У четвертого вида весь набор этих белков отсутствует.
Еще один критерий функциональной связи между генами, особо хорошо работающий на бактериях, основан на сохранении соседства одних и тех же (по сиквенсу) генов у разных видов бактерий. У бактерий нередко бывает, что группа генов, расположенных вместе, отвечает за группу последовательных этапов метаболизма. Такая группа генов регулируется на уровне транскрипции единым образом и называется оперон (единица операции). Часто последовательность расположения генов в опероне совпадает с последовательностью метаболических этапов. Для эукариот соседнее расположение функционально связанных генов не типично, но, хоть такие гены и разбросаны у них по геному, скоординированная регуляция транскрипции есть и эукариот.
Геномы четырех бактерий.
Гены 1 и 8, а также гены 4 и 5 соседствуют в разных геномах, хотя положение этого блока относительно других генов в каждом из геномов различается.
На данный момент просеквенировано несколько сотен геномов бактерий и геномы нескольких эукариот. Теперь мы знаем, что у бактерий размеры генома не бывают меньше 0,5 миллионов пар нуклеотидов, а максимальный размер генома около 10 миллионов п.н., у дрожжей (эукариотический организм) — порядка 12 миллионов, у червя нематоды — 97 млн., а у человека — 3 миллиарда пар нуклеотидов. А число генов у про- и эукариот различается уже в меньшее число раз. Минимальное количество генов у бактерии микоплазмы — 470 штук, у дрожжей — 6000, у нематоды — 19000, а у человека около 20000, то есть от нематоды и мухи по количеству генов мы не сильно отличаемся. Количество хромосомной ДНК, приходящейся на один ген у бактерий — 1000 п.н. то есть гены упакованы очень плотно; у дрожжей — 2000 п.н., и кое-где гены разделены некоторым пространством; у нематоды — 5000 п.н. на ген и появляются пространства внутри генов — интроны; у человека — 30000 п.н. У нас в геноме большие межгенные пространства и большие пространства внутри генов, которые не переходят в зрелую РНК.
Заметим, все эти организмы по размерам зрелых транскриптов не сильно отличаются. В зрелой РНК белок-кодирующий участок занимает обычно основную часть последовательности. Часть генов кодируют РНК, с которой белок вообще не синтезируется. Перед белок-кодирующей последовательностью в зрелой мРНК расположены участки регуляции трансляции, а после белок кодирующей последовательности — участки определяющие стабильность (время жизни РНК). У прокариот последовательности перед и после белок-кодирующей части гораздо короче, чем у эукариот. Так что по размерам РНК все организмы ближе, чем по размерам генов, а по размерам белков — еще ближе.
Экспериментально проводили «выключение» каждого гена у многих бактерий, и смотрели, выживут они в данных условиях или нет. Оказалось, что у бактерий можно «выключить» (поочередно) около 50 % генов, и они все равно будут жить. У дрожжей можно выключить 80 % генов и они все равно будут жить.
Как это было экспериментально показано? В геном клетки вставляют репортерный фрагмент ДНК, который позволяет замерить скорость транскрипции и трансляции в точке вставки фрагмента. Известно поэтому, что и траснкрипция и трансляция репортерного гена через данную точку в данных условиях происходит с регуляторных элементов гена, разорванного вставкой репортера, хотя разорванный ген сам не функционален. Таким образом 80 % генов дрожжей по одному «убивали» и видели, что клетка дрожжей все равно живет.
У нематоды на 20 000 генов получено несколько десятков тысяч мутаций, которые, по-видимому, поражают около 2 000 генов (так называемых групп комплементации). Это около 10 % всех генов нематоды. То есть если «выключить» около 90 % генов, клетка будет продолжать жить. У человека из 20 000 генов только в 1700 (меньше 10 %) известны мутации, которые связаны с болезнями, наследуемыми по Менделю как моногенный признак.
В связи с этим понятно, что количество генов, мутации в которых будут приводить заболеваниям человека (по крайней мере, к летальным), скорее всего, не увеличится значительно, по сравнению с тем, что уже известно к настоящему времени. Сейчас в интернет доступна база данных OMIM (Online Mendelian Inheritance in Man) по генам, мутации которых приводят к заболеваниям и проявляются как менделирующие признаки.
В геноме не все его участки транскрибируется. В связи с этим встал вопрос экспериментального определения, где и сколько в геноме генов. Под одним геном понимается участок ДНК, который соответствует единому транскрипту, образованному с этого участка. При транскрипции участка ДНК получается так называемыя пре-мРНК, которая содержит и экзоны (участки, переходящие затем в зрелую мРНК), и интроны (вставочные последовательности, которые удаляются из мРНК). Интроны удаляются из пре-мРНК в результате процесса, называемого сплайсингом. Остающиеся в результате участки пре-мРНК, называемые экзонами, соединяются в единую нить. Она называется зрелой мРНК. (Некоторые из РНК не кодируют белок. Называть такие РНК матричными, т. е. мРНК терминологически не верно, хотя они соответствуют генам и имеют свои функции.)