Но самое интересное из новых открытий я приберег под конец.
Конец коллинеарности гена. До последних лет все согласно считали, что ген коллинеарен тому белку, точнее, той полипептидной цепи, которую он кодирует. Иными словами, каждой тройке нуклеотидов в ДНК, с которой считывается мРНК, соответствует один аминокислотиый остаток в полипептиде.
И опять оказалось не так! В смысловой цепи ДНК, кодирующей белок, обнаружены довольно длинные вставки (интроны), никаких аминокислот не кодирующие. Они считываются при синтезе первичного транскрипта, а далее начинается непонятный процесс. Ненужные вставки вырезаются специальными ферментами и отбрасываются, остатки сшиваются. Этот процесс называется сплэйсингом (калька с английского) Я не знал этого слова, но понял значение сразу, вспомнив свою давнюю морскую практику: сплеснивать трос – значит сращивать его из кусков.
После того как все ненужное из первичного транскрипта удалено, к 5’-концу присоединяется «шапочка» – три фосфатных остатка подряд и метилированный нуклеотид. А у 3’-конца вырастает длинный полиадениловый «хвост» – последовательность из многих остатков аденина. Для чего эти добавки – недавно выяснили. Белоксинтезирующие системы клетки – рибосомы – «узнают Сеньку по шапке». 5’-конец, с которого начинается трансляция, по начальным трем фосфатам. Последовательность поли-А придает матричной РНК стабильность, она не так быстро разрушается нуклеазами. Это было показано серией изящных опытов. Так как генетический код един для всего органического мира, можно ввести в клетку чужеродную мРНК и синтезировать совсем другой белок. Этим путем удалось синтезировать в незрелых яйцеклетках шпорцевой лягушки гемоглобин кролика, белки вируса табачной мозаики и пчелиного яда. И каждый раз мРНК, лишенная поли-А последовательности, была нестабильной, распадалась быстро.
А вот для чего гену интроны? На этот счет было высказано немало соображений, вплоть до самых фантастичных: они нужны будто бы для обеспечения процесса эволюции (!). Но ни в одном организме нет ни одной структуры, специально предназначенной для эволюции. Все структуры предназначены только для выживания. Если мы признаем за интронами роль своеобразных органов эволюции, мы наделим природу способностью к прогнозированию и вернемся фактически к учению Аристотеля о будущей причине. Впору подивиться живучести телеологических заблуждений, уже третью тысячу лет воскресающих под разными именами.
А то, что интроны для чего-то нужны не в будущем, а сейчас, ясно из следующего примера. Всем хорошо известный белок инсулин – один из самых маленьких, в нем всего 50 аминокислот. Значит, его ген состоит из 150 нуклеотидов. У крысы два гена инсулина, обозначаемых, как А и В. Оказалось, что в гене А есть один интрон – нечитаемая вставка в 119 нуклеотидов, а в гене В к нему прибавляется другой – в 444 нуклеотида! Из 713 нуклеотидов в процесс трансляции вовлекается только 150 —комментарии излишни.
Не найдем ли мы какой-либо аналогии в человеческих языках? Действительно, во многих языках орфография сильно отличается от произношения. Вот примеры, заимствованные мною у Л. В. Успенского: 1) английское «дочь» пишется daughter читается – «дотэ», 2) ирландское «дочь» – пишется kathudhadh читается «кахю», 3) французское «вода» пишется читается «л’о».
«Лишние», непроизносимые буквы в словах – аналоги интронов в генах. Это объясняется обычно тем, что орфография отстает от произношения и люди пишут так, как говорили несколько веков назад. А то и десятилетий: Анатоль Франс вспоминает бабушку, которая упорно выговаривала «кошемар», «булевар». Да, но почему орфография в одних языках отстает от произношения сильно, а в других за ним поспевает? Почему французское правописание консервативней русского (хотя и мы, особенно в быстрой речи, выговариваем, например, «ПалВаныч» вместо «Павел Иванович»)? Консервативность орфографии не случайна. Она достигает предела в тех языках, где много омонимов – слов с разным значением, но произносимых одинаково.
Во французском языке таких слов очень много, он как бы создан для каламбуров. Но то, что оживляет устную речь, может создать помехи при чтении письменного текста. Так что не будь французская орфография консервативной, французам пришлось бы эту консервативность выдумать.
И не случайно иероглифическая письменность упорно держится Китае. Китайский язык весь состоит из омонимов. В устной речи они распознаются по тону, а как с чтением?
А теперь вернемся к нашим интронам. Регуляторные механизма белкового синтеза, к разгадке которых мы только сейчас приступаем должны как-то «угадывать», «узнавать»[6] нужные гены, чтобы транскрибировать нужную мРНК и затем транслировать нужный белок. Немного пользы организму, если ген гемоглобина будет задействован в нервной клетке, а ген пепсина (пищеварительного фермента) в – мышцах. Генетическая программа не признает омонимов, каламбуры здесь строжайше противопоказаны. Язык генома жестко однозначен, как машинные языки ФОРТРАН или АЛГОЛ, в нем нет места недосказанности размытости значения метафоричности – короче тех особенностей человеческих языков, без которых была бы невозможной изящная словесность. Хромосома ведет себя, как та электронная вычислительная машина которая библейское изречение «Плоть немощна но дух бодр» перевела с английского (The spirit is saund, but the flesh is weak) на русский как «Водка крепкая, но мясо размякло».
Поэтому в гене должна содержаться не только информация об аминокислотных последовательностях. Там должны быть участки, по которым регуляторные элементы клетки его узнают Ясно также, что из окончательной нуклеотидной последовательности мРНК они, как сделавшие свое дело, должны быть удалены. Такими участками и могут оказаться интроны. Это только гипотеза, но на сегодняшний день она наиболее вероятна.
И в заключение рассмотрим важный вопрос: достаточно ли в клетке ДНК для кодирования всех структур сложного фенотипа?
По этому поводу еще недавно велись дискуссии. Казалось, что ДНК явно не хватает. Однако попробуем определить объем генетической информации, как это делал Джон фон Нейман, в битах. Вспомним слова великого физика лорда Кельвина: «Если Вы можете измерить то, о чем говорите, и выразить это в числах, то Вы что-то знаете об этом предмете; если же Вы не в состоянии ни измерить, ни выразить это в числах, то Ваши знания предмета скудны и неудовлетворительны».
Вот схема простенького расчета, когда-то мною проделанного. Если бы все основания в ДНК встречались в одинаковом количестве, вероятность встречи каждого из них была бы 0,25.
Отсюда информационная ценность каждого из оснований
H = – (4 • 0,25 log2 0.25) = 2 бита.
Однако ДНК в геноме неоднородна по составу. Для высших организмов, например позвоночных животных, доля пары гуанин – цитозин составляет всего около 40 процентов. Кроме того, в ней имеются фракции, обогащенные парами АТ и ГЦ. У некоторых крабов в хромосомах выявлены последовательности состоящие только из двух оснований А и Т. Информационная ценность нуклеотидного звена в них снижается вдвое:
H = – (2 • 0,25 log2 0.25) = 1 бит.
то есть основание может быть только или аденином или же тимином.
Оценить неоднородность ДНК в геноме можно простым опытом. Если мы будем повышать температуру раствора ДНК, то на каком-то уровне средняя кинетическая энергия молекул окажется выше энергии водородных связей, которыми скреплены половинки двойной спирали. Температура, при которой распадается (денатурирует) половина молекул ДНК, называется температурой плавления. Она сильно зависит от концентрации катионов в растворе (примерно прямо пропорциональна логарифму их концентрации). В паре ГЦ три водородные связи, в паре АТ только две. Поэтому чем больше ГЦ в ДНК, тем более она «тугоплавка». Отсюда следует, что по ширине интервала температур, в котором ДНК плавится, можно судить о ее неоднородности (гетерогенности) в геноме.