Более конкретно говоря, генетические грамматика и синтаксис задают правила того, как клетка должна образовывать рабочий белок из цепочки аминокислот. Белки должны быть организованы в компактные формы, перед тем как они начнут работать, и если форма будет неправильной, то к работе они тоже не приступят. Правильная синтаксическая и грамматическая «укладка» – важная часть общения на языке ДНК. Тем не менее общение требует большего, чем правильная грамматика и синтаксис; белковая фраза должна что-то значить для клетки. Как ни странно, такие фразы могут быть синтаксически и грамматически безупречными, но не иметь никакого биологического смысла. Понять, что это значит, поможет обращение к словам лингвиста Ноама Хомского. Он пытался доказать независимость синтаксиса от смысла высказывания в человеческой речи. Его пример звучал как «бесцветные зеленые идеи разъяренно спят». О Хомском можно думать всякое, но это предложение – одна из самых замечательных фраз, когда-либо произнесенных. В нем нет никакого буквального смысла. Однако поскольку оно содержит реальные слова, и его синтаксис с грамматикой также корректны, мы можем проследить его смысл. Это совсем не бессмыслица.
Таким же образом мутации ДНК могут привести к появлению случайных аминокислотных «слов» или «фраз», и клетки автоматически соберутся в новую цепь, совершенно синтаксическим способом, основанным на физике и химии. Однако любые изменения слов могут привести к изменению как формы, так и содержания всего предложения, и от этого результата зависит весь смысл. Иногда новая белковая фраза содержит лишь небольшую помарку, маленькую поэтическую вольность, которую клетка, поработав, может исправить. Иногда же изменения (такие, как фреймшифт-мутации[19]) так искажает предложение, что оно начинает выглядеть как случайный набор символов (например, #$%^&@!), которыми обозначаются бранные слова героев комиксов. Клетка от этого заболевает и умирает. Но нередко случается и так, что клетка читает белковое предложение, захламленное всякой бессмыслицей… однако, как следует вникнув в такую неразбериху, все-таки находит в ней рациональное зерно! Совершенно неожиданно возникает нечто чудесное, вроде кэрролловских «хливких шорьков» или загадочного столового прибора[20] Эдварда Лира. Это одна из редких полезных мутаций, и благодаря таким удачным моментам эволюция и продвигается вперед[21].
Благодаря четким параллелям между строением ДНК и языка ученые могут анализировать литературные произведения и геномные «тексты», используя одни и те же инструменты. Эти инструменты кажутся особенно перспективными для изучения спорных текстов, чье авторство или биологическое происхождение точно не определено. Литературоведы, как правило, сравнивают текст с отрывком из другого произведения, чье авторство известно, и делают выводы, одинаковы ли их стиль и тон. Иногда применяется другой метод: систематизация и подсчет слов, которые используются в тексте. Оба подхода нельзя назвать совершенными: первый слишком субъективен, а второй – слишком безлик. В случае с ДНК сравнение спорных геномов часто включает соотнесение с несколькими десятками ключевых генов и поиски малейших различий. Но эта технология потерпела неудачу, причем в случаях с самыми разными биологическими видами. Причина провала в том, что различий можно найти чрезвычайно много, и непонятно, какие из них по-настоящему важны. Будучи сосредоточенной исключительно на генах, эта техника игнорирует полосы регуляторной ДНК, из которой гены выпадают.
Чтобы избежать этих проблем, ученые из Калифорнийского университета в Беркли в 2009 году разработали программное обеспечение, с помощью которого «окна» скользят вдоль цепочки символов в поисках сходств и образцов. В качестве эксперимента ученые таким образом проанализировали геномы млекопитающих и тексты нескольких десятков книг, таких как «Питер Пэн», «Книга Мормона» и «Государство» Платона. Было обнаружено, что одно и то же программное обеспечение способно, с одной стороны, классифицировать ДНК различных видов млекопитающих, а с другой – классифицировать книги по жанрам с идеальной точностью. Обратившись к спорным текстам, ученые погрузились в изучение постоянно вызывающего споры вопроса о том, получил ли Шекспир достаточно хорошее образование для того, чтобы написать свои пьесы. И программа показала, что классик действительно написал драму «Два знатных родича» – пьесу, авторство которой постоянно подвергалось сомнению, – но не написал «Перикла», другую пьесу спорного авторства. Затем команда из Беркли изучила геномы вирусов и архебактерий, самых старых и в массе своей чужеродных для нас форм жизни. Этот анализ выявил новые связи между этими организмами и другими микробами, в результате были выдвинуты новые предложения по их классификации. Из-за огромного объема данных анализ геномов мог получиться весьма глубоким: в течение года 320 компьютеров занимались только тем, что сканировали микробы и архебактерии. Однако анализ этих геномов позволил ученым выйти за рамки обычного пошагового сравнения генов и понять полную естественную историю этих биологических видов.
* * *
Расшифровка полной геномной истории, однако, требует более сложных навыков, чем работа с другими текстами. Расшифровка ДНК требует чтения и слева направо, и справа налево – так называемый бустрофедон. В противном случае можно пропустить важные палиндромы и морднилапы: соответственно слова, которые одинаково читаются с обеих сторон или же приобретают другой смысл при прочтении с конца.
Один из самых древних известных палиндромов – высеченный на стене в Помпеях (и других городах) магический квадрат, слова в котором читаются сверху вниз, снизу вверх, справа налево и слева направо:
S-A-T-O-R
A-R-E-P-O
T-E-N-E-T
O-P-E-R-A
R-O-T-A-S[22]
Насчитывая примерно две тысячи лет от роду, данная надпись на порядок младше, чем по-настоящему древние палиндромы в ДНК, которая создала целых два вида палиндромов. Во-первых, это фразы традиционного («А роза упала на лапу Азора») типа: например, Г-А-Т-Т-А-Ц-А-Т-Т-А-Г. Однако поскольку АТ и ЦГ – это парные основания, ДНК образовывает и другие, менее явные палиндромы, которые спереди читаются по одной нити, а сзади – по другой. Сравните нить Ц-Т-А-Г-Ц-Т-А-Г, затем представьте основания, которые должны появиться на другой нити: Ц-А-Т-Ц-Г-А-Т-Ц. Это совершенные палиндромы.
Безобидный на вид, этот второй тип палиндрома может нагнать страху на любого микроба. Давным-давно многие микробы выделяли специальные белки (под названием «ферменты рестрикции»), которые могли резать ДНК подобно кусачкам. И по какой-то причине эти ферменты могут разрезать ДНК только в ее симметричных, палиндромных участках. Подобные надрезы служат и полезным целям: к примеру, выбрасывают из спирали основания, пораженные радиацией, или снимают напряжение в сильно запутанной ДНК. Однако непослушные микробы в основном использовали эти белки, чтобы воевать друг с другом и перерабатывать чужой генетический материал. В результате микробы методом проб и ошибок научились избегать даже неочевидных палиндромов.
Впрочем, высшие существа, к которым относимся мы сами, тоже не то чтобы толерантны к палиндромам. Снова рассмотрим Ц-Т-А-Г-Ц-Т-А-Г и Г-А-Т-Ц-Г-А-Т-Ц. Отметим, что начало каждого из палиндромных сегментов может образовывать пары оснований со своей второй половиной: первая буква с последней (Ц…Г), вторая с предпоследней (А…Т) и т. д. Но для того, чтобы сформировать эти внутренние связи, одна сторона нити ДНК должна абстрагироваться от другой и выгнуться вверх, образовав выступ. Такая структура (так называемая шпилька) благодаря симметричному строению может образовывать ДНК-палиндром любой длины. Как и следовало ожидать, «шпильки» могут разрушать ДНК так же, как и узлы: разрушая клеточные механизмы.