Если мы fgh уберем, то получим клику, некую вторичную структуру. Можем получить и другую клику.
Вторичная структура может быть представлена в виде правильной скобочной структуры, как на рисунке ниже. Левая часть — открывающая скобка, правая часть — закрывающая скобка. Вторичная структура тоже может быть представлена в виде дерева, но важно, что количество возможных структур порядка 1,8L (это доказывается в теореме, которую я не буду здесь представлять). Это тоже очень много, поэтому задача поиска клики тоже не эффективна.
Тем не менее, есть алгоритм динамического программирования, который позволяет нам найти за кубичное (а не квадратичное, как раньше) время найти структуру, имеющую наибольшее количество спаренных оснований. Основная идея его (как и любого алгоритма динамического программирования) заключается в том, что если мы знаем все решения на какой-то части, то мы можем сказать, какое будет решение на чуть большем фрагменте.
Можно минимизировать не число спаренных оснований, а минимизировать энергию (эта задача сложнее, но ее с помощью разных ухищрений тоже можно оставить кубичной). Минимизация все равно не позволяет достигнуть большой точности предсказания. Проблемы предсказания вторичной структуры РНК.
Только около 65–70 % тРНК сворачиваются в правильную структуру.
Для предсказания вторичной структуры используются энергетические параметры, а они определены не очень точно. Более того, в клетке бывают разные условия, и, соответственно, реализуются разные параметры.
Находится единственная структура с минимальной энергией, в то время как обычно существует несколько структур с энергией, близкой к оптимальной.
Поэтому есть предложения искать субоптимальные структуры и искать эволюционно консервативные структуры (структуры тРНК и рРНК определены именно так). То есть забыть про энергию, и если мы знаем, что эти наборы РНК выполняют одну и ту же функцию, то мы можем построить такую структуру, которая была бы общей для всех этих последовательностей.
Теперь я расскажу, как это все применяется.
Исследование консервативности альтернативного сплайсинга, или Почему мышь не стала человеком?
Структура генов прокариот очень проста: есть начало, есть конец, получается мРНК, которая имеет начало и конец, идет транскрипция, трансляция и белок.
У эукариот структура гена сложнее. Из длинной мРНК удаляются (вырезаются) интроны (insertion sequences, вставочные последовательности), а оставшиеся экзоны сшиваются в единую нить. Из пре-мРНК получается зрелая мРНК, процесс называется сплайсингом. Потом происходит трансляция зрелой мРНК, в результате образуется белок. Мы будем интересоваться экзонами и интронами.
Если бы мы умели правильно предсказывать интроны и экзоны, мы бы могли разметить ген на белок-кодирующие и белок-некодирующие участки.
Альтернативный сплайсинг
Оказывается, ситуация еще сложнее. РНК, прочитанная с одного и того же гена, может сплайсироваться по-разному, что приводит к образованию мРНК с разными наборами экзонов: какой-то экзон в один вариант мРНК попадает, а в другой — нет, и в итоге получатся две разных мРНК и, соответственно, два разных белка. Это называется альтернативным сплайсингом. Таким образом, на уровне созревания мРНК могут образовываться разные РНК-продукты, которые приводят к образованию разных белков.
Сплайсинг происходит в ядре, трансляция — в цитоплазме. Для изучения того, что же оказалось в цитоплазме (то есть того, что подвергается трансляции), секвенируют короткие, 500–600 до 1000 нуклеотидов куски цитоплазматической РНК. Такие сиквенсы называются EST (expresstion sequence tag — "ярлыки экспрессируемых последовательностей"). EST — это короткие, прочитанные однократно (то есть весьма неточно), фрагменты цитоплазматической (сплайсированной, содержащей только экзоны) РНК. Если у нас есть геном, то мы можем эти EST картировать на геном и, тем самым, найти, где находятся интроны и экзоны.
Если при картирование EST полностью, без перерывов, соответствует геномной последовательности — это ген без интронов. Если EST ложится на геном с перерывами, то мы наблюдаем результат сплайсинга. Если же разные EST демонстрируют несколько вариантов расположения в одном и том же участке генома (то есть выявляют разные сочетания экзонов), то мы наблюдаем альтернативный сплайсинг. Экзон, который может включаться в белок, а может и не включаться, называется кассетным экзоном. мРНК с разными наборами экзонов данного гена (то есть в которые некий кассетный экзон или включается или не включается), называются изоформами.
Частота альтернативного сплайсинга
Сначала альтернативный сплайсинг был обнаружен у вирусов, считалось, что это экзотика. До 1998 г. считалось, что только около 6 % генов человека имеют альтернативный сплайсинг. Рассчитали, что для того, чтобы обеспечить наблюдаемое разнообразие белков, в геноме человека должно было быть 80 — 100 тысяч генов. В 1998 году было показано, что около половины генов человека имеют альтернативный сплайсинг. За счет альтернативного сплайсинга число генов может быть меньше числа кодируемых ими белков, так как с одного гена может образовываться несколько белков.
Как было написано в какой-то газете "Многолетними усилиями ученых количество генов человека было сокращено со 100 тысяч до 25". Действительно, по последним оценкам в геноме человека около 25–30 тысяч генов. Оценка количества белков не изменилась — разных белков около 80-100 тысяч. Разнообразие белков обеспечивается альтернативным сплайсингом. Например, в одних клетках белок должен быть в цитоплазме, в других — такой же белок в мембране, в третьих — транспортироваться наружу. И это легко делается не за счет наличия разных генов для каждого случая, а за счет альтернативного сплайсинга, который цепляет на N-конец разные сигналы, при том что "рабочая часть" белка остается одной и той же, и одна изоформа белка размещается в мембране, другая изоформа белка — в цитоплазме, и т. д.
Сейчас общеизвестно, что не менее 50 % генов человека альтернативно сплайсируется.
Альтернативный сплайсинг бывает разных типов (галочками показано, как вырезаются экзоны):
На этом рисунке показаны кассетный экзон (вставляемый в одни изоформы и отсутствующий в других), альтернативный акцептор, альтернативный донор, далее интрон может либо вырезаться, либо не вырезаться.
Теперь вернемся к вопросу о человеке и мыши. Человек и мышь биологически очень похожи. Белки похожи — уровень сходства аминокислотных последовательностей 80 %, также похожа значительная часть некодирующих областей генома. Практически у всех генов одинаково устроена экзон-интронная структура, для 99 % генов экзонная структура одинакова. Только 1 % генов уникален у каждого генома, остальные гены имеют гомологи в другом геноме. Интересен тот факт, что при таком относительно невысоком уровне различий человека от мыши внешне отличают легко. А два вида мухи дрозофилы вряд ли кто-то различит на глаз, хотя генетически они различаются сильнее, чем человек и мышь.