1. Розен В.Б. Основы эндокринологии. М.: Изд-во МГУ, 1994.
2. Альберте Б., Брей Д., Льюис Дж. и др. Молекулярная биология клетки. М.: Мир, 1994. Т. 2. С. 338–393.
3. Ткачук В. А. Введение в молекулярную эндокринологию. М.: Изд-во МГУ, 1983.
4. Авдонин П.В., Ткачук В.А. Рецепторы и внутриклеточный кальций. М.: Наука, 1994
Биоинформатика
Лекция № 25
А.А. Миронов
В настоящее время слово биоинформатика стало очень модным, оно употребляется в трех разных смыслах. Первый смысл связывают с телепатией, экстрасенсорикой и т. д., об этом мы говорить не будем. Второй смысл связан с применением компьютеров для изучения любого биологического объекта, но эту тему мы тоже не будем затрагивать. Речь пойдет о биоинформатике в узком смысле слова, а именно о применении компьютерных методов для решения задач молекулярной биологии, в основном анализа разных последовательностей (аминокислотных, нуклеотидных). Эта наука возникла в 1976–1978 годах, окончательно оформилась в 1980 году со специальным выпуском журнала «Nucleic Acid Research» (NAR). Биоинформатика включает в себя:
• базы данных, в которых хранится биологическая информация
• набор инструментов для анализа тех данных, которые лежат в таких базах
• правильное применение компьютерных методов для правильного решения биологических задач
На рисунке показаны соотношение этапов развития биоинформатики (справа) с возникновением разных экспериментальных методик и полученных результатов экспериментальных исследований.
Технология ∙ Биоинформатика
1962 ∙ — ∙ Молекулярные часы
1965 ∙ Секвенирование tRNA ∙ База данных PIR
1970 ∙ Обратная транскрипция ∙ Алгоритм выравнивания NW
1972 ∙ Клонирование ∙ —
1980 ∙ Секвенирование ∙ База данных PDB. Спец ∙ выпуск NAR, Базы данных нукл. Послед
1981 ∙ — ∙ Алгоритм выравнивания SW
1982 ∙ Секвенирование ДНК фага лямбда ∙ -
1983 ∙ PCR ∙ Алгоритм поиска по базе данных WL
1985 ∙ Секвенирование ДНК вирусов ∙ FASTA — поиск по базе данных
1987 ∙ — GeneBank. Профили
1989 ∙ Программа "Геном человека" ∙ Swiss-Prot. NCBI
1991 ∙ EST ∙ -
1992 ∙ Первая хромосома дрожжей ∙ BLOSSUM
1993 ∙ Автоматическое секвенирование ∙ -
1995 ∙ Первый геном бактерии ∙ База данных SCOP
1996 ∙ Первый геном архейный ∙ -
1997 ∙ — ∙ PSI-BLAST. Кластеры ортологичных генов
1998 ∙ Геном червя ∙ -
2001 ∙ Геном человека ∙ -
В 1962 году была придумана концепция "молекулярных часов", в 1965 была секвенирована тРНК, определена ее вторичная структура, в это же время были созданы базы данных PIR для хранения информации об аминокислотных последовательностях. В 1972 году было придумано клонирование. В 1978 году были разработаны методы секвенирования, была создана база данных пространственных структур белков. В 1980 был выпущен спецвыпуск журнала NAR, посвященный биоинформатике, затем были придуманы некоторые алгоритмы выравнивания последовательностей, о которых речь пойдет дальше. Дальше был придуман метод ПЦР (полимеразная цепная реакция), а в биоинформатике — алгоритмы поиска похожих фрагментов последовательностей в базах данных. В 1987 году оформился GeneBank (коллекция нуклеотидных последовательностей) и т. д.
Биолог в биоинформатике обычно имеет дело с базами данных и инструментами их анализа. Теперь разберемся, какие базы данных бывают в зависимости от того, что в них помещают. Первый тип — архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся
• GeneBank & EMBL — здесь хранятся первичные последовательности
• PDB — пространственные структуры белков, и многое другое.
В качестве курьеза могу привести пример: в архивной базе данных указано,
что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости, что является полной чепухой.
Второй тип — курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации — что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию.
К базам данных такого типа относятся:
• Swiss-Prot — наиболее качественная база данных, содержащая аминокислотные последовательности белков
• KEGG — информация о метаболизме (такая, которая представлена на карте метаболических путей, которую те, кто ходит на лекции, видели на лекции № 2)
• FlyBase — информация о Drosophila
• COG — информация об ортологичных генах.
Поддержание базы требует работы кураторов или аннотаторов. Тем не менее, даже в курируемых базах данных могут встречаться курьезные надписи, например такая забавная надпись:
CAUTION: AN ORF CALLED DSDC WAS ORIGINALLY (REF. 3) ASSIGNED TO THE WRONG DNA STRAND AND THOUGHT TO BE A D-SERINE DEAMINASE ACTIVATOR, IT WAS THEN RESEQUENCED BY REF. 2 AND STILL THOUGHT TO BE "DSDC", BUT THIS TIME TO FUNCTION AS A D-SERINE PERMEASE. IT IS REF.1 THAT SHOWED THAT DSDC IS ANOTHER GENE AND THAT THIS SEQUENCE SHOULD BE CALLED DSDX. IT SHOULD ALSO BE NOTED THAT THE C-TERMINAL PART OF DSDX (FROM 338 ONWARD) WAS ALSO SEQUENCED (REF.6 AND REF. 7) AND WAS THOUGHT TO BE A SEPARATE ORF (YES, DON'T WORRY, WE ALSO HAD PROBLEMS UNDERSTANDING WHAT HAPPENED!).
По крайне мере здесь кураторы базы данных честно признаются, что не знают, как это случилось.
Третий тип — производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:
• SCOP — База данных структурной классификации белков (описывается структура белков)
• PFAM — База данных по семействам белков
• GO (Gene Ontology) — Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по разно му, и чтобы разным генам не давали одинаковые названия)
• ProDom — белковые домены
• AsMamDB — альтернативный сплайсинг у млекопитающих
И интегрированные базы данных, в которых вся информация (курируемая, не курируемая) свалена в кучу, и введя имя гена, можно найти всю связанную с ним информацию — в каких организмах встречается, в каком месте генома локализован, какие функции выполняет и т. д.
• NCBI Entrez — доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах
• Есосус — все о Е. coli — гены, белки, метаболизм и пр.
Теперь перейдем к рассмотрению инструментов биоинформатике. Инструменты определяются задачами, которые мы хотим решать.
Основу биоинформатики составляют сравнения. Если у нас есть, например, аминокислотная последовательность, о которой у нас есть экспериментальные данные, и известны ее функции, и другая, похожая на нее последовательность, мы можем предположить, что эти последовательности выполняют сходные функции. Это задача поиска сходства последовательностей
Другая задача связана с анализом генома. Недавно было объявлено, что полностью просеквенирован геном человека, но так же просеквенировали геномы и других организмов: три генома растений, мыши, крысы, кошки, собаки, курицы, рыбы, лягушки завершается, шимпанзе завершается, две дрозофилы сделаны, малярийный комар, червяки, дрожжи и т. д. — всего около 30 видов эукариотических геномов. Также просеквенированы сотни бактериальных геномов. Один бактериальный геном можно просеквенировать в хорошо оборудованной лаборатории за неделю. При этом получают длинную нуклеотидную последовательность нуклеотидов. Там есть гены — белок-кодирующие участки, и участки, кодирующие тРНК и рРНК. Возникает задача найти эти гены. Другая задача — поиск сигналов в ДНК, то есть тех участков ДНК, которые отвечают за регуляцию — сайты связывания регуляторных белков, элементы вторичной структуры мРНК, которая транскрибируется с этого гена и др.