Литмир - Электронная Библиотека
A
A
Математические модели в естественнонаучном образовании. Том II - _97.jpg

     (Фитч и Марголиаш, 1967)

Математические модели в естественнонаучном образовании. Том II - _98.jpg

         (Фаррис, 1972)

Математические модели в естественнонаучном образовании. Том II - _99.jpg

              (Татено и др. , 1982)

Во всех этих мерах суммы включают слагаемые для каждой отдельной пары таксонов

Математические модели в естественнонаучном образовании. Том II - _94.jpg
 и
Математические модели в естественнонаучном образовании. Том II - _95.jpg
.

а. Вычислите эти меры для дерева, построенного в разделе, используя FM- алгоритм, а также дерева, построенного из тех же данных с помощью UPGMA в задаче 5.2.3. Согласно каждому из этих показателей, какое из двух деревьев лучше подходит для данных?

б. Объясните, почему эти формулы разумно использовать для оценки соответствия. Объясните, как различия между формулами делают их более или менее чувствительными к различным типам ошибок.

Примечание: Фитч и Марголиаш предложили выбрать оптимальное метрическое дерево для соответствия данным как такое, которое минимизирует

Математические модели в естественнонаучном образовании. Том II - _100.jpg
. Алгоритм FM был введен в попытке получить аппроксимацию оптимального дерева.

5.2.9. Смоделируйте данные a1, a2, a3 и a4 в соответствии с моделью Джукса-Кантора с молекулярными часами. Сохраните их в файл seqdata.mat путём ввода save seqdata.mat. Загрузите ранее сохраненные данных из файла seqdata.mat в MATLAB путем ввода load seqdata. Затем исследуйте производительность UPGMA с расстоянием Джукса-Кантора, чтобы построить дерево для последовательностей a1, a2, a3 и a4. Все расстояния между последовательностями можно легко вычислить, поместив последовательности в строки массива с помощью команды a=[a1;a2;a3;a4], а затем используя команду [DJC DK2 DLD]=distances(a). Хотя эта команда вычисляет расстояния, используя каждую из формул Джукса-Кантора, 2-параметрической модели Кимуры и формул логарифмического расстояния, для решения этой задачи используйте только расстояния Джукса-Кантора.

а. Нарисуйте дерево UPGMA для 4 таксонов, пометив каждое его ребро длиной.

б. По длинам ребер вычислите расстояния между таксонами при обходе вдоль дерева. Близки ли они к исходным расстояниям?

5.2.10. Повторите решение предыдущей задачи, но используя алгоритм FM вместо UPGMA. Является ли дерево, которое получится в результате, «лучше», чем то, которое получалось раньше? Объясните почему.

5.2.11. Смоделируйте данные b1, b2, b3, b4 и b5 в соответствии с моделью Джукса-Кантора, но без молекулярных часов. Сохраните их в файле seqdata.mat. Исследуйте возможность применения UPGMA с расстоянием Джукса-Кантора для построения дерева для последовательностей b1, b2, b3, b4 и b5 в файле данных seqdata.mat. Полезные команды MATLAB см. в задаче 5.2.9.

а. Нарисуйте дерево UPGMA для 5 таксонов, пометив каждое ребро его длиной.

б. По длинам ребер вычислите расстояния между таксонами вдоль дерева. Близки ли они к исходным данным?

5.2.12. Повторите решение предыдущей задачи, но используя алгоритм FM вместо UPGMA. Является ли дерево, которое получилось в результате, «лучше», чем то, которое было получено ранее? Объясните почему.

5.2.13. Построение дерева с помощью UPGMA предполагает молекулярные часы. Предположим, что некорневое метрическое дерево на рисунке 5.14 правильно описывает эволюцию таксонов A, B, C и D.

Математические модели в естественнонаучном образовании. Том II - _101.jpg

Рисунок 5.14.  Дерево для задачи 5.2.13.

а. Объясните, почему, независимо от местоположения корня, молекулярные часы не могли здесь работать.

б. Задайте массив расстояний между каждой парой из четырех таксонов. Выполните UPGMA для этих данных.

в. UPGMA не реконструировала правильное дерево. Что получилось в результате? Что такого было в этом метрическом дереве, что ввело алгоритм в заблуждение?

г. Объясните, почему алгоритм FM также не построит правильное дерево.

5.3. Построение дерева дистанционным методом присоединения соседей

На практике метод UPGMA и FM-алгоритм редко используются для построения дерева, потому что существует дистанционный метод, который как правило работает лучше, чем любой из них. Тем не менее идеи, лежащие в их основе, помогают понять популярный алгоритм присоединения соседей, на котором сосредоточимся в дальнейшем. Чтобы понять, почему UPGMA или FM-алгоритм могут быть ошибочными, рассмотрим метрическое дерево с 4 таксонами на рисунке 5.15. Здесь

Математические модели в естественнонаучном образовании. Том II - _89.jpg
 и
Математические модели в естественнонаучном образовании. Том II - _90.jpg
 представляют определенные длины, причем
Математические модели в естественнонаучном образовании. Том II - _89.jpg
 намного меньше, чем
Математические модели в естественнонаучном образовании. Том II - _90.jpg
. Говорим, что вершины
Математические модели в естественнонаучном образовании. Том II - _31.jpg
 и
Математические модели в естественнонаучном образовании. Том II - _33.jpg
 в этом дереве являются соседями, потому что ребра, ведущие от них, соединяются в общей вершине. Точно так же
Математические модели в естественнонаучном образовании. Том II - _32.jpg
 и
Математические модели в естественнонаучном образовании. Том II - _34.jpg
 являются соседями, но
Математические модели в естественнонаучном образовании. Том II - _31.jpg
 и
Математические модели в естественнонаучном образовании. Том II - _32.jpg
 – нет.

Математические модели в естественнонаучном образовании. Том II - _102.jpg

Рисунок 5.15. 4-таксонное метрическое дерево с дальними соседями,

Математические модели в естественнонаучном образовании. Том II - _103.jpg
.

Предположим, что метрическое дерево на рисунке 5.15 описывает истинную филогению таксонов. Тогда идеальные данные дадут нам расстояния в таблице 5.10.

Таблица 5.10.  Расстояния между таксонами на рисунке 5.15

Математические модели в естественнонаучном образовании. Том II - _31.jpg
Математические модели в естественнонаучном образовании. Том II - _32.jpg
Математические модели в естественнонаучном образовании. Том II - _33.jpg
Математические модели в естественнонаучном образовании. Том II - _34.jpg
Математические модели в естественнонаучном образовании. Том II - _31.jpg

           3х           x+y         2х + y

Математические модели в естественнонаучном образовании. Том II - _32.jpg

                         2x+y      x+y

Математические модели в естественнонаучном образовании. Том II - _33.jpg

                                         x+2y

Но, если

Математические модели в естественнонаучном образовании. Том II - _90.jpg
 намного больше
Математические модели в естественнонаучном образовании. Том II - _89.jpg
 (на самом деле,
Математические модели в естественнонаучном образовании. Том II - _104.jpg
 уже достаточно хорошо), то ближайшими таксонами по расстоянию являются
Математические модели в естественнонаучном образовании. Том II - _31.jpg
 и
Математические модели в естественнонаучном образовании. Том II - _32.jpg
, которые не являются соседями. Таким образом, UPGMA или FM-алгоритм, выбирая ближайшие таксоны, выбирает для присоединения не соседей. Самый первый шаг соединения будет неправильным, и как только присоединимся к не соседям, то не восстановим истинное дерево. Суть проблемы заключается в том, что если молекулярные часы не работают, как в случае с деревом на рисунке 5.15, то ближайшие таксоны по расстоянию не обязательно должны быть соседями по дереву.

8
{"b":"788247","o":1}