Литмир - Электронная Библиотека

Неравномерность состоит в том, что по аутосомным генетическим маркёрам практически каждый локус изучен по собственному, отличающемуся от других, набору популяций. Это делает исходную информацию о генах несопоставимой и недоступной для прямого анализа главных компонент генофонда. Анализ главных компонент генофонда по исходным популяциям просто невозможен: большинство ячеек в матрице «популяции на гены» оказываются незаполненными, причём столь случайным образом, что из нее нельзя выбрать информацию, достаточно полно представляющую генофонд.

При изучении генофондов использование традиционного инструментария главных компонент наталкивается на почти непреодолимые трудности: необходимо, чтобы все популяции были изучены по одному и тому же набору генных маркёров. Однако (в отличие, например, от антропологии) программа генетических исследований не стандартизирована: практически каждый маркёр изучен по особому набору популяций. Требование унифицированности данных чрезвычайно сужает и набор популяций, и набор маркёров. Остаются два выхода: 1) ограничить число анализируемых популяций; 2) ограничить набор маркёров. Однако как несколько популяций не могут надёжно представлять всю популяционную систему, так и малый набор маркёров не может служить характеристикой генома в целом. При малом наборе популяций и маркёров анализ генофонда невозможен: анализируется случайный ряд популяций по нескольким генам, но не генофонд того или иного масшта- ба. Именно поэтому, как правило, исходная информация о генах не позволяет широко использовать классический анализ главных компонент.

Выход из этой ситуации дает геногеография. Картографическая интерполяция помогает найти наиболее вероятные значения признака для тех точек карты и популяций, по которым исходная информация отсутствует. В результате заполняются «пробелы» вырожденной матрицы и появляется возможность включить в анализ главных компонент генофонда все изученные популяции и полный репрезентативный набор генных маркёров, в своей совокупности отражающие основные свойства и историю генофондов. Карты «надёжности» [Нурбаев, Балановская, 1997, 1998] позволяют выбрать из всей совокупности интерполированных значений лишь те, которые обладают высокой надёжностью. (Карты надёжности несут информацию о достоверности интерполированных значений признака в каждой точке картографируемого ареала, поэтому те области карты, которые не были обеспечены исходной информацией, не участвуют в анализе главных компонент.)

Например, изучение генофонда Восточной Европы опирается на генетическую информацию о 1586 популяциях, однако ни одна (!) из популяций не изучена по всему набору 30 локусов (100 аллелей). Практически каждый ген изучен по собственному, отличающемуся от других, набору популяций. Это делает исходную информацию о генах несопоставимой и недоступной для прямого анализа главных компонент генофонда.

Итак, единственный выход — это выход геногеографический: создать серию унифицированных карт. Причём карты каждого гена должны одновременно удовлетворять двум противоположным требованиям: с одной стороны, полностью учитывать всю исходную информацию о гене; а с другой стороны — быть полностью сопоставимыми с картами всех других генов.

На этих картах каждый узел их равномерной сетки является аналогом популяции. Для всей совокупности таких новых популяций (на картах генофонда Восточной Европы их около 9000) и по всей совокупности генов (карты 100 генов) рассчитываются главные компоненты — по стандартной по процедуре, описанной выше. Полученные значения главных компонент вновь присваиваются каждой из 9000 узлов сетки. Эта процедура стандартна и полностью соответствует привычному — не картографическому — анализу главных компонент. На основе 100 карт генов рассчитывается корреляционная матрица. Значения главных компонент рассчитываются для каждого узла равномерной сетки карты. В результате создается ЦМ карт 1, 2, 3… 100 компонент; благодаря нормировке и оптимизации решения среднее значение соответствующей компоненты равно нулю, дисперсия — единице, корреляция между картами компонент равна нулю. В результате анализа мы характеризуем аналоги популяций новыми признаками — главными компонентами, обобщающими информацию обо всех исходных признаках.

Отличие картографического анализа лишь в том, что самих популяций (узлов сетки) очень много, и они имеют строго упорядоченную географическую привязку. Благодаря этому мы можем, объединив значения главных компонент в интервалы и окрасив их (отрицательные значения — в светлые тона, положительные значения — в темные) увидеть своими глазами, как значения главных компонент распределены в пространстве. Таким образом, карты главных компонент представляют собой отображение трехмерного пространства: два измерения -

географические, третье измерение — это генетический ландшафт главной компоненты. Обычно первые три компоненты вбирают в себя наибольшую часть общей дисперсии и как бы конденсируют в себе информацию об основных параметрах изменчивости наибольшей части генов.

КАК АНАЛИЗИРОВАТЬ КАРТЫ ГЛАВНЫХ КОМПОНЕНТ?

Далее можно изучать полученный генетический ландшафт главных компонент разными методами.

Во-первых, можно чисто качественно интерпретировать пространственные закономерности в терминах экологии или истории [Cavalli-Sforza et al.„1994; Рычков и др., 1997, 1999]. Но интерпретации могут быть разными. Главное в ином — мы выявляем объективно существующие пространственные закономерности всего генофонда, обнаруживаем «главные сценарии» в его изменчивости. Далее эти объективные закономерности могут поддаваться (или не поддаваться) той или иной интерпретации того или иного автора — важно, что есть реальный объект для обсуждения и выдвижения гипотез.

Во-вторых, выявленные картами главных компонент географические закономерности можно изучать количественно. Примером количественного изучения могут служить корреляции между картами главных компонент генофонда Европы и картами расселения земледельческого населения, материальной культуры палеолита, гетерозиготности, заболеваемости [Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al.„1994; Балановская и др., 1997; Рычков и др., 1998].

В-третьих, можно перейти к пространству главных компонент. Ведь на карте мы видим распределение аналогов популяций с определенными значениями главных компонент в географическом пространстве. Наша задача — увидеть, как распределены эти популяции в самом пространстве главных компонент.

ПРОСТРАНСТВО ГЛАВНЫХ КОМПОНЕНТ

Мы говорили, что метод главных компонент может использоваться как в обычном статистическом, так и в картографическом обличье. И эти два подхода не изолированы: существует переход от карт главных компонент к обычному, статистическому представлению тех же результатов на графике.

Обычное представление главных компонент — двумерный график, по осям которого отложены значения главных компонент, а каждая изученная популяция представляется как точка на графике. Положение точки задаётся её координатами — значениями главных компонент в этой популяции. На таком двумерном графике популяции расположены в собственном пространстве — пространстве главных компонент. А на карте — эти же популяции представлены в реальном географическом пространстве. При картографическом представлении популяцией является узел цифровой модели, и для этой «картографической популяции» известно значение главной компоненты и её положение в географических координатах.

И обычное, и картографическое представление результатов являются двумерными, но в первом случае популяция характеризуется одновременно по значениям двух главных компонент

и без указания географического положения, а во втором случае одна карта показывает значения только одной компоненты, зато представлена география. Итак, на двух картах представлена та же информация, что и на одном графике, плюс географическое измерение. И мы можем при желании отказаться от этого дополнительного измерения и «свернуть» две карты в один двумерный график.

212
{"b":"970748","o":1}