§ 8. «Синтетические» карты главных компонент
Карты главных компонент представлять не надо, как и их аналог для признаков с внутригрупповой корреляцией — канонические переменные. Эти методы уже давно стали традиционными как в антропологии, так и в генетике.
СУТЬ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ
Метод главных компонент относится к группе методов снижения размерности, наряду с многомерным шкалированием, факторным анализом, анализом канонических переменных, методом экстремальной группировки признаков и другими [Айвазян и др., 1989]. Снижение размерности представляет собой переход от исходного набора многих показателей к небольшому числу вспомогательных переменных, на основании которых можно достаточно точно воспроизвести свойства анализируемого массива данных [Айвазян и др., 1989].
Первой главной компонентой исследуемой системы показателей называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций обладает наибольшей дисперсией. Любой k-той главной компонентой называется такая нормированно-центрированная линейная комбинация, которая некоррелирована с предыдущими главными компонентами и среди всех прочих нормированно-центрированных и некоррелированных с предыдущими линейными комбинациями обладает наибольшей дисперсией [Айвазян и др., 1989].
Главные компоненты обладают следующими основными свойствами [Айвазян и др., 1989; Дерябин, 2001]:
1. Первые главные компоненты характеризуются наибольшей информативностью, которая определяется величиной их дисперсии (долей от общей суммарной дисперсии всех исходных признаков).
2. Все главные компоненты нескоррелированы и поэтому представляют собой независимые признаки.
Таким образом, анализ главных компонент представляет собой процедуру для упрощения многомерных данных с минимальной потерей информации [Cavalli-Sforza et al., 1994].
КАРТОГРАФИРОВАНИЕ-ГЛАВНЫХ КОМПОНЕНТ
Геногеография позволяет не только провести стандартную процедуру анализа главных компонент, но и увидеть их распределение в географическом пространстве. Каждая из карт главных компонент отражает динамику новых обобщённых признаков генофонда, имеет свой генетический ландшафт и выдвигает на первый план особый исторический сценарий [Cavalli-Sforza, Piazza, 1993] развития генофонда. Карты главных компонент уже не раз публиковались и демонстрировались для самых разных генофондов — Восточной Европы, Европы, Евразии, мира [Menozzi et al., 1978; Ammerman, Cavalli-Sforza, 1984; Rendine et al., 1986; Рычков, Балановская 1992; Cavalli-Sforza et al., 1995; Балановская, Нурбаев, 1997; Рычков и др., 1997, 1998].
Основным стимулом для развития всей компьютерной геногеографии (как для зарубежной, так и для отечественной геногеографических школ) явилось именно стремление построить географические карты главных компонент. По мнению Л. Д. Кавалли-Сфорца [Cavalli-Sforza et al., 1994], построение карт главных компонент может облегчить визуализацию древних миграций, а также иные факторы, однотипно влияющие одновременно на целый ряд генов. Впервые карты главных компонент были созданы коллективом под руководством L. L. Cavalli-Sforza [Menozzi et al., 1978], причём для этого коллектива карты главных компонент («синтетические» карты) являются основным методом картографического обобщения [Menozzi et al., 1978; Piazza et al., 1981 a,b; Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al., 1995]. Независимо собственная технология картографирования главных компонент разрабатывалась одним из авторов (Е. В. Балановской) в сотрудничестве с Ю. Г. Рычковым, С. М. Кошелем, Д. Б. Патрикеевым, Т. П. Папковой, С. Д. Нурбаевым. Последняя версия включает нормировку исходных данных, нормировку дисперсии, расчёт по корреляционной матрице и оптимизацию решения (упорядочивание собственных векторов и собственных чисел для обеспечения инвариантности решения). Основное отличие наших карт от создаваемых коллективом L. L. Cavalli-Sforza — в том, что наши карты обладают большей точностью и разработанностью деталей рельефа главных компонент (это связано с особенностями построения исходных карт генов). Однако по самой сути подхода и те, и другие карты главных компонент чрезвычайно сходны и могут сопоставляться без дополнительной коррекции.
Расчёт главных компонент осуществляется следующим образом. По значениям признаков (частот аллелей) в популяциях рассчитывается матрица корреляций всех аллелей друг с другом. Значения главных компонент для данной популяции вычисляются по значениям исходных признаков, умноженных на соответствующие коэффициенты. В качестве коэффициентов выступают собственные векторы ковариационной матрицы отдельных признаков, при условии некоррелированности получаемых на их основе главных компонент. Поэтому первым шагом является расчёт коэффициентов ковариации, затем производится решение соответствующего уравнения, корнями которого являются собственные вектора ковариационной матрицы, и, наконец, перемножением этих коэффициентов и значений частот аллелей находятся величины главных компонент.
Этот алгоритм расчёта главных компонент заложен практически во всех статистических программных пакетах. Поскольку в геногеографии необходимо провести расчёт карт главных компонент не по исходным данным, а по картам отдельных признаков, то для этого созданы оригинальные программы картографического пакета GGMAG. Так как цифровая модель карты представляет собой числовую матрицу со значениями частоты аллеля в каждом узле, то задача расчёта главных компонент сводится к получению значений главных компонент в каждом узле цифровой модели. При расчёте с использованием картографического пакета последовательность значений во всех узлах ЦМ выступает в том же качестве, как последовательность значений в одной строке таблицы данных при расчёте в обычном статистическом пакете. По данным во всех узлах ЦМ рассчитывается матрица корреляций всех ЦМ друг с другом. По корреляционной матрице вычисляются значения главных компонент для каждого из аналогов популяций (узлов равномерной сетки карты). Полученные значения главных компонент вновь присваиваются каждому узлу ЦМ. В результате создается ЦМ карт 1 главной компоненты, 2, 3… N главной компоненты, где N — число исходных карт отдельных признаков [Cavalli-Sforza et al., 1994; Балановская, Нурбаев, 1997]. Число результирующих карт главных компонент равняется числу исходных признаков, однако обычно рассматриваются карты только первых двух-трех компонент, описывающих основную часть изменчивости всех исходных признаков.
Таким образом, при расчёте карт главных компонент используется тот же алгоритм, что и при обычных статистических расчётах. Единственное отличие состоит в том, что получаемые значения главных компонент в популяциях (узлах сетки карты) имеют координатную привязку и поэтому представляются не в табличном формате, а в формате цифровой модели. Как указывалось, эта функция расчёта по значениям, привязанным к узлам ЦМ, реализована в программном пакете GGMAG.
ЗАЧЕМ НАДО СТРОИТЬ КАРТЫ ГЛАВНЫХ КОМПОНЕНТ?
Этот вопрос кажется простым — конечно, чтобы своими глазами увидеть невидимое — главные закономерности в изменчивости генофонда. Но на самом деле вопрос не так прост. Он подразумевает иное — а зачем надо разрабатывать сложные специальные программы? Почему геногео-графикам так важно строить карты главных компонент по исходным картам генов? Почему бы не рассчитать главные компоненты с помощью обычных статистических пакетов, а затем уже построить карты по полученным значениям главных компонент, как мы строим простые карты отдельных признаков? Иными словами, зачем так стараться создавать сложные карты, если можно построить простые? Особое значение, которое приобретает именно картографический, а не чисто статистический анализ главных компонент, объясняется в первую очередь неравномерностью исходных данных.