Литмир - Электронная Библиотека

Сделать это очень легко. Поскольку из карты первой компоненты известно значение компоненты для каждого узла карты, а из второй карты известны значения второй компоненты для тех же узлов, то каждый узел карты можно представить на обычном двумерном графике. Отличие такого графика пространства главных компонент, полученного через карты, от графика, полученного обычным статистическим путем, состоит только в числе и в географической равномерности точек-популяций: на картографическом графике их обычно сотни и тысячи — столько, сколько узлов в цифровой модели карты, в равномерной сети, покрывающей карту.

Несмотря на простоту такого графика, в процессе визуального анализа взаиморасположения изученных групп создается образ, несущий новую информацию о группах. В результате пространство главных компонент [Балановская, Нурбаев, 1997] становится важным инструментом для осмысления результатов, их критической интерпретации и сопоставления с информацией об истории и экологии изучаемых групп.

ЭТНИЧЕСКИЕ ОБЛАКА

При работе с картами возникает одна сложность. При обычном представлении мы опознаем каждую точку-популяцию по её номеру или названию, подписанному рядом с ней на графике. Но как назвать тысячи популяций, единственным «именем» которых являются их географические координаты? Для этого карта подразделяется на несколько зон, и узлы обозначаются особым значком в зависимости от того, в какую зону они входят. Этими зонами могут быть, например, ареалы народов, и такой приём позволяет обогатить график главных компонент новым содержанием. Если мы анализируем данные по нескольким народам, то на обычном графике главных компонент каждый народ будет представлен одной или немногими точками (изученными популяциями), а на графике, полученном через карты, каждый народ будет представлен целым облаком точек (узлов карты). Причём число точек в этническом облаке будет прямо соответствовать размеру этнического ареала. А компактность или же размытость этнического облака будет свидетельствовать соответственно о сходстве или же различиях разных популяций этого народа, то есть о большей или меньшей внутриэтнической гетерогенности.

Тем самым график главных компонент, построенный через карты главных компонент, показывает не только взаимное генетическое сходство изученных народов, но и степень популяционных различий внутри этих народов.

Как осуществить это технически? Процедуры и примеры их применения подробно описаны в [Балановская, Нурбаев, 1997]. Выделим на картах компонент ареалы интересующих нас этносов. А затем осуществим переход от географического пространства к пространству главных компонент следующим образом. Обозначим аналоги популяций — узлы сетки карты — в ареале каждого этноса значками единого цвета и формы. То есть цвет или значки будут выступать маркёрами этнической принадлежности популяций. Для каждого узла сетки считаем значения 1 и 2 компонент соответственно с ЦМ — цифровых матриц карт 1 и 2 компонент. Подчеркнём, что значения компонент считываются с ЦМ, а не с визуализированных карт: в ЦМ карты каждый аналог популяции — узел сетки — имеет математически строго определённое значение картографированного признака и не зависит от заданной шкалы интервалов. Разместим каждую популяцию в пространстве 1 и 2 главных компонент.

Количество точек — популяций — прямо пропорционально ареалу этноса. Популяции каждого этноса образуют как бы «этническое облако», причём «этническое облако» отражает межпопуляционную изменчивость этноса в пространстве главных компонент. «Центры тяжести» этнического облака соответствуют результатам традиционного — не картографического — анализа главных компонент, если бы этот анализ проводился по средним этническим частотам генов.

Важно отметить, насколько большую информацию мы получаем, используя всю картографическую информацию о разнообразии этноса, а не только положение в пространстве главных компонент этнических центров: различие в информативности «этнических облаков» (их размеров, положения, конфигурации, плотности и т. д.) и их «центров тяжести» соответствуют различиям в информативности картографического и традиционного анализа.

Этнические облака могут частично перекрываться. Такое перекрывание этнических облаков можно интерпретировать как генетическую близость. Возможны ситуации, когда этнические облака не перекрываются вовсе или же генофонд одного этноса размещён в пределах этнического облака другого этноса. К одним из наиболее важных преимуществ картографо-статистического анализа главных компонент следует отнести то, что этнос представлен в пространстве главных компонент не точкой, а всеми вариациями популяций в пределах этнического ареала. Компактность «этнического облака» свидетельствует о генетической однородности этноса, размытость границ — о неоднородности его генофонда. Поэтому для одних этносов «этническое облако» может сгущаться до состояния грозовой тучи, а для других — рассеиваться как перистые облака.

Важно подчеркнуть, что пространство главных компонент является не иллюстрацией, а важным элементом количественного анализа, поскольку положение популяций в этом пространстве адекватно отражает расстояния между популяциями. Причём «… геометрическое расстояние между любой парой популяций представляет собой «истинное» многомерное генетическое расстояние с наименьшей возможной ошибкой» [Cavalli-Sforza, Piazza, 1993, с.13]. (Хотя эта формулировка лучше соответствует другому методу снижения размерности — многомерного шкалирования — но в первом приближении может применяться и к графику главных компонент). Таким образом, благодаря пространству главных компонент, мы можем оценивать взаиморасположение популяций различных этносов, степень сходства и различий их генофондов, причём выражать эти сходство и различия в точных терминах генетических расстояний. Такая возможность — очень важное достоинство пространства главных компонент. Это означает, что визуальный образ, создаваемый пространством главных компонент, основан на математически точных пропорциях и соотношениях популяций.

Последнее замечание касается набора популяций. Поскольку в их качестве выступают узлы равномерной сетки, то весь ареал этноса представлен в пространстве главных компонент полностью и равномерно. Однако изученность этноса никогда не бывает равномерной: одни территории исследованы подробно, другие представляют собой белые пятна. Оценки частот генов для малоизученных территорий — лишь прогноз с определённой степенью надёжности. Это означает, что и значения главных компонент в разных частях ареала определены с разной степенью надёжности: для одних частей — они высоко достоверны, для других — имеют чисто прогностическое значение. Если у нас есть инструмент для оценки надёжности картографической информации, то мы можем оставить в «этническом облаке» лишь те популяции, в отношении которых информация достаточно достоверна. Эти диаграммы отражают «надёжное» пространство главных компонент в отличие от исходных диаграмм, отражающих «прогнозируемое» пространство главных компонент.

Сравнение «прогнозируемого» и «надёжного» пространства демонстрирует, какие популяции каждого из этнических облаков можно интерпретировать уверенно, а в отношении каких следует соблюдать осторожность. Важным выводом из сопоставления этих двух видов диаграмм является высокая устойчивость «центров тяжести» — средних этнических оценок главных компонент. В общих чертах все выводы, сделанные нами в отношении центров тяжести этнических генофондов и этнических облаков в целом при анализе прогнозируемого пространства, сохраняют свое значение при рассмотрении «надёжного» пространства главных компонент [см. Балановская, Нурбаев, 1997]. Лучше всего использовать одновременно обе диаграммы — «прогнозируемого» и «надёжного» пространства главных компонент: «прогнозируемое» пространство позволяет видеть этнос как целое в многообразии составляющих его популяций; «надёжное» пространство позволяет оставлять лишь те заключения, которые опираются на надёжно определённые популяции.

213
{"b":"970748","o":1}