Вопрос не праздный. Мы недаром приводим в разделе 5.3. две средние оценки гетерогенности русского народа (генетических различий между русскими популяциями — GST). Одна из них (GST=2.00) получена по табличным данным для того, чтобы сравнить её с табличными данными по другим народам Евразии. Вторая оценка гетерогенности (GST=1.36) получена по картографированным значениям для того, чтобы сравнить её с изменчивостью каждой из карт русского народа (см. раздел 5.1). Причём мы специально рассчитали обе оценки строго по одним и тем же популяциям и строго по одним и тем же генетическим маркёрам (44 аллеля 17 локусов). Однако, как мы видим, различия между этими двумя оценками велики (GST=2.00 и GST=1.36). И возникают эти различия в результате процедуры картографирования.
Так какая же оценка более «правильная»? Решающим аргументом служит то, что при картографировании учитывается новый параметр — география, учитывается важнейший атрибут популяции — её ареал. Если до этого для изменчивости гена было как бы одно измерение — лишь его частота, то теперь появляются ещё два измерения — двумерное пространство геногеографической карты. Карта учитывает географию гена. И поэтому мы считаем, что оценка, полученная по карте, является более точной — она уточняет статистические параметры изменчивости гена, рассчитанные просто по табличным данным, при игнорировании реального географического пространства, в котором живут популяции.
Но чтобы это утверждение не было голословным, рассмотрим на конкретных примерах, что в действительности происходит при переходе от таблицы к карте.
ЕСТЬ ЛИ РАЗЛИЧИЯ МЕЖДУ СТАТИСТИКАМИ КАРТ И ТАБЛИЦ?
Для ответа на этот вопрос проведём моделирование на разных генофондах. Возьмём в качестве модельных объектов три иерархически соподчинённых генофонда: 1) Белоруссия; 2) Черноморо-Балтийский регион (для краткости назовём его «Западным»), который включает в себя, кроме Белоруссии, также Украину, Молдавию, Литву, Латвию, Эстонию; 3) Северная Евразия, которая включает в себя и Черноморо-Балтийский, и все остальные регионы бывшего СССР. Мы видим, что каждый последующий генофонд включает в себя, как матрёшка, предыдущий и позволяет прослеживать закономерности более высокого порядка. Такой «принцип матрёшки» позволяет выявлять общее и особенное в пространственной структуре каждого из генофондов, а с методической стороны даёт возможность провести анализ с внутренним контролем. В качестве модельных генетических маркёров возьмём два самых подробно изученных. Это, конечно же, группы крови — всем известные как I, II, III и IV группы локуса АВ0 и резус (RH).
Таблица 5.1.1.
Сравнение средних частот (М) и межпопуляционных различий (GST) для исходных («таблица») и картографированных («карта») значений признаков
Примечание: состав регионов указан в тексте.
Чтобы критически оценить новую информацию, которую вносит учёт географического ареала популяций, рассмотрим для каждой из «матрёшек» по два распределения. Первое распределение («табличное») характеризует данные таблиц до картографирования — частоты гена в изученных популяциях. А второе распределение («карточное») характеризует карты — картографированные значения. Мы не будем утомлять читателя гистограммами (они приведены на картах модельных регионов в [Балановская и др., 1994; Балановская, Нурбаев, 1995]), и приведем только средние значения частоты аллеля (М) и межпопуляционные различия (GST) до и после картографирования (табл. 5.1.1).
Сравнение таблиц и карт показывает, что нет единой закономерности изменений при картографировании: всё зависит от самого гена, от особенностей его распределения и изученности. Каждый из показателей (М и GST) при переходе от таблиц к картам может как уменьшаться, так и увеличиваться!
В чем причина таких разночтений? То новое, что вносит карта, связано с двумя основными факторами, действующими противоположно.
Первый фактор — большее число анализируемых точек. На карте всегда больше число промежуточных значений, чем в таблице: число узлов сетки N всегда намного больше числа исходных популяций К. Поэтому только за счёт появления множества промежуточных значений между опорными точками дисперсия (и, соответственно, GST) картографированных значений уменьшается (по сравнению с дисперсией табличных значений), а гистограмма на карте становится более плавной.
Второй фактор — неравенство популяционных ареалов — обычно сказывается противоположным образом, то есть увеличением разнообразия карты (GST). Этот фактор оказывается ведущим тогда, когда есть связь между частотой признака и площадью, занятой данным интервалом частоты. Этот фактор не только увеличивает разнообразие, но и меняет среднюю частоту признака на карте, сдвигая его в сторону значений, распространённых на большем ареале.
Например, пусть зоны с минимальными (частота равна 0) и зоны с максимальными (частота равна 1) частотами признака резко различаются по площади их ареалов. Пусть площадь зоны минимумов (Nmin) в 10 раз меньше, чем площадь зоны максимумов (Nmax):(Nmin)=10. А в таблице число изученных популяций для каждой из зон одинаково: Kmax=Kmin. Тогда из таблицы мы получим среднее значение частоты равное 0.5.
А на карте — среднее значение частоты будет близко к единице (0.91). И карты дадут более корректный результат — он учитывает географическое пространство и размер популяционных ареалов. И этот пример невыдуманный. Например, мы можем изучить множество популяций кавказских народов на небольшом пространстве Кавказских гор — и столько же популяций на бескрайних просторах Сибири. Причём изученность народов (среднее число популяций, изученных для одного народа) может быть одинаковой — просто размеры этнических ареалов резко различны на Кавказе и в Сибири. И, характеризуя изменчивость Евразии, мы не имеем права смещать её средние оценки в сторону меньшего по площади Кавказа только потому, что на этой небольшой территории проживает множество народов.
Есть и третий фактор — влияние интерполяционной процедуры. Но его воздействие на изменчивость карты неоднозначно и зависит от параметров интерполяции.
При интерполяции ортогональными полиномами нулевой степени узлы сетки могут содержать только значения частот аллеля, промежуточные между значениями в опорных точках. Например, узлы сетки, расположенные вокруг исходных популяций с частотами 0.2 и 0.6, будут нести только промежуточные значения — 0.21, 0.30, 0.40, 0.50, 0.59. Это уменьшает дисперсию (и GST) при переходе от таблиц к карте. Однако при интерполяции ортогональными полиномами первой степени картина иная. При продолжении географического тренда признака на области, не обеспеченные опорными точками, в этих областях формируются значения не промежуточные, а соответствующие продолжению тренда. Например, увеличение частоты аллеля от 0.2. до 0.6 может сопровождаться продолжением тренда в узлах сетки — частотами 0.70,0.80, 0.90. Это увеличивает дисперсию карты (GST).
Рассмотрим действие первых двух факторов в наших модельных регионах.
Действие первого фактора ярко проявляется для населения Белоруссии и Западного региона (табл. 5.1.1): разнообразие карт (GST) примерно в полтора раза меньше табличных, хотя средние частоты (М) не изменились при создании карт обоих генов (АВ0 и RH). В этих регионах различия в популяционных ареалах не очень велики, а потому и действие второго фактора сведено к минимуму. Он практически не действует и тогда, когда нет систематических различий в частоте гена между популяциями с резко различными ареалами. Именно это характерно для гена АВ0*0 в Северной Евразии (табл. 5.1.1). Поэтому картографирование гена АВ0*0 в Северной Евразии не изменило ни его среднюю частоту, ни межпопуляционное разнообразие.