Рис. 4.2. Соотношение внутри — и межэтнической дифференциации в субгенофондах Сибири
Теперь спустимся на один популяционный уровень — к субрегионам (рис. 4.2.) и рассмотрим три субрегиона Сибири — Западную, Среднюю и Восточную Сибирь. Мы видим, что в них на разнообразие популяций в пределах этноса приходится уже много больше — две трети от всей межпопуляционной изменчивости FST субрегиона (рис. 4.2). Предположим, что исследование Средней Сибири будет проведено на уровне этносов, а Восточной Сибири — на уровне локальных популяций. Из рис. 4.2. ясно, что будет нельзя сравнивать полученные оценки изменчивости! Мы видим, что дифференциацию Средней Сибири в этом случае мы занизили в три раза (откинув 63 % всей изменчивости, которая приходится на различия локальных популяций внутри этноса) по сравнению с Восточной Сибирью.
Например, исследователь № 1 решил сравнить два субрегиона — Среднюю и Восточную Сибирь. При этом он совершил ошибку смешения разных уровней иерархии, смешения разных «матрёшек»: в Средней Сибири — оценил различия между этносами, а в Восточной Сибири — между локальными популяциями. Иными словами, он оценил разнообразие генофонда Средней Сибири (обозначим как MS) по различиям между его народами — долганами, нганасанами, кетами, энцами и другими. Он включил в анализ средние частоты для каждого народа (этнический уровень). В этом случае он получил бы в результате величину FST(MS-№ 1)=2.59[78], А в Восточной Сибири (ES) исследователь № 1 включил в анализ у бурят — все 17 изученных популяций, а не одну «средне-бурятскую» частоту, для эвенов — включил все 15 изученных популяций вместо «средне-эвенской», для якутов — все 36 популяций, для юкагиров — все 4 популяции. И так далее. То есть в Восточной Сибири он провёл анализ на другом уровне — уровне различий локальных популяций в регионе, а не этносов. Поэтому он получил бы в результате величину FSТ(ЕS-№ 1)=6.37. Сравнив изменчивость двух субрегионов Сибири, исследователь № 1 пришёл бы к выводу, что разнообразие генофонда Средней Сибири (2.59) намного меньше, чем Восточной Сибири (6.37): FST(MS-№ 1)<<FST(ES-№ 1).
Предположим, что исследователь № 2 также решил сравнить эти два субрегиона. Он совершил ту же ошибку смешения уровней иерархии, смешения разных «матрёшек», только как бы наоборот: в Средней Сибири — оценил различия между локальными популяциями, а в Восточной Сибири — между этносами. То есть, рассматривая генофонд Средней Сибири, он включил в анализ все 8 популяций долган вместо «средне-долганской» (как делал исследователь № 1), все 4 популяции нганасанан вместо «средненганасанской», все 5 популяций кетов, все 4 популяции энцев и т. д. Иными словами, в Средней Сибири он провёл анализ на уровне локальных популяций, а не этносов. Тогда он получил бы в результате величину FST(MS-№ 2)=7.00. А в Восточной Сибири исследователь № 2 поступил включил в анализ у нивхов Сахалина одну «средне-нивхскую» частоту, для эвенов — «среднеэвенскую», для якутов — «средне-якутскую», для юкагиров — «средне-юкагирскую». И так далее. То есть в Восточной Сибири он провёл анализ на уровне не локальных популяций, а этносов. Тогда он получил бы в результате величину FST(MS-№ 2)=2.36. Сравнив изменчивость, исследователь № 2 пришёл к выводу, что разнообразие генофонда Средней Сибири (7.00) намного больше, чем Восточной Сибири (2.36): FST(MS-№ 2)>> FST(ES-№ 2)!
Итак, оба исследователя изучали одни и те же регионы, использовали одну и ту же базу данных, исходные данные у них были совершенно одинаковы. Но выводы их оказались диаметрально и статистически достоверно (!) противоположны. И при этом оба вывода неверны. На самом деле изменчивость этих двух генофондов практически одинакова, причём на любом из уровней иерархии! На уровне различий между популяциями субрегионов в Средней Сибири FST(MS)=7.00, а в Восточной Сибири FST(MS)=6.37. На уровне различий между этносами субрегионов в Средней Сибири FST(MS-ET)=2.59, а в Восточной Сибири F8T(ES-ET)=2.36. А единственная причина, по которой получены совершенно неверные выводы лишь в том, как они организовали одни и те же данные, на каком уровне популяционной иерархии проводили анализ — причина в смешении разных уровней иерархии, сравнении разных «матрёшек».
Поясним ещё одним примером — реальным. Авторитетный исследователь[79] изучил один из коренных народов Сибири, и получил величину различий между популяциями этого народа FST(данного этноса)≈9. Много это или мало? Чтобы ответить на этот вопрос, он сравнил с величиной изменчивости популяций Сибири FST(Сибири)≈11. И сделал вывод, что различия популяций этого этноса несколько меньше, чем это принято в Сибири, но, в общем-то, такие же, как для других сибирских народов. Но вся беда в том, что та величина, с которой он сравнивал свой единственный этнос, FST(Сибири)≈11, охватывает популяции не одного этноса, а все популяции всех этносов Сибири! Иными словами, в эту величину (FST(Сибири)≈11) уже вошли не только различия между популяциями усредненного сибирского этноса, но и различия между всеми народами всей Сибири. На рисунке рис. 4.1. мы видим, что средняя гетерогенность сибирского этноса (различия между популяциями одного «усредненного» народа Сибири) составляет треть от FST(Сибири)≈11, то есть примерно FST(среднего этноса)≈3. Это означает, что народ, изученный этим исследователем, обладает уникально огромными различиями между популяциями — в три раза большими, чем для среднего этноса Сибири! Что требует специальных исследований и объяснений. Налицо совершенно неверный вывод — гетерогенность этого сибирского этноса (на изучение которого было потрачено столько сил!) вовсе не меньше среднего по Сибири (как заключил автор), а в три раза больше «нормы»! И столь ошибочный вывод был сделан лишь потому, что автор забыл об уровнях популяционной иерархии.
Ошибка FST, заданная неправильной организацией материала, столь велика, что сопоставление генофондов теряет всякий смысл: FST зависит уже не от свойств генофонда, а лишь от соотношения этносов и локальных популяций в выборке. Если наиболее изученные регионы (или гены) исследованы на уровне локальных популяций, а менее изученные — на уровне этносов, то оценки FST(i) — только за счет выборки популяций — для наиболее изученных объектов будут на треть-две трети больше, чем для слабо изученных. В этом случае сравнение регионов (или генов) будет отражать только ошибку в организации данных, а не особенности генофонда. Сравнительное изучение дифференциации региональных генофондов или разных генов в этом случае проблематично: оценки абсолютно ненадёжны, независимо от того, каковы статистические оценки их достоверности.
Поэтому, сравнивая дифференциацию разных генов FST(i) при анализе одного и того же генофонда, мы должны включать в анализ популяции одного и того же иерархического уровня. Когда мы переходим к сравнению генофондов разных регионов, то здесь добавляется ещё одно требование: иерархические уровни самих регионов, самих тотальных популяций должны быть идентичны.
Например, корректно сравнивать по величине дифференциации (FST) генофонды таких регионов, как Европа, Сибирь и Америка — они находятся на одном иерархическом уровне. Можно сравнивать субрегионы — генофонды Средней Сибири и Северной Европы — они также находятся на одном иерархическом уровне (субрегионов). Но нельзя сравнивать субрегион с регионом — например, Среднюю Сибирь с Европой в целом, считая их равноценными партнерами сравнения, забывая об их иерархии. Это наглядно видно из сравнения рис. 4.1. и 4.2. — легко рассчитать, что дифференциация FST Сибири в два раза больше, чем дифференциация её субрегионов. Значит, сравнивая Среднюю Сибирь и Европу, мы сравниваем «половинку» с «целым», приравниваем их. Что же сказать о таких сравнениях, как дифференциация отдельного этноса и региона в целом? В этом случае малая часть (треть или даже четверть) как бы приравнивается к целому! Выводы таких сравнений — а их немало в популяционных публикациях — содержат столь крупную методическую ошибку, что она сводит на нет все усилия авторов. Иными словами, сравнение популяций разных иерархических уровней содержит в себе очень серьёзную ошибку и приводит к заведомо неверным результатам, если при интерпретации мы забываем о разном «ранге» сравниваемых популяций.