Но тут обычно рождается вопрос. Мы сказали, что для расчёта региональной частоты нужно усреднить этнические частоты. Но разве нельзя усреднить частоты в локальных популяциях? Разве нельзя получить среднюю частоту региона Восточная Европа как среднюю частоту по всем изученным локальным популяциям этого региона? Рассчитаем её: суммируем 0.1 (Хмельницкая область) + 0.2 (Львовская) + 0.1 (Ивано-Франковская) + 0.3 (Полтавская) + 0.3 (Черкасская) + 0.6 (аукшайты) + 0.4 (жемяйты) + 0.6 (ненцы) + 0.8 (ненцы) и разделим на число популяций (9). Мы видим, что полученная величина — частота 0.38 — заметно отличается от первой оценки (0.47). Какая же оценка правильней? Конечно же, первая — рассчитанная по этническим частотам. Почему?
Подробно этот вопрос разбирается в Приложении (раздел 4). Но и без специальных пояснений в нашем простом примере читатель легко заметит, что при втором способе расчёта (по локальным популяциям) восточно-европейская частота приблизилась к украинской — и только лишь потому, что по украинцам у нас больше изученных популяций. Мы не можем избежать неравномерности изученности разных народов — кому-то из них повезло больше, кому-то — нет. Но, рассчитывая региональные частоты не из частот в локальных популяциях, а из этнических частот, мы можем ослабить влияние этой неравномерности.
Итак, рассчитывая среднюю частоту на каждом последующем уровне, мы усредняем частоты в популяциях предыдущего уровня. Средняя частота по Восточной Европе — это средняя по этническим частотам (а не по локальным популяциям), средняя по Северной Евразии — это средняя по региональным частотам (а не по этническим) и так далее.
ОТ МЕНЬШЕЙ МАТРЁШКИ — К БОЛЬШЕЙ: РАСЧЕТ ДИСПЕРСИИ
Для региона мы также должны рассчитать не только среднюю, но и показатель межпопуляционной изменчивости. И тут мы сталкиваемся с чрезвычайно полезным аддитивным свойством GST: изменчивость, рассчитанную для разных уровней, можно суммировать! Рассмотрим получившуюся систему.
В нашем примере Восточная Европа состоит из украинцев, литовцев и ненцев. Но украинцы, в свою очередь, состоят из пяти популяций, со своей величиной внутри-украинской изменчивости между этими пятью популяциями; литовцы состоят из двух популяций, со своей внутри-литовской изменчивостью, ненцы состоят из двух популяций, со своей внутри-ненецкой изменчивостью. Усреднив эти три показателя внутриэтнической изменчивости, мы получим среднюю величину изменчивости — внутри «среднего» восточноевропейского народа. Теперь суммируем эту величину (изменчивость на внутриэтническом уровне) и изменчивость межэтническую (между средними частотами у украинцев, литовцев, и ненцев) и получим общую изменчивость Восточной Европы.
Важно лишь всегда отслеживать, по каким частотам рассчитана изменчивость региона. И если она рассчитана по этническим частотам, то необходимо понимать, что мы имеем лишь часть (межэтническую часть) региональной изменчивости (Приложение, раздел 4.). Чтобы узнать величину всей региональной изменчивости, нам нужно приплюсовать средний уровень внутриэтнической изменчивости (либо, как описывается ниже, пересчитать региональную изменчивость по популяционным, а не этническим частотам).
ЕСЛИ НАРОД ИЗУЧЕН ТОЛЬКО ПО ОДНОЙ ПОПУЛЯЦИИ
В нашем примере у нас было по несколько изученных популяций на каждый народ. Но бывает, что таких подробных данных нет. Допустим, в дополнение к имеющимся, появились данные по одной популяции удмуртов (частота q=0.6). Тогда среднеэтническая для удмуртов, очевидно, останется той же — 0.6. Но как быть с дисперсией? Формально, мы должны приписать удмуртам нулевую внутриэтническую изменчивость. Хотя понятно, что как только появятся данные по ещё одной популяции удмуртов, у них появится ненулевая внутриэтническая изменчивость (обнаружатся генетические различия между этими популяциями). Но пока таких данных нет, изменчивость удмуртов остается «условно-нулевой», и если мы теперь учтем удмуртов при расчёте средней внутриэтнической изменчивости, мы занизим эту величину за счёт «условно-нулевых» удмуртов. И если в наших данных многие народы будут изучены лишь по одной популяции, эта особенность данных сильно исказит результат. Поэтому мы пользуемся правилом — популяции, представленные единственной субпопуляцией, не учитываются при анализе GST.
ПРЫГАЯ ЧЕРЕЗ ОДНУ «МАТРЁШКУ»
Повторимся, что величину изменчивости в пределах Восточной Европы мы получили сложением изменчивости между этническими частотами и изменчивости между локальными популяциями внутри этносов. Но разве не могли мы её получить более прямым способом — рассчитав изменчивость между всеми локальными популяциями, не обращая внимания на этническую принадлежность этих популяций? Могли бы, и получили бы примерно ту же величину GST. Именно в этом и состоит одно из преимуществ GST статистики — общая изменчивость многоуровневой системы складывается из изменчивости на всех её уровнях (свойство аддитивности). Если же мы проигнорируем все промежуточные уровни и рассчитаем изменчивость среди локальных популяций («прыгая» через уровень), то получим ту же самую величину.
Отметим, что для совпадения оценок изменчивости, полученными двумя методами (последовательным иерархическим и «прыгая» через уровень), нужно пользоваться «правильными» средними частотами. Например, изменчивость локальных популяций Восточной Европы должна рассчитываться не относительно средней частоты в этих девяти популяциях, а относительно средней между тремя этническими частотами. Это необходимо для того, чтобы избежать влияния неравной изученности народов или регионов — для того, чтобы наиболее изученные народы не «перетягивали одеяло» на себя. Мы уже упоминали об этой сложности при расчёте региональных частот — для большей «матрёшки» брать частоты у «матрёшки» поменьше. Итак, даже прыгая через «матрёшку», для расчёта «правильной» изменчивости надо всё равно использовать частоты пропущенной «матрёшки». Надо всегда брать частоты у популяций предыдущего уровня (этнические частоты — при расчёте субрегиональной средней, субрегиональные частоты — при расчёте региональной средней, и так далее).
ЗАЧЕМ ВСЁ ЭТО ЗДЕСЬ НУЖНО?
Потому что иначе нельзя описать изменчивость русского народа среди его соседей по Евразии. Мы вкратце описали общие свойства иерархических популяционных систем (подробнее см. Приложение). Человечество действительно представляет собой такую популяционную систему, и чтобы ориентироваться в его генетической изменчивости, очень полезно освоиться с такой терминологией и таким способом мышления. Локальные популяции — и этнические. Этнические — и региональные. Далее регионы могут вкладываться в макрорегионы, а те — в ойкумену. На каждом уровне мы рассчитываем среднюю частоту и «дисперсию» — меж-популяционную изменчивость. В таких терминах мы и описываем изменчивость русского народа по каждому гену.
Причём часто полезно бывает сравнить этническую частоту гена у русских с региональными частотами для Урала, Кавказа, Сибири… Или частоту в локальной русской популяции — с этническими частотами соседних марийцев, татар, украинцев… Надо только при этом помнить, что чем больше «матрёшка», тем устойчивее её частота (если, конечно, её определили не по одной первой попавшейся популяции). Например, частота в меньшей «матрёшке», скорее всего, изменится сильнее, чем в большой, если мы проведём их повторные генетические обследования.
Но когда мы сравниваем не просто средние частоты, а их диапазон, то здесь забывать о ранге «матрёшек» уже никак нельзя! Например, нам приходится сравнивать диапазон частот в русских популяциях с диапазоном частот в Северной Евразии. Здесь нас подстерегает одна из сложностей, о которых мы предупреждали выше — диапазон частот между локальными русскими популяциями может парадоксальным образом оказаться больше «евразийского», то есть изменчивость части — больше изменчивости целого. И это потому, что оценка «евразийского» диапазона частот будет точнее, если взять этнические частоты — они более устойчивы. Если же мы включим в анализ все известные локальные популяции Евразии (со всеми ошибками их выборок), то «евразийская» изменчивость мгновенно перерастёт «русскую», и парадокс благополучно разрешится.