Эти меры подробно описаны во многих зарубежных руководствах по популяционной генетике. Из отечественных и переведенных монографий можно рекомендовать учебники [Ли, 1978; Вейр, 1995] В русскоязычных монографиях основные сведения о FST и СSТ-статистиках кратко, но очень емко освещены в работах Ю. П. Алтухова [Алтухов, 1983, 1989, 2003; Алтухов и др., 1997; Динамика популяционных генофондов…, 2004]. Оба показателя (FST≈GST) являются нормированной дисперсией частоты аллеля.
Например, FST=σ2q/q(1-q), где σ2q=k-1∑(qj- q)2, а средняя частота аллеля q в подразделённой популяции, состоящей из k субпопуляций (j=1,2…, k), рассчитывается как k-1∑qj.
Неевская мера генетического разнообразия (GSТ-статистика) имеет на наш взгляд, некоторые преимущества перед другими: она концептуально проста и логична; её посылки и преобразования имеют ясный и точный биологический смысл, теория её элегантна, расчёты не громоздки. GSТ-статистика может быть выражена и в понятиях FST, блестяще разработанных теорией популяционной генетики, и в привычных ныне многим понятиям генетических расстояний (как угловых, так и неевских), а поэтому GSТ-статистика позволяет использовать модели и результаты, изложенных в терминах всех этих мер. Также крайне важно, что GSТ-статистика может успешно применяться для популяций, в которых нарушено равновесие Харди-Вайнберга, нет случайного скрещивания и действует естественный отбор [Nei, Roychoudhury, 1974; Nei, 1975].
АНАЛИЗ ИЕРАХИЧЕСКИХ (МНОГОУРОВНЕВЫХ) ПОПУЛЯЦИЙ
Очень важное достоинство GSТ-статистик — возможность вести анализ иерархически соподчиненных популяций. Для этого разработан четкий алгоритм, позволяющий разложить генетическую изменчивость популяций огромного региона GSТ на её составляющие. Поясним этот механизм на примерах (детальное описание алгоритма и результатов его использования дано в [Рычков, Ящук (Балановская), 1980, 1983, 1986]). Каждый иерархический уровень популяций, начиная с самых «дробных» популяций и поднимаясь до уровня региона, обозначим цифрами 1, 2, 3 и т. д. Пусть первый уровень (1) — локальные популяции (села, веси, города). Второй уровень (2) — территориальные группы народа (например, казаки или поморы в пределах русского народа). Третий уровень (3) — этносы (то есть народы — например, русские, белорусы и украинцы). Четвертый уровень (4) — группы «родственных» народов (например, лингвистические ветви — славянская, романская). Пятый уровень (5) — население, говорящее на языках одной лингвистической семьи (индоевропейской или же уральской). И последний, верхний уровень (Т) — «тотально» население всего региона (например, Восточной Европы).
С помощью GST-статистик мы можем оценить среднюю генетическую изменчивость популяций на каждом уровне популяционной системы. Тогда G12 — обозначает средние генетические различия между локальными популяциями в пределах одной территориальной группы (например, между популяциями поморов); G23 — средние различия между территориальными группами в пределах одного народа (например, поморы, казаки и другие — в пределах русского народа); G34 — средние генетические различия между народами в пределах лингвистической ветви; G45 — средние различия между ветвями одной лингвистической семьи; G5T — различия между лингвистическими семьями региона. При этом соблюдается равенство GST=G12+G23+G34+G45+GST.
Все составляющие GST связаны аддитивно. Поэтому, если мы решим «миновать» какие-то уровни, это не создаст проблем. Например, у нас не для всех этносов региона есть генетические данные об их территориальных группах (удмурты и карелы представлены лишь одной группой популяций). Или нет сведений о генофондах разных ветвей лингвистической семьи (индоевропейская семья представлена только славянами). В этих случаях мы можем плохо представленные уровни просто «пропустить». Тогда у нас будет G13 — средние генетические различия между локальными популяциями в пределах одного народа (например, села и веси в пределах русского народа, минуя территориальные группы); G35 — средние генетические различия между народами в пределах лингвистической семьи (минуя лингвистические ветви); GST — различия между лингвистическими семьями региона (здесь мы на самом деле миновали «суперсемьи», например, ностратическую). При этом будет соблюдаться равенство GST=G23+G35+GST.
ДВЕ СОСТАВЛЯЮЩИЕ ИЗМЕНЧИВОСТИ; МЕЖДУ ПОПУЛЯЦИЯМИ И ВНУТРИ ПОПУЛЯЦИЙ
В понятие GSТ-статистик входят не только сами GST и их составляющие (G12, G23, G13…), которые оценивают различия между популяциями, но также НT и НS, обращенные «внутрь» популяций. Показатель НT оценивает общее генетическое разнообразие, накопленное всей «тотальной» популяцией. Он включает в себя и различия между популяциями GST, и различия между индивидами внутри популяций НS. Показатель НS оценивает различия внутри популяции и потому называется показателем гетерозиготности популяции. Это и понятно — показатель НS оценивает, насколько генетически похожи друг на друга представители одной популяции. НS может оцениваться для любого уровня иерархии, но обычно рассчитывается только для самого нижнего уровня, каким бы мы его ни выбрали — то есть это может быть гетерозиготность локальных популяций или же этносов. Все GSТ-статистики связаны между собой следующими соотношениями:
GSТ≈FST=DST/HT
HT=DST+HS
HT=1-∑q2i
HS=1-∑q2ij
где qij — частота i-того аллеля в j-той субпопуляции (j=1,2…, k), k — число субпопуляций; — средняя частота i-того аллеля в тотальной популяции, а DSТ=(k-1)-1(qi-qij)2 представляет собой дисперсию частоты аллеля.
DST, FST и GST — ЭТО ПО СУТИ ПОЧТИ ОДНО И ТО ЖЕ
Однако сама дисперсия DST зависит от частоты аллеля в популяции. Поэтому всегда используют показатель GST. Он, как и FST, представляет собой дисперсию частот аллелей, нормированную на общее генетическое разнообразие Ну, и не зависит от средней частоты аллеля. Для диаллельных генов равенство GST=FST выполняется строго, для мультиаллельных генов равенство выполняется лишь примерно: GST≈FST, поскольку в расчёт FST входит и оценка ковариации между частотами аллелей, а для GST — не входит. Но это не мешает обоим этим показателям быть очень близкими по величине и взаимозаменяемыми: ведь размах ковариации между частотами аллелей обычно меньше той случайной ошибки, с которой и FST, и GST варьируют около истинной оценки различий между популяциями. Поэтому вся огромная литература о статистических свойствах FST распространяется и на свойства GST. И мы дальше используем GST и FST как синонимы, хотя сами величины межпопуляционных различий оценивали с помощью неевских GST статистик.