Литмир - Электронная Библиотека

Русский генофонд на Русской равнине - img_249

Рис. 3.2 Карта главной компоненты, построенная прямым способом: расчёт главным компонент и потом построение карты главной компоненты

Приведена карта второй главной компоненты изменчивости частот русских фамилий по «сельсоветным» данным

Русский генофонд на Русской равнине - img_250

Рис. 3.1. Карта главной компоненты, построенная интерполяционным способом: сначала построение карт отдельных признаков и потом расчёт по этим картам главных компонент.

Приведена карта второй главной компоненты изменчивости частот русских фамилий по «сельсоветным» данным.

§ 9. Проблема ложных корреляций

В заключение коснемся важного методического вопроса, относящегося к картографированию главных компонент. Этот вопрос был очень остро поставлен в дискуссии между R. Sokal и L. L. Cavalli-Sforza об эффекте ложных корреляций, вносимых интерполяционной процедурой картографирования [Sokal et al., 1999ab; Rendine et al., 1999].

В чем же проблема? Поскольку число изученных популяций всегда много меньше числа узлов карты, при создании картографической модели необходимо использовать процедуру интерполяции данных. R. Sokal указывает, что это может привести к возникновению ложных корреляций между картами. Дело в том, что на территории промежуточной между изученными популяциями интерполяция прогнозирует постепенные изменения. И даже если в действительности картина более сложна, мы не сможем её выявить, пока не изучим промежуточные популяции, и наша карта будет «гладкой», с постепенными изменениями. Если теперь предположить, что постепенные изменения в данной области карты появятся на нескольких картах, то эти карты будут коррелировать друг с другом в данной области. Очевидно, что эта корреляция «индуцирована» интерполяцией и может иметь, а может и не иметь оснований в реальном распределении двух признаков. А так как главные компоненты вычисляются по матрице корреляций между картами, то и главные компоненты должны нести те или иные искажения вследствие ошибки таких ложных корреляций. Если же значения главных компонент были бы рассчитаны «прямым способом», то есть по исходным данным (без всяких карт), а уже потом по результатам такого расчёта построена карта главных компонент, то в этом случае, как указывает R. Sokal, мы избежали бы ошибки ложных корреляций. Вместе с тем R. Sokal согласен, что подобный способ расчёта (сначала рассчитать значения главных компонент, а потом уже картографировать «готовые» значения) возможен лишь в тех чрезвычайно редких случаях, когда весь ряд популяций изучен по всему набору признаков.

В целом, соглашаясь с логикой R. Sokal, мы считаем, что предложенный им выход — отказ от карт главных компонент — является мерой крайней и поспешной. Следует, по-видимому, провести более тщательное изучение этого вопроса — как теоретическое, так и путем прямого эксперимента. По аутосомным генетическим маркёрам провести такой эксперимент нельзя, так как нельзя построить карту главных компонент «прямым способом», поскольку популяции изучены по разному набору маркёров (в таблице «все популяции на все маркёры» многие ячейки пустуют). Однако квазигенетические маркёры (фамилии) и однородительские ДНК маркёры изучены обычно во всех популяциях (см. главы 6 и 7). Это позволило нам провести экспериментальную проверку значимости эффекта ложных корреляций.

ЭФФЕКТА ЛОЖНЫХ КОРРЕЛЯЦИЙ — НЕТ!

Итак, мы решили напрямую проверить — есть ли в действительности, а не в теории, эффект ложных корреляций?

РУССКИЕ ФАМИЛИИ. Для этого нами были построены карты главных компонент изменчивости русских фамилий в двух вариантах — расчёт «по картам» и расчёт «прямым способом». Во избежание всяких сомнений, эти карты были построены по популяциям строго одного уровня — по данным о частотах фамилий в сельсоветах. Рис. 3.1. демонстрирует результат первого способа расчёта («по картам»), вызвавшего сомнения R. Sokal (построение карт отдельных признаков и потом расчёт по этим картам главных компонент). На рис. 3.2. приведена карта этой же компоненты, но рассчитанная «прямым способом» и рассматриваемая как эталон правильности (расчёт главных компонент по исходным данным).

При сопоставлении этих карт становится очевидным их полное сходство. Коэффициент корреляции составил r=0.963. Это значит, что расчёт главных компонент «по картам» и «прямым способом» дал идентичные результаты.

ГАПЛОГРУППЫ У ХРОМОСОМЫ В РУССКОМ ГЕНОФОНДЕ. Но, может быть, только фамилии обнаруживают столь полное совпадение? Нет. Мы провели полностью аналогичный анализ и для ДНК маркёров — изменчивости гаплогрупп Y хромосомы в историческом русском ареале. И вновь расчёт главных компонент «по картам» и «прямым способом» дал идентичные результаты: коэффициент корреляции составил r=0.997 [Balanovsky et al., 2008].

АДЫГЕЙСКИЕ ФАМИЛИИ. Такое же полное сходство (коэффициент корреляции составил r=0.98) мы обнаружили при сравнении расчёта главных компонент «по картам» и «прямым способом», проведённым по фамилиям иного народа — адыгейцев. Здесь важно не только то, что фамилии этого народа «говорят» на языке совсем другой лингвистической семьи и имеют много более древнюю историю и устойчивость. Для картографирования важнее иное — сам ареал адыгейцев имеет конфигурацию, альтернативную русскому ареалу. Если русский ареал един и компактен, то ареал адыгейцев он состоит из двух самостоятельных частей, разделённых Большим Кавказским хребтом. И, тем не менее, оба столь полярно различающиеся ареалы русского и адыгейского народа продемонстровали высочайшую степень сходства между картами главных компонент, полученными «по картам» и «прямым способом».

ВЫВОД. Проведённые эксперименты показали, что метод вычисления главных компонент по интерполированным данным не приводит к ошибке «ложных корреляций».

Важно подчеркнуть, что при расчёте компонент учитывались лишь области с высокой достоверностью прогноза (р>0.95), полученные благодаря специальной технологии оценивания надёжности карт. Можно полагать, что именно включение в анализ только областей с высокой надёжностью важно для избавления от ложных корреляций.

Разумеется, требуются многочисленные исследования, чтобы выяснить границы применимости метода главных компонент в общем случае. Однако практически полное совпадение результатов, полученных «по картам» и «прямым способом» во всех трех случаях — русских фамилий, адыгейских фамилий и гаплогрупп Y хромосомы в русском ареале — указывает, что (при учете надёжности информации) результирующие карты главных компонент не содержат ошибки ложных корреляций.

Это позволяет утверждать, что обсуждаемые в данной книге карты главных компонент правомочны и отражают реальную картину пространственной изменчивости русского генофонда.

4. ОБЪЕКТИВНОСТЬ ГЕНОГЕОГРАФИИ

Суха теория, мой друг Но древо жизни вечно зеленеет Гёте. «Фауст»

В предыдущих разделах мы бегло осмотрели понятийный аппарат и арсенал геногеографии. По ходу книги по мере необходимости давались «технические» пояснения. Но чтобы увидеть единство этой книги, анализирующей разные признаки, по-разному рассказывающие о русском генофонде, надо ответить на ряд важнейших общих вопросов. Без ответа на них результаты останутся отдельными страницами разрозненных томов.

Например, насколько изложенные выше положения о структуре генофонда являются спорными? Получим ли мы с помощью арсенала геногеографии действительно объективный портрет генофонда? Как глубока генетическая память? Насколько далеко в глубь времен проникают генетические «зонды»? Соответствуют ли данные генетики данным других наук — археологии, истории, демографии, антропологии, лингвистики? Насколько надёжны и устойчивы оценки изменчивости генофонда? Можно ли в данных о совершенно разных признаках разглядеть общую картину изменчивости генофонда?

214
{"b":"970748","o":1}