Мы отобрали для анализа русские популяции, расположенные от 43° до 70° северной широты и от 24° до 60° восточной долготы[28]. При всей условности такого отбора данных, он позволил автоматически исключить из рассмотрения многие территории, оторванные от основного ареала. Хотя при этом мы несколько вышли за пределы «исконного» ареала, подчеркнём, что только такая особенность русского народа, как его массовое расселение на огромных территориях Евразии, вынудила нас рассматривать, строго говоря, и некоторые «некоренные» популяции. В заданную область пространства попадает небольшая часть территории соседних с Россией государств — Прибалтики, Белоруссии, Украины. Однако особо подчеркнём: только русское население этих территорий включалось в анализ! Так что и в статистическом анализе, и на картах русского генофонда присутствуют только русские популяции, расположенные в пределах заданной области.
ИНДИВИДЫ ДЛЯ АНАЛИЗА КЛАССИЧЕСКИХ МАРКЕРОВ
Что же касается третьего правила (формирование выборки индивидов), то здесь мы ограничены подходом авторов, публикации которых использованы при создании Банка данных о русском генофонде. В отечественных генетических исследованиях выборка из популяции обычно составляется из неродственных лиц, которые рождены на данной территории и родители которых относятся к данному этносу. Некоторые авторы, к сожалению, определяли принадлежность к популяции и этносу лишь по происхождению самого индивида, а не его предков. Однако многие другие авторы собирали данные много тщательнее — учитывались места рождения и этническая принадлежность всех четырех бабушек и дедушек пробанда. Это позволяло избежать случайных колебаний миграционного потока и учесть в выборке только наиболее устойчивые миграции, генетический след которых сохранился в популяции и по прошествии двух поколений. Именно такие выборки дают наиболее полное представление об исторически сложившейся структуре генофонда.
§ 4. Как устроены карты?
Главным «прибором», показывающим структуру русского генофонда, служат геногеографические карты. Технология создания карт достаточно подробно описана в Приложении. Для читателя, не заглядывающего в другие разделы, кратко повторим основные моменты, необходимые для лёгкого чтения и понимания карт, приведённых в этой главе и всей второй части книги.
СТРОИМ КАРТУ
Для построения карты используется информация об изученных русских популяциях. Каждая из этих популяций служит «опорной точкой». По совокупности опорных точек рассчитываются значения частоты аллеля в каждой точке карты. Для карт классических маркёров число изученных популяций (опорных точек — К) варьирует от 8 (локус HLA*B) до 182 (группы крови АВ0). Число же точек карты (узлов сетки) очень велико — 9064, и значение в каждой точке карты рассчитывается по данным обо всей совокупности опорных точек (К) — исходных популяций, изученных по данному маркёру.
Географическое положение опорных точек указано (тёмными кружками с белым обрамлением) на самой карте. Понятно, что в тех областях карты, где опорных точек много, можно получить надёжно прогнозируемые значения во всех узлах сетки, во всех точках этой области. А там, где опорных точек мало (например, в периферийных областях карты), рассчитанные значения в узлах сетки карты будут ненадёжны. Такие «ненадёжные» точки карты мы не анализируем. Поэтому, хотя общее число узлов сетки одинаково для всех карт русского генофонда (9064 точек), число надёжных точек намного меньше — от 895 (локус KEL) до 4355 (локус АВ0). Именно это число — число надёжных точек карты — указано в легенде карты (N). Только эти точки отображаются на карте и включаются в любые виды статистического анализа. Число опорных точек (К) также приведено в легенде карты.
Чтобы карта была информативна, важно легко на ней ориентироваться, соотносить выявляемые зоны генетического рельефа с другими географическими объектами — странами, областями, городами, реками, природными зонами, этническими ареалами и так далее. Для этого на всех картах приведены береговые линии морей и гидрографическая сеть (озера, реки), горные хребты, государственные границы, несколько крупных городов (значимых, согласно замыслу книги, скорее для средневековой, чем современной, России), а самой надёжной привязкой карты к реальному географическому пространству служит, разумеется, градусная сетка.
ЦИФРОВАЯ МОДЕЛЬ КАРТЫ. Процедуры построения и анализа компьютерных карт подробно описаны в Приложении. Здесь напомним лишь, что в основе компьютерных карт лежат их цифровые модели (ЦМ) — двумерные числовые матрицы частот аллеля, а значения частоты аллеля прогнозируются для каждого узла сетки карты. Для создания такой матрицы пространство карты было покрыто густой равномерной сетью, состоящей из 9064 узлов. Для каждого узла сетки с помощью интерполяционной процедуры рассчитано значение частоты аллеля. В расчёте значений каждого узла участвовали все изученные русские популяции в пределах заданного радиуса, взятые с весом, обратным расстоянию от популяции до данного узла сетки. Параметры картографирования для русского генофонда: использована нулевая степень полинома, шестая степень весовой функции и учитывалась информация об исходных популяциях в радиусе 2000 км. Такой расчёт проводился независимо для каждого узла сетки. Это означает, что для каждого из 9064 узлов сетки учитывались одни и те же опорные точки (реально изученные популяции), но расстояния до популяций и, следовательно, вес каждой популяции при определении частоты аллеля в данном узле сетки — менялись. Часто спрашивают: зависит ли карта от того, с какого угла мы начнём её строить? Еще раз подчеркнём — рассчитанные значения в каких-либо узлах сетки никак не влияют на определение частоты аллеля в других её узлах. Отвечаем на вопрос: поэтому-то совершенно неважно, откуда мы начнём и в каком порядке будем проводить расчёт для разных узлов карты.
СОЗДАНИЕ ИЗОБРАЖЕНИЯ. Но цифровая модель — это матрица, таблица. Чтобы отобразить её в виде карты, каждое значение окрашивается своим цветом — в зависимости от того, в какой из интервалов попадает это значение. Шкала интервалов задаётся исследователем-автором карты. Понятно, что образ одной и той же карты (одной и той же ЦМ) может различаться в зависимости от избранной шкалы. Поэтому так важно следовать определённым правилам выбора шкалы (см. Приложение). Шкала обязательно приводится в легенде каждой карты. Граничные значения интервалов шкалы приводятся под гистограммой. Сама гистограмма и числа над столбцами гистограммы указывают долю площади карты, занятой точками, значения в которых попали в данный интервал.
НАДЁЖНОСТЬ. Карта каждого аллеля сопровождается специальной картой надёжности — она для каждого узла сетки указывает достоверность рассчитанного значения частоты аллеля [Нурбаев, Балановская, 1998]. Значения принимались как достоверные, когда вероятность правильного прогноза составляла Р>0.95 при уровне строгости[29] r=0.3. «Ненадёжные», то есть слабоизученные области, залиты на картах белым цветом и заточкованы, и все характеристики карты рассчитываются только по надёжному пространству. Число узлов карты (N), вошедших в «надёжное пространство» данного аллеля, указано в легенде каждой карты.
После того, как для каждого «надёжного» узла сетки получен независимый прогноз частоты аллеля, создание цифровой модели (ЦМ) карты завершено. Далее с ЦМ (как с обычными матрицами) проводим все дальнейшие преобразования и статистические расчёты — корреляций, трендов, главных компонент, получая количественные оценки связей и закономерностей. При этом карта, содержащая прогнозированные значения для каждой точки, становится не иллюстрацией, а математической моделью пространственной изменчивости. Карта служит инструментом количественного анализа генофонда. Это значит, что карта становится не «графическим», а «алгебраическим» объектом.