В следующей главе мы сделаем ещё один шаг и рассмотрим генетический портрет русского генофонда уже по молекулярно-генетическим (ДНК) маркёрам. Для них нам уже не надо будет знать даже фенотипического проявления генов — многие из ДНК маркёров такого проявления и не имеют. Для ДНК маркёров мы напрямую отслеживаем изменения самого генетического материала. Это проще и удобнее. Однако пока наиболее изученные в русских популяциях ДНК маркёры, на которые можно опереться — это гаплогруппы митохондриальной ДНК и Y хромосомы (глава 6). Но при всех их достоинствах, только двух — и столь своеобычных!
— генных локусов явно недостаточно для изучения всего генофонда. Поэтому до тех пор, пока не накопится достаточно данных по остальным ДНК маркёрам, наиболее надёжные данные о русском генофонде можно добыть, только опираясь на классические маркёры.
ОЦЕНКА РАЗНООБРАЗИЯ ГЕНОФОНДА
«Нет в мире совершенства» — справедливо считал Лис [Сент-Экзюпери, «Маленький принц»]. Наверное, и у классических маркёров есть изъяны? Надо сразу сказать, что основной упрёк классическим маркёрам
— смещение оценок разнообразия относительно всего генофонда — оказался несправедливым. Этот упрёк основывался на том, что классические маркёры тестируются по их белковым продуктам, которые обычно подпадают под действие естественного отбора. А ДНК маркёры тестируются прямо по нуклеотидным последовательностям, которые могут быть не подвержены отбору. И предполагалось, что из-за действия отбора различия между популяциями, рассчитанные по классическим маркёрам, искажены. Поэтому на заре «ДНК эры» широко распространилось мнение, что пора отрешиться от анализа генофонда по классическим маркёрам!
Оказалось, что этот шаг поспешен и неверен — классические маркёры точно и правильно оценивают разнообразие генофонда. В действительности, предположение, что классические маркёры дают искажённую оценку, неверно даже теоретически: ещё до появления первых оценок по ДНК маркёрам нами теоретически было показано, что среднее разнообразие популяций GST должно быть одинаково и по ДНК, и по классическим маркёрам [Рычков, Балановская, 1987, 19906]. Самая первая работа по межпопуляционной изменчивости ДНК маркёров, осуществленная коллективом L. L. Cavalli-Sforza ([Bowcock et al., 1987], см. подробно Приложение) подтвердила этот прогноз. И с тех пор все корректно проведённые сравнительные исследования давали тот же результат (см. Приложение и главу 8): полное соответствие межпопуляционной изменчивости, рассчитанной по классическим и по ауто-сомным ДНК маркёрам.
Уж скоро минет пятнадцать лет, как с классических маркёров было полностью «снято обвинение» в смещённости оценок [Bowcock et al., 1987; 1991а; Bowcock, Cavalli-Sforza, 1991; Cavalli-Sforza, Piazza, 1993]. И, тем не менее, до сих пор из диссертации в диссертацию кочует поверье, что по классическим маркёрам разнообразие не определишь. Научные мифы живучи. И эхо необдуманных предсказаний может десятилетиями тормозить развитие науки. До сих пор многие учёные, работающие с ДНК маркёрами, из-за этого поверья считают себя вправе не знать всё, что было получено по классическим маркёрам их предшественниками. Образовавшийся разрыв в преемственности науки создаёт ту свободу от прошлого, которая рождает легковесность и необязательность утверждений: «Свобода веток от ствола и корня, свобода плеч от тяжкой головы…».[27]
§ 2. Зачем нужны карты?
НЕРАВНОМЕРНОСТЬ ИЗУЧЕННОСТИ
Итак, упрёк в смещённости оценок разнообразия оказался неоправданным. Однако у классических маркёров всё же есть существенный изъян, хотя совсем иной — это крайняя неравномерность их изученности. Антропологические маркёры, как мы видели в главе 4, исследованы в большинстве популяций по единой программе — это обеспечивает полную сопоставимость популяций по всему набору признаков. По панелям однородительских ДНК маркёров также многие популяции изучены идентично. А по классическим маркёрам и аутосомным ДНК маркёрам программа исследований не была стандартизирована: в одних популяциях изучались одни маркёры, в других популяциях — другие маркёры. Если составить сводную таблицу, то мы увидим, что для каждой популяции изучен свой набор маркёров, а для каждого из маркёров изучен свой набор популяций. Это делает популяционную информацию по классическим маркёрам плохо сопоставимой.
Например, наше геногеографическое изучение генофонда Восточной Европы (глава 8) опирается на данные по 100 аллелям (34 локусов) в 1586 популяциях. Но ни одна из полутора тысяч популяций не изучена по всем 34 генам. Поэтому напрямую провести статистический анализ невозможно: в матрице 1586x100 большинство ячеек пустуют.
Эта проблема несопоставимости данных по разным популяциям постоянно возникает при анализе классических маркёров и затрудняет использование методов многомерного статистического анализа — главных компонент, генетических расстояний и так далее.
ГОРДИЕВ УЗЕЛ
Обычный выход из этой ситуации — резкое сокращение числа анализируемых популяций и числа анализируемых генов. В результате в анализ включаются лишь немногие подробно изученные популяции и немногие общепринятые маркёры
Например, из матрицы 1586x100 останутся в лучшем случае только 20x8, но зато все ячейки будут заполнены — каждая из 20 оставшихся популяций изучена по каждому из 8 аллелей.
Решение простое. Оно уничтожает не только проблему, но и информацию, с трудом собранную поколениями генетиков. Такой способ обращения с гордиевыми узлами могут позволить себе полководцы, а не исследователи. «Македонское решение» приводит к анализу лишь малой части всего генофонда и, следовательно, к малой надёжности результатов. Ведь несколько случайных популяций, которым посчастливилось быть изученным по этой панели маркёров, не могут надёжно представлять всю популяционную систему. А малый набор маркёров также не может служить характеристикой генофонда. В этом случае анализируется лишь случайный ряд популяций по нескольким генам, но не сам генофонд.
Иной — «не македонский» — выход из этой ситуации даёт геногеография. Она осторожно распутывает гордиевы узлы классических и аутосомных ДНК маркёров. По сведениям о популяциях, изученных по данному аллелю, геногеограф прогнозирует частоту этого аллеля в остальных, «пропущенных» популяциях. Специальные процедуры картографической интерполяции помогают найти наиболее вероятные значения признака для тех популяций, по которым исходная информация отсутствует. В результате заполняются «пробелы» вырожденной матрицы и в анализ включаются все изученные популяции и репрезентативный набор генных маркёров. Карты «надёжности» [Нурбаев, Балановская, 1997, 1998] позволяют выбрать из всей совокупности интерполированных (прогнозируемых) значений лишь те, которые обладают высокой надёжностью (см. Приложение).
ОБЪЕКТИВНОСТЬ КАРТЫ
Есть и ещё одно важное достоинство карт. Сравним таблицу исходных данных и карту, построенную на её основе. Сводку всех основных данных по изменчивости классических генных маркёров в русских популяциях мы привели в Приложении (раздел 6) и на сайте www.genofond.ru. Однако читатель, заглянув туда, сразу убедится, сколь непросто проследить по этим табличным
§ 3. Кого изучать?
— Сколько дипломов надо иметь, чтобы считаться интеллигентным человеком?
— Нужны три диплома о высшем образовании: дедушкин, папин и свой собственный.
Поскольку мы перешли к «настоящим» генетическим маркёрам, перечислим первые вопросы, которые следует задать при создании их картографического атласа. В пределах какого ареала нужно изучить генофонд данного народа? Какая территория может считаться этническим ареалом при исследовании его истории? Какие необходимо изучить популяции, чтобы выявить реальные генетические различия в пределах ареала? Каковы должны быть выборки? Иными словами, какие части этнического ареала и какие части населения мы непременно должны изучить, чтобы выявить реальную структуру генофонда? Перечисленные ниже правила формирования выборок относятся не только к классическим — к любым генетическим маркёрам.