Литмир - Электронная Библиотека

6. Оценка случайного инбридинга. Традиционно в популяционной генетике фамилии используются для расчёта случайного инбридинга (см. раздел 7.6). Инбридинг оценивается просто — методом изонимии (I). Он представляет вероятность случайного заключения брака между носителями одной фамилии (это справедливо при условии панмиксии). Соответственно, вероятность случайного инбридинга рассчитывается как четверть от суммы квадратов частот всех фамилий [Crow, Mange, 1965]. Программа «ONOMA» рассчитывает коэффициент изонимии (I) для популяций любого уровня и для частот фамилий, полученных разными способами.

Перечень признаков: Абрамов, Александров, Алексеев, Андреев, Анохин, Антонов, Афанасьев, Балашов, Белов, Борисов, Быков, Васильев, Веселов, Виноградов, Волков, Воробьёв, Воронин, Голубев, Горбачёв, Григорьев, Гуляев, Гусев, Денисов, Дружинин, Егоров, Ершов, Ефимов, Иванов, Ильин, Калинин, Киселёв, Ковалёв, Козлов, Костеров, Котов, Кротов, Крылов, Кудряшов, Кузьмин, Кузнецов, Курочкин, Лебедев, Макаров, Михайлов, Морозов, Никитин, Николаев, Новиков, Носков, Осипов, Павлов, Пестов, Петров, Поляков, Попов, Прокофьев, Романов, Савельев, Семёнов, Сидоров, Смирнов, Соколов, Соловьёв, Степанов, Тарасов, Тимофеев, Тихонов, Трифонов, Фёдоров, Филиппов, Цветков, Чернов, Чистяков, Щербаков, Яковлев.

«ПРОСТЫЕ» КАРТЫ включают 75 карт, построенных в пределах «надёжного» пространства и при минимальном сглаживании (окно 3x3).

ОБОБЩЁННЫЕ КАРТЫ включают карты главных компонент (тренд в окне 7x7), карты генетических расстояний и карты случайного инбридинга.

Карты главных компонент и генетических расстояний (от среднерусских частот фамилий) рассчитаны по 75 картам отдельных фамилий в пределах надёжного пространства (уровень строгости 0.5). Карты главных компонент обсуждаются в главе 7. Карта генетических расстояний не приводится, поскольку неравномерная изученность не позволяет рассматривать ее как надёжный результат, хотя её общий паттерн весьма напоминает карты расстояний, приводимые в соматологическом атласе.

Карта случайного инбридинга основана только на информации нашей базы данных по 49 районам. Поэтому эти карты построены по данным не о 75, а обо всех 14000 «коренных» фамилий. Расчёт оценок случайного инбридинга проводился в программе ONOMA в двух вариантах — на уровне популяций (сельсоветов) и на уровне районов. Приводится «районная» карта (тренд 11x11).

КРИК ДУШИ

При описании программы или базы данных, чем понятней стараешься изложить механизмы их работы, тем проще кажется задача создания этих программных продуктов. Поэтому проиллюстрируем нелегкую работу программистов одним лишь примером. Он касается простейшей, казалось бы, задачи — приведения фамилий к орфографии мужского рода.

В действительности, нельзя создать алгоритм определения того, к мужскому или же к женскому роду относится фамилия, однозначно охватывающий все 100 % фамилий. Фамилии, оканчивающиеся на «А», далеко не всегда оказываются женскими. Могут быть и мужские. Например, ДУБРАВА. Мало того, даже одна и та же фамилия, оканчивающаяся на «А», может включить в себя две разных фамилии, одна из которых мужского рода, а другая — женского. Например: ГОЛОВА. Это может быть как ГОЛОВА так и ГОЛОВА. В первом случае это и мужская и женская фамилия и изменять её нельзя. А во втором случае это женская фамилия и её надо превратить в мужскую — ГОЛОВ. Для программной обработки в таких случаях нет признака пола. И создать общий для всех популяций алгоритм, чтобы различить эти фамилии — нельзя.

Если женская фамилия оканчивается на «АЯ», то мужская фамилия равновероятно может оканчиваться на «ИИ», «ОЙ», «ЫЙ». Если в списках присутствует только женская фамилия, то конвертировать её в мужскую без ошибки нет возможности. Гипотетический пример. В популяции встречаются две мужские фамилии ГОРСКИЙ и ГОРСКОЙ. Обе они дают одну женскую фамилию ГОРСКАЯ. Тогда обнаружив в списке женскую фамилию, не зная ударения, нельзя однозначно произвести из нее мужскую фамилию.

Утешает одно — таких случаев немного.

Учитывая это, после просмотра преобразования фамилий нескольких районов из разных областей и поиска ошибок, был принят следующий алгоритм трансформации фамилий в мужские.

1. В большинстве случаев фамилии с окончаниями ОВА, ЕВА, ИНА, ИВА, ЕНА, ЫНА являются женскими и их можно заменить на мужские, отбросив последнюю букву «А».

2. Для других фамилий оканчивающихся на «А» применить следующую методику.

2.1. Отбросить последнюю букву и запомнить трансформированную фамилию.

2.2. По этой трансформированной фамилии организовать её поиск по базе.

2.3. Если нет такой — считать, что фамилии “мужская”.

2.4. Если такая находится, то значит это фамилия “женская” и её надо заменить на найденную мужскую.

3. Для окончаний «АЯ>> искать трансформированные фамилии с окончаниями «ИИ», «ОИ», «ЫИ». При положительном поиске произвести замену женской фамилии на найденную мужскую.

§ 2. Атласы генофондов Европы и Евразии

Атлас генофонда Восточной Европы рассматривается в главе 8 и состоит из пяти разделов: классические маркёры; аутосомные ДНК маркёры; митохондриальная ДНК; соматология; дерматоглифика. Фактически это отдельные атласы, но для целей нашей книги их удобнее рассмотреть все вместе. Перечень всех маркёров Атласа сведен в обобщающей таблице 8.1.1.

РАЗДЕЛ «КЛАССИЧЕСКИЕ МАРКЁРЫ ВОСТОЧНОЙ ЕВРОПЫ»

Карты основаны на информации Банка данных «GENEPOOL» (см. главу 1) о частотах 100 аллелей 30 классических генетических маркёров в популяциях Восточной Европы (в широком смысле, т. е. включая Урал и Северный Кавказ). Как и для карт классических маркёров в русском ареале, число изученных популяций резко варьирует: от 12 до 881 популяций по разным локусам. В сравнении с ранее проводившимся анализом [Балановская, Нурбаев, 1997; Рычков и др., 2002] данные пополнены информацией о популяциях русских и калмыков.

«ПРОСТЫЕ» КАРТЫ. По этим данным построены сто карт отдельных аллелей для ареала народов Восточной Европы.

ОБОБЩЁННЫЕ КАРТЫ включают три типа карт, построенных по 100 картам отдельных аллелей: карты главных компонент, карта гетерозиготности (средняя по 33 локусам) и карты генетических расстояний от средних частот генов в русских популяциях и от средних частот генов в популяциях белорусов.

Карты надёжности построены при уровне строгости 0.3 для каждого из локусов (30 карт надёжности). Общая карта надёжности создана на основе 30 различающихся карт следующим способом. На первом этапе каждая карта надёжности преобразована в балловую: значения менее 0.95 (низкая надёжность) заменены на значение «0»; значения выше 0.95 заменены на «1». Полученная карта принимает только два значения: в узлах с низкой надёжностью ноль, в узлах с высокой надёжностью — единица. Именно эти балловые карты были усреднены. (При усреднении взвешивание по числу аллелей не проводилось, чтобы обеспечить совместимость с аналогичной «среднебалловой» картой надёжности по ДНК маркёрам. Надёжными узлами полученной карты считались узлы со значением выше 0.5 (то есть те узлы, которые являются надёжными более чем для половины изученных локусов). Чтобы привести к обычному виду карты надёжности, значения в каждом узле были увеличены на 0.45, после этого надёжными, очевидно, являются узлы со значениями выше «обычного» порога 0.95. Необходимость такой «среднебалловой» карты (а не обычной средней карты, как например, в атласе классических маркёров для русских популяций) вызвана тем, что низкая надёжность в абсолютном значении является крайне малой, и единственная карта с низкой надёжностью на какой-либо территории дает на усреднённой карте надёжность ниже 0.95, даже если все остальные карты на этой территории высоко надёжны. В дальнейшем анализе при построении обобщённых карт использовались карты отдельных аллелей только в надёжном пространстве «среднебалловой» общей карты надёжности.

235
{"b":"970748","o":1}