Литмир - Электронная Библиотека

ИСХОДНЫЕ ДАННЫЕ. Фамилии коренного сельского населения изучены главным образом в пределах «исконного» русского ареала. Для этого собирались данные по сельским поселениям, а также по тем небольшим городам, население которых сформировалось главным образом за счет жителей ближайших деревень. Население крупных городов игнорируется по той же причине, почему оно не изучается нами и по остальным маркёрам — чтобы минимизировать влияние недавних миграций. Единственное исключение сделано для фамилий Кемеровской области. Этот регион представляет «периферийное» русское население, далеко за пределами «исконного» ареала. И поскольку всё население — и сельское, и городское — сформировано мигрантами (из «исконного» ареала), то не было и смысла отсеивать «мигрантное» население городов.

Исходные данные представляют собой списочный состав населения изученного региона: перечень фамилий в каждом населённом пункте, где каждая фамилия соответствует одному человеку — её носителю. Очевидно, что одни и те же фамилии в этом списке могут повторяться многократно (родственники, однофамильцы). Программа «ONOMA» и создана для того, чтобы перейти от списка членов популяции к частотам фамилий в популяции, а затем провести необходимые расчёты.

Исходные данные могут дать информацию только о том, сколько раз та или иная фамилия встречена в данном населённом пункте. Этого достаточно для изучения структуры генофонда, а сама информация остаётся при этом анонимной — имеются данные не о людях, а лишь о частотах их фамилий.

Для статистического анализа использовалась вся база данных целиком, а для картографического — только данные о 75 фамилиях. Эта информация получена из двух источников.

1) Данные А. П. Бужиловой по частотам 75 русских фамилий в 55 популяциях уровня сельсоветов, представляющих 23 области Европейской части России. Средний объем выборки по масштабам, принятым в анализе фамилий, невелик — немногим более 300 человек.

2) Информация нашей базы данных «ONOMA» по тем же 75 фамилиям в 51 популяции уровня районов, представляющих 7 областей. Из 50 районов, используемых в статистическом анализе (см. табл. 7.2.1.) Репьёвский район Воронежской области не успел пока войти в картографический анализ, зато обширный Каргопольский район Архангельской области представлен как три популяции, что и дает в сумме 51 картографированную популяцию. Средняя выборка на район значительна — около 20 000 человек.

Сравнение этих двух источников показывает, что второй (наша база данных) основан на обширных выборках, но представляет только 7 областей, а у первого (данные А. П. Бужиловой) выборки невелики, зато география популяций очень хорошая. Поэтому для картографирования данные этих двух источников были объединены. По пяти районам (Холмогорский район Архангельской, Кашинский район Тверской, Кологривский и Вохомский районы Костромской, Велижский район Смоленской областей) имелись данные в обоих источниках. Для этих районов данные А. П. Бужиловой не использовались, и в этих точках картографировались только данные нашей базы данных. Таким образом, общее число опорных точек картографирования составило 101 популяцию: 50 популяций Бужиловой плюс 51 популяция нашей базы данных.

Кроме различия в уровне иерархии популяций (сельсоветы или же районы) между двумя источниками имеется и ещё одно — важнейшее — различие. Данные А. П. Бужиловой ограничены 75 фамилиями, которые оказались по её данным наиболее распространенными. В нашей же базе данных представлено не 75, а 14 000 «условно коренных» распространенных фамилий. Но поскольку для картографирования оба источника объединяются, то мы можем построить подробные «простые» карты лишь тех же 75 фамилий.

ПРЕОБРАЗОВАНИЕ ИСХОДНЫХ ДАННЫХ. В отличие от всех иных признаков, где преобразования от экспериментальных данных до частот признаков многократно описаны и общеизвестны, преобразования с данными о фамилиях не стандартизованы. Поэтому схематично приведем их.

1. «Маскулинизация» фамилий. В исходных данных присутствуют фамилии и мужчин, и женщин. Поэтому, чтобы одну и ту же фамилию не учитывать как две разные, все фамилии преобразуются к орфографии мужского рода. Например, список «Иванов, Смирнова, Иванова, Сидорова» превращается в «Иванов, Смирнов, Иванов, Сидоров». Надёжный алгоритм такого преобразования разработать не так просто (см. «Крик души» в конце параграфа).

2. Исключение неинформативных популяций. Как правило, в каждом районе есть несколько посёлков, где большинство жителей — недавние мигранты или их потомки. Такие поселения являются чуждыми включениями и не отражают изучаемую популяцию. К тому же они, как правило, недолговечны — их состав текуч, и сами они так же быстро исчезают с карты, как и появляются. Информация об уровне миграций в населённых пунктах собирается в ходе экспедиционного обследования. Разработана специальная методика: каждому населённому пункту местными экспертами проставляется степень его «мигрантности» по пятибалльной шкале. Оценки обычно выставляют два эксперта, правила оценок стандартизованы, что, как мы надеемся, сводит к минимуму субъективный момент в определении уровня миграций. Программа выводит список населённых пунктов вместе с оценкой «мигрантности» и позволяет выбрать, какие из них необходимо исключить из анализа (пункты с высоким уровнем миграции).

3. Исключение неинформативных фамилий. Очевидно, что часть пришлых, «залётных» фамилий может встретиться и в тех населённых пунктах, где население в основном коренное. Поэтому мы исключаем фамилии, число носителей которых в изучаемом районе меньше заданного порога. Обычно мы пользуемся разработанным нами «демографическим» критерием: фамилия считается неинформативной, если она встречена менее чем у пяти человек в районе (см. раздел 7.3). Программа «ONOMA» позволяет подразделить согласно этому критерию весь список фамилий на условно «коренные» и условно «пришлые». Условия их выделения (строгость критерия) можно выбрать разные. Все дальнейшие операции можно проводить с любыми выделенными группами фамилий — «коренными» (частыми), «пришлыми» (редкими) или по всей совокупности фамилий.

4. Расчёт частот фамилий. Каждая фамилия «прикреплена» в базе данных к тому населённому пункту, где она встречена. Однако мы не проводим анализ на уровне отдельных населённых пунктов[84]. Нами принята организация данных на трёх других более высоких иерархических уровнях. Первый уровень — «популяция» (сельская администрация, волость, сельсовет), объединяющая несколько населённых пунктов. Второй уровень — «район». Он включает все популяции, относящиеся к данному району согласно современным административным границам. Третий уровень — «регион». Он соответствует области или нескольким соседним областям и включает все районы, которые были обследованы в этих областях. Программа работает последовательно с каждым из уровней. Сначала объединяются списки фамилий всех населённых пунктов, относящихся к данной популяции, и рассчитывается частота каждой фамилии в полученном списке. Это частоты на уровне популяций. Далее усредняются частоты фамилии во всех популяциях данного района, и записывается полученная частота фамилии в районе. Далее усредняются частоты фамилии во всех районах данного региона, и записывается полученная частота фамилии в регионе. На всех уровнях иерархии можно рассчитывать и взвешенные, и невзвешенные средние частоты, что определяется конкретной задачей. Программа обеспечивает анализ и на любых других уровнях иерархии — например, населённых пунктов, или же заданных групп районов, или же заданных областей, или, например, географически соседних районов разных областей.

5. Размещение в базе данных. Частоты каждой фамилии в каждой популяции, каждом районе и каждом регионе записываются в базу данных. Причём, частота фамилии в данной группе населения может быть рассчитана разными способами. Осуществляется целый веер расчёта частот. Фамилии могут быть «коренные», «пришлые» или любые. Частоты взвешенные или невзвешенные на том или ином уровне. Население может включаться только сельское или же и городское. Неинформативные популяции могут исключаться в разных вариантах или же включаться в анализ. То есть мы получаем несколько оценок частоты одной и той же фамилии в одной и той же группе населения. Чтобы избежать путаницы, они помещаются в разные разделы базы данных. Весь веер полученных частот для каждой популяции может храниться в БД и использоваться для дальнейшего анализа. Каждый из- этих вариантов расчёта оптимален для решения своего круга задач.

234
{"b":"970748","o":1}