f(x,у)=∑wi(x,y)zi / ∑wi(x,y),
где х, у — декартовы координаты узла сетки; z — частота признака;
wi(x,y)=1/dai(х, у) — некоторая положительная
убывающая функция от расстояния (весовая функция);
di=√(х-хi)2+(у-уi)2.
Для такой функции выполняется условие интерполяции f(xi,yi)=zj, i=1…n.
Применялось предложенное [Сербенюк и др., 1990] обобщение этого метода:
f(x,у)=∑wi(x,y)Pdii(x,y) / ∑wi(x,y),
где Pdii=zi+∑akli(x-xi)k(y-yi)l — полином степени d; xi, уi — координаты i-той опорной точки; коэффициенты akli выбираются так, чтобы обеспечить сходимость функции и её частных производных вплоть до порядка d при х∈[0, +∞], у∈[0,+∞].
Например, для создания ЦМ карт русского генофонда, пространство карты было покрыто густой равномерной сетью, состоящей из 9000 узлов. Для каждого узла сетки с помощью интерполяционной процедуры рассчитано значение частоты гена: в расчёт входили все изученные популяции в пределах заданного радиуса, взятые с весом, обратным расстоянию от данного узла сетки до конкретной изученной популяции. В данном случае была использована нулевая степень полинома, шестая степень весовой функции и учитывалась информация об исходных популяциях в радиусе 2000 км от данного узла сетки. Такой расчёт проводился независимо для каждого узла сетки. Это означает, что для каждого из 9000 узлов сетки учитывались почти одни и те же изученные популяции, но расстояния до каждой популяции и, следовательно, её «вес» при определении частоты гена в данном узле сетки — менялись. Еще раз подчеркнём, что рассчитанные значения в каких-либо узлах сетки никак не влияют на определение частоты гена в других её узлах. И поэтому все равно, с какой именно точки начнётся построение карты.
После того, как для каждого узла сетки получен независимый прогноз частоты гена, можно считать, что цифровая модель (ЦМ) карты создана: у нас имеется двумерная матрица, в каждой ячейке которой (для каждого узла равномерной сетки) хранится прогнозируемое значение признака. Далее с ЦМ (как с обычными матрицами) проводим все дальнейшие преобразования и статистические расчёты — корреляций, трендов, расстояний, главных компонент, — получая количественные оценки связей и закономерностей. При этом карта становится не иллюстрацией, а математической моделью пространственной изменчивости. Она служит инструментом количественного анализа генофонда: то есть становится не «графическим», а «алгебраическим» объектом.
Возникает закономерный вопрос: как меняются статистические характеристики (средняя частота признака, дисперсия и т. д.) в результате картографирования? Иными словами, насколько и как различаются характеристики опорных точек и ЦМ карты, созданной на их основе? Ответ на этот вопрос подробно рассмотрен в главе 5 (раздел 5.1., § 5).
КАК ЗАВИСИТ КАРТА ОТ ПАРАМЕТРОВ ЕЕ ИНТЕРПОЛЯЦИИ?
Итак, построение простой карты можно представить себе следующим образом. Сначала создается картографическая основа, напоминающая контурную карту (со своими картографической проекцией, морями, реками и границами). На нее наносятся исходные точки — популяции, изученные по данному гену. А сверху накладывается как бы листок в клетку — равномерная прямоугольная сеть. И для каждого узла этой сетки рассчитывается новое, интерполированное значение частоты гена. В каждом узле такое значение определяется всей совокупностью исходных точек в пределах заданного радиуса, но исходные значения частот гена берутся с весом, обратно пропорциональным расстоянию di: чем дальше исходная популяция от узла сетки, тем меньше её вес. После того, как расчёт проведён для каждого узла сетки и как бы занесён в каждую клетку, этот «листок в клеточку» становится цифровой матрицей (ЦМ) частоты гена. Для следующего гена повторяем ту же самую процедуру. И если для всех генов мы использовали строго одни и те же картографическую основу и равномерную сетку, то в результате получаем серию ЦМ всех генов — полностью сопоставимых и унифицированных.
Параметры интерполяционной процедуры выбираются в соответствии с оптимальным значением дисперсии признака (по всем узлам карты). Например, в таблице 3.1. приведены значения статистических показателей карты в экспериментальной ситуации для одного из регионов. Проведены три эксперимента. В каждом из них географические координаты популяций и значения картографируемого признака задавались случайным образом. В каждом эксперименте изменялся только один параметр — густота сети (от 64 до 6021 узлов). Таблица 3.1. демонстрирует, что даже при увеличении в 100 раз густоты сетки ЦМ, изменения в оценке средних и дисперсий картографируемого признака невелики. Та густота сетки, которой соответствует «перегиб» кривой значений дисперсий (минимум), принята оптимальной.
Таблица 3.1. Приложения
Зависимость статистических показателей карты от параметров её построения (густоты сетки карты)
ВИЗУАЛИЗАЦИЯ КАРТЫ
Итак, при статистическом анализе ЦМ предстает как двумерная матрица значений признака. При этом каждому узлу сети ЦМ соответствуют точные значения географических координат местности. Это позволяет перейти от матрицы к собственно картографическому образу.
Для формирования собственно карты как зрительного картографического образа создается электронная картографическая основа: контуры территории в заданных географических проекции и масштабе, гидрографическая сеть, внутренние водоёмы и омывающие моря, административные границы, опорные точки, градусная сеть; программно обеспечивается создание легенды карты. Пространственное распределение признака изображается на картографической основе с помощью группировки значений ЦМ в интервалы шкалы изменчивости признака. Интервалы на карте разграничиваются изолиниями.
При визуализации карты мы группируем значения признака в те или иные интервалы и окрашиваем их по аналогии с физической картой. На цветных картах наиболее низкие значения признака окрашиваются синими тонами морских впадин, средние — зелёным цветом равнин, высокие значения признака — красно-коричневыми оттенками гор. На черно-белых картах — повышение частоты признака выражается в большей интенсивности окраски. Основной принцип наших карт — использование равномерной шкалы интервалов.
При переходе от ЦМ к карте значения признака объединяются в интервалы, указанные в легенде карты, и послойно окрашиваются. Благодаря интервалам шкалы не только создается образ карты, но и косвенно учитывается доверительный интервал самих значений признака. Области, окрашенные одним цветом, читаются как области, характеризуемые значением признака, варьирующим в пределах, указанных в легенде шкалы интервалов. Изолинии, соединяющие точки с одинаковым значением признака, рассматриваются как вспомогательные линии при чтении карты, а не как области точных значений.
Итак, при визуализации карты отображается не только её основное содержание, то есть значения признака и разделяющие их изолинии, но и ряд географических объектов на картографируемой территории, помогающие читателю соотнести карту с известным ему географическим пространством. Практически на каждой геногеографической карте отображаются моря (береговая линия), озера и реки, государственные и этнические границы, города, а на некоторых картах могут отображаться и дополнительные объекты (ледники, горы и другие). Также показывается расположение исходных изученных популяций (опорных точек), отображаемых ромбиками или кружками. Для облегчения чтения карт мы обычно приводим не только гидрографическую сеть, но и названия нескольких крупных городов (независимо от того, были они изучены по данному признаку или нет). Легенда карты не только помогает понять её содержание, но и несет большой объём статистической информации.