Чаще всего используется окно осреднения, меняющееся по картографируемому пространству в зависимости от числа опорных точек карты (популяций с исходной информацией), попадающих в окно осреднения. При построении фоновой поверхности распределения алгоритм осреднения учитывает следующие параметры [Балановская, Нурбаев, 1995]:
WMIN — минимальный размер окна, с заранее заданным наименьшим числом узлов сетки карты.
WMAX — максимальный размер окна. Размер окна (измеряемый в числе узлов сетки карты) не увеличивается больше WMAX, даже если в него не попало ни одной опорной точки.
KOPT — заданное оптимальное число опорных точек, служащее пределом для увеличения окна.
fK — функция зависимости веса значений признака от числа опорных точек в каждом из квадрантов окна (для этого окно подразделяется на четыре равных части — 4 квадранта). Эта функция определяет степень участия узлов сетки квадранта (в зависимости от их числа) при расчёте средней величины.
Процедура осреднения производится в следующем порядке. Начиная с минимального размера WMIN, окно осреднения увеличивается до тех пор, пока в него не попадает число опорных точек равное KOPT. Если окно увеличилось до WMAX, то даже если число опорных точек, попавших в окно, ещё не достигло KOPT, окно перестает увеличиваться и проводится расчёт.
Затем проверяется, сколько опорных точек находится в каждом из квадрантов окна — чем больше точек в квадранте, тем больший вес придаётся значениям узлов сетки этого квадранта (в соответствии с функцией fK) при расчёте среднего значения, которое присваивается центральной точке окна. Благодаря такой процедуре осреднения (повторенной для каждого узла сетки ЦМ), окно осреднения пропорционально популяционным ареалам и изученности картографируемого гена в различных областях картографируемого пространства. Благодаря различному весу квадрантов окна значения средних формируются по наиболее точным (наиболее обеспеченным опорными точками) областям окна.
В эффективности такого алгоритма легко убедиться при сравнении карты, полученной на его основе, с картами, полученными при плывущем окне постоянного размера. Это сравнение удобно тем, что оптимальное окно ожидается равным «б», WMIN соответствует фоновой поверхности с окном «а», WMAX соответствует фоновой поверхности с окном «в». В таблице 3.2. приведены статистические параметры сравниваемых карт: исходной карты распределения гена НР*1, трех карт с постоянным окном и карты с меняющимся окном (далее называемой CW — сокращенно от «Changing Window»).
Как и следовало ожидать, при увеличении размера окна осреднения экстремумы (MAX, MIN) сближаются и размах изменчивости R (R=MAX-MIN) падает (Ra=0.39, RB=0.24). При этом значение средней остаётся практически неизменным, варьируя около 0.33 (табл. 3.2). Наибольшие изменения наблюдаются в показателе межпопуляционной изменчивости GST: при увеличении окна от «а» до «в» его величина падает втрое (GSTa=0.018, GSTb=0.006). Наблюдаемое изменение GST соответствует переходу в анализе межпопуляционной изменчивости от уровня локальных популяций к уровню лингвистических семей.
Таблица 3.2. Приложения
Статистические показатели исходной и трендовых карт при различных параметрах алгоритма осреднения(на примере распределения гена НР*1)
Практически по всем статистическим параметрам (табл. 3.2.) карты с CW наиболее близки к карте с постоянным окном осреднения «б», причём особенно важна близость показателей GST (GST(CW)=0.011, GSTб=0.010). Однако при практически одинаковом размахе изменчивости (RCW=Rб=0.33) минимальные значения частоты гена НР*1 на карте с меняющимся окном приближаются к значениям карты с окном «в», а максимальные — к показателям карты с окном «а». Это связано с различной обеспеченностью областей экстремумов исходными данными: области минимальных значений оказались слабо обеспечены исходными данными и потому менее надёжны и более интенсивно осредняются, чем области максимальных значений, надёжно обеспеченные для данного гена опорными данными и потому сохраняющиеся при методе меняющегося окна.
Генетический рельеф карты с CW в целом также наиболее близок к карте с постоянным окном осреднения «б». Однако карта с CW географически и исторически более точно воспроизводит границы ареалов тех или иных частот, поскольку ориентирована на фактический размер популяционного ареала и генетическую изученность народов. Карта CW отражает масштаб осреднения, связанный не с аморфным физическим пространством, а с историческим пространством, освоенным этносом.
Таким образом, метод «Changing Window» — осреднения в плывущем окне, размер которого меняется в зависимости от реального масштаба популяционного ареала и обеспеченности исходной информацией — позволяет даже в чрезвычайно гетерогенном регионе проводить осреднение во всех его частях на заданном уровне обобщения. Благодаря этому методу географическое пространство, вмещающее генофонд, перестает быть аморфным, однородным и нейтральным по отношению к структуре генофонда: при ориентации на реальный размер популяционного ареала в неявном виде учитываются природные и социальные барьеры на пути распространения генов. Возможность гибко изменять все четыре параметра окна осреднения (WMIN, WMAX, KOPT’ fK) позволяет создавать серии картографических версий заданного уровня обобщения и тем самым как бы объемно моделировать генетический рельеф тех или иных исторических эпох.
ВЫЯВЛЕНИЕ ТРЕНДА АППРОКСИМИРУЮЩЕЙ ФУНКЦИЕЙ
Однако методы осреднения в окне — постоянного или меняющегося размера — «носят эмпирический характер и содержат элементы субъективизма» [Берлянт, 1986, с. 169]. Альтернативными считаются методы аппроксимации той или иной функцией, поскольку их модели опираются на строгий математический аппарат. При использовании аппроксимирующих функций фоновая и остаточная составляющие выделяются строго формально: аппроксимирующая функция описывает фоновую поверхность карты, отражающую искомые закономерности, а неучтенная часть соответствует остаточной компоненте [Берлянт, 1986]:
Z=f(u,v) + Eps=ZF + ZO; f(u, v)=ZF; Eps=ZO.
Поставленной задаче — разделения фоновой и остаточной поверхностей — с математической точки зрения полностью соответствует математический аппарат разложения в ряды, в частности, ортогональные многочлены (полиномы) Чебышева. При их использовании фоновая поверхность представляет собой графическое изображение аппроксимирующего многочлена, сумма квадратов отклонений которого от фактической поверхности минимальна [Берлянт, 1986]. Но у математических моделей есть общий недостаток — простоте и четкости математического аппарата не всегда соответствует простота и ясность интерпретации.
В картографии, геологии, физике для аппроксимации принято использовать 1-й, 2-й и 3-й порядки ортогональных многочленов Чебышева, содержательная интерпретация которых наиболее очевидна. Согласно [Берлянт, 1986], каждой из этих моделей соответствуют определённые классы явлений, для которых они оптимальны. Аппроксимация многочленом 1-го порядка (ZF1) моделирует моноклинальные поверхности, выявляющие направление сквозного градиента частот в распределении картографируемого признака и пронизывающие в едином направлении весь картографируемый ареал. Многочлены
2-го порядка (ZF2) служат адекватной моделью для явлений, распространяющихся из единого центра с уменьшением градиента плотности признака во все стороны по мере удаления от центра. Многочленом 3-го порядка (ZF3) наиболее оптимально аппроксимируется наложение двух различно ориентированных факторов или поверхности интерференции, создаваемой двумя центрами.