ЛЕГЕНДА КАРТЫ
Каждая карта сопровождается легендой, которая может включать до четырех окон: статистическое окно, гистограмму картографированных значений, гистограмму исходных значений, гистограмму со стандартными граничными значениями.
ГИСТОГРАММЫ. Вариационно-статистическое распределение признака на карте (гистограмма) дается в одном из окон легенды в виде гистограммы, имеющей, как указывает Г. Ф. Лакин, «не только иллюстративное, но и аналитическое значение» [Лакин, 1980, с. 293]. Штриховка гистограммы соответствует штриховке интервалов на карте. Над столбцами гистограммы указана в % доля площади, занятая данным интервалом частот.
При необходимости на картах приводятся также две других гистограммы: а) вариационно-статистическое распределение исходных значений признака (в опорных точках), построенное в тех же интервалах, что и карта в целом. Сравнение гистограмм исходных и картографированных значений признака позволяет оценить новую информацию, которую вносит учет ареала при картографировании признака; б) вариационно-статистическое распределение картографированных значений признака в универсальной шкале: например, для частот генов — от 0 до 1. Это дает возможность сохранять единый генетический масштаб при сравнении распределений различных генов.
СТАТИСТИЧЕСКОЕ ОКНО ЛЕГЕНДЫ содержит, как правило, следующие показатели:
K — число опорных точек (их географическое положение приведено на карте);
N — число узлов регулярной сетки (число значений матрицы ЦМ);
MIN, MAX, M, S2 — экстремумы, средняя и варианса признака, где М=∑pijРц/N; S2=∑(pij — М)2 / N, рij — значение признака в узле матрицы ЦМ с координатами i и j;
HT, HS, GST — характеристики общего, внутри- и межпопуляционного генного разнообразия [Nei, 1975] (в качестве популяций выступают узлы сетки): НT=M(1-M); HS=HT-DST; GST=DST/HT-FST; DST=S2. Приведенные значения показывают вклад картографируемого аллеля в генное разнообразие локуса (L): НТ(L)=∑НТ(i); DST(L)=∑HST(i); HS(L)=∑HS(i); GST(L)=∑GST(i)/∑HT(i); берется сумма всех i-тых аллелей в локусе L.
Показатели, приводимые в «статистическом» окне легенды, несут разнообразную вспомогательную информацию о карте. Число опорных точек (K) и их размещение на карте помогают оценить надёжность исходной информации, а также выявить области карты, не обеспеченные ею, где мы целиком полагаемся на интерполяционную процедуру. Число узлов карты (N) несет косвенную информацию о достоверности картографо-статистических показателей: их ошибки благодаря густоте сетки невелики (в легенде есть вся информация для расчёта ошибок). Экстремумы (MIN, МАХ) дают представление о вариационном размахе (R=МАХ-MIN) признака и позволяют сравнивать разные генофонды.
Величина М указывает среднее значение ЦМ, а карта позволяет видеть, как этот «центр тяжести» [Миллс, 1958, с. 89] вариационно-статистического ряда распределён по территории. Величина М отличается от среднего значения признака, рассчитанного по опорным точкам принципиальным моментом: М является средневзвешенной величиной. В качестве веса выступает важнейшая характеристика популяции — её ареал, и потому географическое пространство популяции с необходимостью входит в расчёт среднего значения (М) и вариансы (S2) частоты гена (см. раздел 5.1, § 5). Благодаря карте, мы определяем не только величину средней, но и занятые ею области картографируемого пространства.
§ 4. Надёжность картографического прогноза
Компьютеры ненадёжны, но люди ещё ненадёжнее.
Законы ненадёжности Джилба.
Карта каждого гена сопровождается специальной картой надёжности, которая для каждого узла сетки указывает достоверность рассчитанного значения частоты гена.
ЧТО ТАКОЕ «НАДЁЖНОСТЬ» КАРТЫ
При решении задачи математического моделирования существуют два аспекта: 1) адекватность (то есть соответствие) предлагаемой математической модели анализируемым данным;
2) надёжность (то есть статистическая достоверность) результатов математического моделирования.
Если вопросы адекватности математических моделей геногеографии (их соответствия картографируемым данным, прогностической ценности и т. д.) анализировались целым рядом авторов, то работы по решению проблемы надёжности результатов картографирования в мировой литературе отсутствуют. Нерешённость проблемы надёжности картографирования не позволяет проводить строго объективную интерпретацию геногеографических карт, является основным мотивом справедливой критики и тормозит широкое использование геногеографических методов. Поэтому наша компьютерная технология геногеографического изучения генофонда уже несколько лет включает в себя оценку надёжности (достоверности) картографического прогноза — построение карт надёжности картографических моделей генофонда.
Новая характеристика «надёжность карты» количественно характеризует степень устойчивости анализируемых значений картографической модели. Надёжность измеряется вероятностью осуществления прогноза карты в каждой её точке и оценивает статистическую достоверность каждого картографированного значения.
Любая геногеографическая карта предлагает модель распространения признака (например, частоты гена) в географическом пространстве. Поскольку любое значение карты, полученное в результате интерполяционной процедуры картографического моделирования, является прогнозом, важно оценить, какова надёжность такого прогноза, какова вероятность его осуществления. Оценка надёжности дает ответ на вопрос: если в данной (любой) точке пространства провести изучение генофонда, то какова вероятность получить значение частоты гена, достаточно близкое к прогнозу, показанному на его карте?
Надёжность карты в разных частях её пространства может значительно различаться, например, из-за неравномерного распределения на карте исходной информации. На нее накладывается и неравномерность их изученности, и неравная их значимость для карты (популяции в регионах с мощными эффектами дрейфа генов дают менее надёжный прогноз, чем популяции с большой численностью и интенсивным генным обменом). Результатом такой множественной неравномерности является и неравномерная надёжность любой геногеографической карты, при чтении которой всегда возникает вопрос: насколько надёжен прогноз в той или иной точке её пространства? Ответ на такой вопрос могут дать только карты надёжности, на которых для всех точек того же самого картографируемого ареала приведены комплексные оценки надёжности (вероятности правильности картографического прогноза). Совместный анализ геногеографической карты признака и карты её надёжности позволяет по-разному относиться к значениям в надёжных и ненадёжных областях карты и давать корректную интерпретацию пространственной изменчивости изучаемого признака.
Карты надёжности создаются, исходя из основных положений математической теории надёжности. В биологических науках также используются приложения этой теории — при изучении экологических систем, генетических систем, клеток, клеточных популяций и тканей, процессов старения, репарации и др. При этом теория надёжности «рассматривается как важный эвристический метод исследования биологических объектов. Подобный подход возможен на любом уровне интеграции» [Кутлахмедов, 1985, стр. 7].
Из теории надёжности в геногеографию вводятся два понятия: уровень строгости (достоверности) а и вероятность прогноза Р [Нурбаев, Балановская, 1997, 1998; Балановская, Нурбаев, 1999].