Этот принцип подтвердится, если для большинства пар реальных, достаточно больших ЗАВИСИМЫХ летописей X и Y, то есть описывающих один и тот же «поток событий», графики объема для X и Y действительно делают всплески приблизительно одновременно, в одни и те же годы. При этом ВЕЛИЧИНА ЭТИХ ВСПЛЕСКОВ МОЖЕТ БЫТЬ СУЩЕСТВЕННО РАЗЛИЧНОЙ.
Напротив, для реальных НЕЗАВИСИМЫХ хроник какая-либо корреляция точек всплесков должна отсутствовать. Конечно, для конкретных зависимых хроник одновременность всплесков графиков объема может иметь место лишь приблизительно.
1.3. Статистическая модель
Грубая идея состоит в следующем. Для количественной оценки близости точек всплесков поступим так. Вычислим число f(X, Y) — сумму квадратов чисел f[k], где f[k] — расстояние в годах от точки всплеска с номером «k» графика объема X до точки всплеска с номером «k» графика объема Y. Если оба графика делают всплески одновременно, то моменты всплесков с одинаковыми номерами совпадают и все числа f[k] равны нулю. Рассмотрев достаточно большой фиксированный запас различных реальных текстов H, и вычисляя для каждого из них число f(X, H), отберем затем только такие тексты H, для которых это число не превосходит числа f(X, Y). Подсчитав долю таких текстов во всем запасе текстов H, получаем коэффициент, который — при гипотезе о распределении случайного вектора H — можно интерпретировать как вероятность p(X, Y) [904], [908], [1137], [884]. Если коэффициент p(X, Y) мал, то летописи X и Y зависимы, то есть описывают приблизительно один и тот же «поток событий». Если же коэффициент велик, то летописи X и Y независимы, то есть сообщают о разных «потоках событий».
Перейдем теперь к более детальному описанию статистической модели. Конечно, для реальных графиков объема одновременность их всплесков может иметь место лишь приблизительно. Для оценки того, насколько одновременно оба графика делают всплески, математический аппарат статистики позволяет определить некоторое число p(X, Y), измеряющее несовпадение лет, подробно описанных в летописи X, и лет, подробно описанных в летописи Y. Оказывается, если рассматривать наблюдаемую близость всплесков обоих графиков как случайное событие, то число p(X, Y) можно рассматривать как вероятность этого события (что, впрочем, вовсе не обязательно для эффективности метода). Чем меньше это число, тем лучше совпадают годы, подробно описанные в X, с годами, подробно описанными в Y. Дадим математическое определение коэффициента p(X, Y).
Рассмотрим интервал времени (А, В) и график объема vol X(t), который достигает локальных максимумов в некоторых точках m1, …, mn-1. Мы считаем для простоты, что каждый локальный максимум (всплеск) достигается ровно в одной точке. Эти точки, то есть годы, m разбивают интервал (А, В) на некоторые отрезки, вообще говоря, разной длины, см. рис. 6. Измеряя длины получившихся отрезков в годах, то есть, измеряя расстояния между точками соседних локальных максимумов mi и mi+1, мы получаем последовательность целых чисел а(X) = (x1, …, xn). То есть число x1 — это расстояние от точки А до первого локального максимума. Число x2 — это расстояние от первого локального максимума до второго. И так далее. Число xn — это расстояние от последнего локального максимума mn-1 до точки В.
Рис. 6. Точки всплесков графика объема летописи разбивают отрезок времени (А, В) на интервалы.
Эту последовательность можно изобразить вектором а(X) в евклидовом пространстве Rn размерности n. Например, в случае двух локальных максимумов, то есть если n = 3, мы получаем целочисленный вектор а(X) = (х1, х2, x3) в трехмерном пространстве. Назовем вектор а(X) = (x1, …, xn) ВЕКТОРОМ ЛОКАЛЬНЫХ МАКСИМУМОВ летописи X.
Для другой летописи Y мы получим, вообще говоря, другой вектор a(Y) = (y1, …, ym). Будем считать, что летопись Y описывает события на интервале времени (С, D), длина которого равна длине интервала (А, В), то есть В — А = D — С. Чтобы сравнить графики объемов летописей X и Y, мы предварительно совместим друг с другом два отрезка времени (А, В) и (С, D) одинаковой длины, наложим их друг на друга. Конечно, число локальных максимумов у графиков vol X(t) и vol Y(t) может быть различно. Однако без ограничения общности можно считать, что число максимумов одинаково, а потому векторы а(X) и a(Y) двух сравниваемых летописей X и Y имеют одинаковое число координат. В самом деле, если число максимумов у двух сравниваемых графиков различно, то можно поступить так. Будем считать некоторые максимумы КРАТНЫМИ, то есть считать, что в этой точке слились вместе несколько локальных максимумов. При этом длины соответствующих отрезков, отвечающих этим кратным максимумам, можно считать равными нулю. Пользуясь этим соглашением, можно уравнять число локальных максимумов у графиков объемов летописей X и Y. Конечно, такая операция — введение кратных максимумов — неоднозначна. Фиксируем пока какой-либо вариант введения кратных максимумов. В дальнейшем мы избавимся от указанной неоднозначности, минимизировав нужные нам коэффициенты близости по всем возможным способам введения кратных максимумов. Отметим, что введение кратных максимумов означает, что у вектора а(X) на некоторых местах появляются нулевые компоненты, то есть отрезки нулевой длины.
Итак, сравнивая летописи X и Y, можно считать, что оба вектора а(X) = (х1, …, xn) и а(Y) = (y1, …, yn) имеют одно и то же число координат и поэтому лежат в одном и том же евклидовом пространстве Rn. Отметим, что у каждого из этих векторов сумма его координат одна и та же и равна В — А = D — С, то есть длине интервала времени (А, В). Итак:
x1 + … + xn = y1 + … + yn = В — А.
Рассмотрим теперь множество всех целочисленных векторов с = (с1, …, cn), у которых все координаты неотрицательны и их сумма c1 + … + cn равна одному и тому же числу, а именно В — А, то есть длине временнóго интервала (А, В). Обозначим множество всех таких векторов через S. Геометрически эти векторы можно изобразить так. Будем считать, что все они выходят из начала координат, то есть из точки О в Rn. Рассмотрим концы всех таких векторов с = (с1, …, cn). Все они лежат на многомерном симплексе L, определяемом в пространстве Rn уравнением
c1 + … + cn = В — А,
где все координаты c1, …, cn являются вещественными неотрицательными числами. Множество S геометрически изображается как множество всех точек из L, имеющих целочисленные координаты.
Ясно, что концы векторов локальных максимумов а(X) и а(Y) для летописей X и Y принадлежат множеству S, рис. 7.
Рис. 7. Векторы локальных максимумов а(X) и а(Y) двух сравниваемых летописей X и Y можно условно изобразить двумя векторами в евклидовом пространстве.
Фиксируем теперь вектор а(X) = (х1, …, xn) и рассмотрим все векторы с = (с1, …, cn) с вещественными координатами, принадлежащие симплексу L, и такие, что они удовлетворяют еще одному дополнительному соотношению:
(c1 — x1)2 + … + (cn — xn)2 < (y1 — x1)2 + … + (yn — xn)2.
Множество всех таких векторов с = (c1, …, сn) мы обозначим через К.