Эксперименты показывают, что обнаружение числовых характеристик, позволяющих различать тексты разных авторов, весьма сложная задача, поскольку при написании текста существенную роль играют не только подсознательные факторы, но и осознаваемые. Например, частота употребления автором редких и иностранных слов может служить в некотором смысле показателем его эрудиции, но этот показатель достаточно легко контролируется автором на сознательном уровне, что не позволяет, использовать эту числовую характеристику в качестве авторского инварианта.
Трудности также связаны с тем, что многие числовые характеристики текстов чрезвычайно чувствительны в смене стиля в произведениях одного и того же автора, то есть принимают существенно различные значения для текстов, написанных автором в разное время. Таким образом, установление отличительных особенностей каждого автора весьма сложно, особенно если оценивать эти индивидуальные параметры количественно.
Искомая характеристика должна удовлетворять условиям:
1) Она должна быть достаточно "массовой", чтобы слабо контролироваться автором. То есть, эта характеристика должна быть в некотором смысле "бессознательным параметром", авторов.
2) Она должна быть "постоянной" для данного автора, то есть иметь небольшое отклонение от среднего значения, то есть слабо колебаться, вдоль всех его произведений.
3) Она должна различать между собой разные группы авторов, то есть должны существовать разные группы авторов, для которых отличия в значениях этой характеристики были бы больше, чем ее колебания внутри текстов одного автора.
После проведения обширного численного эксперимента оказалось, что числовым параметром текстов, который удовлетворяет перечисленным условиям, является относительная частота употребления автором совокупности служебных слов - предлогов, союзов и частиц. См. рис.1 и рис.2 в работе [к3], и рис.Доп-3.7. При величине выборки в 16000 слов процент служебных слов для каждого автора оказался приблизительно постоянным для всех его произведений. То есть, график изображается практически горизонтальной прямой. Оказалось, что разность между максимальным и минимальным значениями этого параметра (минимум и максимум взяты по всем исследованным авторам) значительно больше амплитуды его колебаний внутри произведений отдельных авторов. Это и означает что, он хорошо различает между собой многих авторов. На этом основании он был назван авторским инвариантом. Он может служить как для атрибуции неизвестных произведений, так и для обнаружения плагиата, хотя и с определенной осторожностью: наблюдается иногда авторы с очень близкими инвариантами. Например, Фонвизин и Толстой. Кроме того, для достаточно уверенных выводов требуются тексты большого объема.
Последнее условие в данном случае к счастью выполнено: как и у Миллера, так и у Ломоносова есть работы, содержащие более 16000 слов каждая. Таким образом, условия применимости методики выполнены.
Работа по применению методики авторского инварианта в рассматриваемом случае состоит в следующем.
1. Были рассматрены все доступные произведения Миллера и из них были выбраны те, которые содержат русский прозаический текст достаточного объема.
2. Затем был вычислен авторский инвариант Миллера, то есть процент употребления им служебных слов. При этом использовалась методика, изложенная в работе [к3].
3. То же самое было проделано с текстами Ломоносова.
4. Наконец, полученные значения инварианта были сравнены друг с другом.
Нам были доступны и были использованы следующие тексты Миллера [к1]:
1. "О первом летописателе Российском преподобном Несторе, о его летописи и о продолжателях оныя".
2. "Предложение, как исправить погрешности, находящиеся в иностранных писателях, писавших о Российском государстве".
3. "Описание морских путешествий по Ледовитому и по Восточному морю, с Российской стороны учиненных".
4. "Известия о новейших кораблеплаваниях по Ледовитому и Камчатскому морю с 1742 года, то есть по окончании второй Камчатской экспедиции. Часть из истории государствования великия императрицы Екатерины Вторыя".
5. "Известие о дворянех [Российских]".
6. "[Описание городов Московской провинции]".
7. "История жизни и царствования Федора Алексеевича".
8. "[Проект создания исторического департамента Академии наук]".
9. "Важности и трудности при сочинении Российской истории".
10. "Инструкция переводчику Андреяну Дубровскому".
11. "Из переписки".
Из перечисленных работ Миллера только работы 3 - 7 имеют достаточный, более 6000 слов, объем. Кроме того, необходимо отделить те работы, которые были написаны в оригинале не по-русски, и возможно переведены на русский язык не Миллером, а кем-то другим. Из работ 3-7 это относится к работе 6: описание Коломны Миллер сделал на немецком. Кроме того в работе 6 есть много табличного материала, затрудняющего вычисления. Работы 3 и 4 содержат много числового материала, который также усложняет подсчеты. В тексте 7 много табличного и числового материала; кроме того он набран в разных форматах, что затрудняет его обработку по чисто техническим причинам.
Поэтому на первом этапе исследований был взят только текст 5. Его объем больше 16000 слов. При этом часть текста, расположенная между неудобными для посчетов таблицами (страницы 197 - 206) была исключена из рассмотрения. Обработке подверглись: начало (страницы 180 - 197) и конец (страницы 206 -225) данной работы. Страницы даны по изданию [к1].
Результат вычислений таков. Авторский инвариант Миллера оказался равным 28 процентам!
ЭТО - ИСКЛЮЧИТЕЛЬНО БОЛЬШОЕ ЗНАЧЕНИЕ ИНВАРИАНТА. Оно является наибольшим по сравнению со всеми другими авторами, проанализированными В.П.Фоменко и Т.Г.Фоменко в работе [к3].
Перейдем к подсчету авторского инварианта для М.В.Ломоносова. Были обработаны следующие его тексты.
1. "Описание стрелецких бунтов и правления царевны Софьи".
2. "Краткая история о поведении Академической канцелярии в рассуждении ученых людей и дел с начала сего корпуса до нынешнего времени".