Литмир - Электронная Библиотека
Содержание  
A
A

Коэффициент корреляции близкий к −1 будет означать, что рост значений для одного параметра почти наверняка будет сопровождаться падением значений для другого, иными словами, мы будем иметь дело с отрицательной корреляцией. Наконец, близкий к нулю коэффициент следует трактовать так, что в отношениях параметров между собой нет никакой системы. Измерениями в нашем контексте выступают башкирские поэты, а параметрами – число стихотворений, стихов и слов в их произведениях.

Действительно, параметры показывают высокую степень зависимости друг от друга. Наибольший коэффициент корреляции обнаруживается для числа строк и числа слов каждого поэта: 0,993. Это говорит о том, что число слов в стихе – предсказуемая и маловарьируемая величина. Число стихотворений и число строк коррелируют на 0,888, что тоже достаточно значительный показатель, а число стихотворений и число слов каждого конкретного автора – сравнительно далёкие друг от друга (что тоже понятно: стихотворения могут быть разной длины и само по себе появление стихотворения в корпусе не обусловливает непременного роста корпуса на заданное число слов), но всё равно существенно сходящиеся параметры, коэффициент корреляции между которыми равен 0,879.

Башкирский стих XX века. Корпусное исследование - b00000384.jpg

Рис. 1. Типичные и аномальные значения участия авторов в корпусе

На рис. 1 изображён так называемый «ящик с усами» (boxplot), особый вид графика, используемый для характеристики выборки. Концы «усов» ящика – это границы, в пределах которых находятся допустимые, то есть похожие друг на друга значения. Верхняя и нижняя стороны прямоугольника – это так называемые квартили (25-й и 75-й процентили), линией в середине ящика служит медиана. Точки над «усами» – это выбросы, то есть аномально большие значения на фоне остальных показателей. Видно, что выбросов немного, не больше 3‒7 % от общего числа включённых в корпус поэтов. Вклад (в безоценочном, чисто количественном смысле) каждого из авторов в основном не превышает 4 % от всего объёма включенных в коллекцию текстов. Исключения – 4,15 % стихотворений Рами Гарипова и 4,5 % Кадыра Даяна. Любопытно, что если по такому параметру, как число стихотворений, значение для Мажита Гафури остаётся в пределах нормы (2,65 %), то число слов, приходящихся на долю этого автора, зашкаливает (4,14 %). Такая ситуация как раз связана с необычностью для последующей башкирской литературы используемой М. Гафури поэтической формы, подразумевающей объёмные произведения, состоящие из длинных стихов. Это канон поэзии на тюрки́, который лирика советского времени быстро преодолеет.

Другие случаи таких нарушений зависимости поможет выявить линейная регрессионная модель. В её основе лежит идея, что рост одного параметра линейно зависит от роста другого, из чего следует, что значения параметров можно предсказать. Ситуации, похожие на ту, которую демонстрирует творчество М. Гафури, будут плохо предсказываться такой моделью, и их можно будет найти по ошибке предсказания. Визуализацию соотношения модельных (прямая на графике) и реальных (точки) значений можно наблюдать на рис. 2.

Башкирский стих XX века. Корпусное исследование - b00000390.jpg

Рис. 2. Линейная зависимость приходящихся на долю автора словоупотреблений от числа стихотворений в корпусе

Как раз такая ситуация наблюдается у Г. Саляма, при 70 стихотворениях его доля в словоупотреблениях составляет 34 540, хотя модель предсказывает значение около 8326 слов.

Согласно данным линейной регрессии, поэтику-антипод М. Гафури и Г. Саляма демонстрирует Р. Мифтахов. При большом числе стихотворений (544, 3,07 %) его доля слов в корпусе невелика: 26 251, это всего 1,49 % от общего числа словоупотреблений в коллекции, хотя модель предсказывает почти в два раза больше, 49 066 слов. Это говорит о том, что большинство созданных автором произведений очень короткие.

Сказанное позволяет охарактеризовать корпус как сбалансированный, то есть равномерно представляющий творчество различных поэтов, не делая акцента на идиостиле одного автора, поэтического направления или кружка.

3.2.2. Оценка репрезентативности

Оценка репрезентативности – это ответ на вопрос, как соотносится материал, использованный в этом исследовании, со всем объёмом башкирской поэзии или, говоря языком статистики, выборка с генеральной совокупностью. Вероятным путём здесь было бы сравнение индекса коллекции с библиографией опубликованных на башкирском языке поэтических произведений. К сожалению, усилия, которые требовалось бы потратить на составление такой библиографии, намного превосходят те, что были предприняты для оцифровки имеющегося в нашем распоряжении корпуса.

Так как полная библиография отсутствует, исследователь может обратиться к другим источникам: биобиблиографическим изданиям, очеркам истории литературы и поэтическим антологиям. Все они по-своему отражают топологию башкирской литературы. Так, в биобиблиографический справочник [Гайнуллин, Хусаинов 1977: 3] «включены данные о писателях, являющихся членами Союза писателей СССР, а также нескольких известных писателях, умерших до организации творческого союза». В этой книге с помощью членства в писательской организации зафиксирована институционализированная часть башкирской поэзии. Из 160 упоминаемых там персоналий только 72 являются поэтами, пишущими по-башкирски. Из них 47 присутствуют в корпусе, то есть выборка на 65,28 % покрывает представленный в справочнике перечень.

Если вхождение в Союз писателей уже представляет собой значимый фильтр, гораздо более выпукло внутреннюю иерархию истории поэзии отражают литературоведческие исследования, посвящённые конкретным эпохам, как в этом случае: «Основное содержание эпохи и подлинно национальные интересы народа выражали поэты-демократы М. Гафури, Д. Юлтый, Ш. Бабич, С. Кудаш» [Ахмадиев 1971: 24] (все они есть в выборке). В предисловии к очеркам истории башкирской литературы [История 1963] упомянуто 10 поэтов (9 из них присутствует в корпусе), в главе о поэзии октябрьской эпохи – 9 персоналий (6 из них есть в корпусе), в очерке о 1920-х годах – 13 писателей (9 из них есть в выборке), в очерке, посвящённом башкирской поэзии 1930-х годов, место уделено 11 авторам (творчество 10 из них отражено в корпусе).

Наконец, о представленности в корпусе наиболее значимых для своего времени имён можно судить по составу антологий. В книге [Поэты 1950] в переводах на русский язык собрано творчество 25 поэтов, из них 19 (76 %) присутствует в выборке. Таким образом, можно сказать, что в анализируемом корпусе собрано большинство прошедших институциональный отбор башкирских поэтов, а в отношении центральных для своего периода персоналий покрытие выборки ещё лучше и может превышать 90 %.

Другим важным для исследования параметром является датированность текстов в корпусе. Многие явления метрики проанализированы в динамике, их история прослежена с 1900-х до 2000-х годов. В этих подсчётах участвует только та часть произведений, датировка которых известна и отражена в метаданных текстовой коллекции. Эта часть составляет 7938 стихотворений, то есть 44,36 % от общего объёма корпуса. В то же время датированные тексты в целом длиннее недатированных, так что привязанная ко времени часть выборки – это 242 141 строка и 932 283 слова, то есть 51,69 % и 52,49 % всего корпуса соответственно.

Все датированные тексты распределены по десятилетиям, их соотношение представлено в таблице 2 ниже. На рис. 3 датировка стихотворений представлена более детально.

Если в отношении текстов мы видим подавляющее преимущество стихотворений, написанных в 1960-е годы, а за второе по полноте представления десятилетие соперничают 1950-е и 1970-е, то распределение строк выглядит иначе. Наибольшую долю в корпусе также имеют 1960-е годы, однако второе место делят между собой 1950-е и 1930-е, и только за ними следуют 1970-е и 1940-е. Середина века получает широкое покрытие, материал 1900-х годов имеет статус вспомогательных данных (строго говоря, стихи, написанные в это время, создаются не на башкирском языке, а на тюрки́), а объем текстов, охватывающих 2000-е годы, недостаточен для серьёзных выводов.

16
{"b":"668041","o":1}