Во-вторых, значение отдельного противопоставления между элементами выражения не есть просто функция от числа различаемых ими слов: оно также зависит от того, могут ли эти слова встречаться и контрастировать в одном и том же контексте. Возьмем предельный случай: если А и В — два класса слов, находящихся в дополнительной дистрибуции, и каждый член класса А отличается в субстанциальной реализации от какого-то члена класса В только тем, что в нем представлен элемент /а/ там, где в соответствующем слове из В представлен элемент /b/, то функциональная нагрузка контраста между /а/ и /b/ равна нулю. Таким образом, функциональную нагрузку отдельного противопоставления следует подсчитывать для слов, имеющих одну и ту же или частично совпадающую дистрибуцию. Ясно также, что всякий «реалистический» критерий оценки значения отдельного контраста должен учитывать не просто дистрибуцию слов, устанавливаемую грамматическими правилами, но реальные высказывания, которые можно было бы перепутать, если не сохранять этот контраст. Например, как часто или в каких обстоятельствах такое высказывание, как You'd better get a cab 'Вам лучше бы взять такси', можно было бы спутать с высказыванием You'd better get a cap 'Вам бы лучше получить кепку', если бы говорящий не различал конечных согласных слов cab и cap? Ответ на этот вопрос, очевидно, существен для любой точной оценки рассматриваемого контраста.
Наконец, значение отдельного контраста, по-видимому, связано с частотой его встречаемости (которая не обязательно определяется числом различаемых им слов). Допустим, что три элемента выражения — /х/, /у/ и /z/ — встречаются в одной и той же структурной позиции в словах одного дистрибутивного класса. Но предположим далее, что тогда как слова, в которых встречаются /х/ и /у/, часто противопоставлены в языке (это высокочастотные слова), слова, в которых встречается /z/, характеризуются низкой частотой появления (хотя они могут быть столь же многочисленны в словаре). Если носитель языка не будет владеть контрастом между /х/ и /z/, общение для него будет затруднено в меньшей степени, чем в том случае, если он не будет владеть контрастом между /х/ и /y/.
Функциональная нагрузка последнего контраста, ex hypothesi, выше, чем первого.
Соображения, высказанные в предыдущих параграфах, показывают, как трудно прийти к какому-либо точному критерию оценки функциональной нагрузки. Разнообразные критерии, предложенные лингвистами до сих пор, не могут претендовать на точность, несмотря на свою математическую изощренность. Тем не менее следует предусмотреть в нашей теории языковой структуры место для понятия функциональной нагрузки, несомненно весьма важного как в синхроническом, так и в диахроническом плане. Очевидно, все же имеет смысл говорить о том, что определенные противопоставления несут более высокую функциональную нагрузку, чем какие-то другие, даже если соответствующие различия не поддаются точному измерению.
2.4.2. КОЛИЧЕСТВО ИНФОРМАЦИИ И ВЕРОЯТНОСТЬ ПОЯВЛЕНИЯ *
Другое важное статистическое понятие связано с количеством информации, которую несет языковая единица в некотором данном контексте; оно также определяется частотой появления в этом контексте (во всяком случае, так обычно считается). Термин «информация» употребляется здесь в особом значении, которое он приобрел в теории связи и которое мы сейчас поясним. Информационное содержание отдельной единицы определяется как функция от ее вероятности. Возьмем для начала самый простой случай: если вероятности появления двух или более единиц в некотором данном контексте равны, каждая из них несет в этом контексте одно и то же количество информации. Вероятность связана с частотой следующим образом. Если две, и только две, равновероятные единицы — х и у — могут встретиться в рассматриваемом контексте, каждая из них встречается (в среднем) ровно в половине всех соответствующих случаев: вероятность каждой, a priori, равна 1/2. Обозначим вероятность отдельной единицы х через рх. Итак, в данном случае рх = 1/2 и ру = 1/2. В более общем виде вероятность каждой из n равновероятных единиц (x1, х2, х3, . . ., хn) равна 1/n. (Заметим, что сумма вероятностей всего множества единиц равна 1. Это справедливо независимо от более частного условия равной вероятности. Особым случаем вероятности является «достоверность». Вероятность появления единиц, которые не могут не появиться в данном контексте, равна 1.) Если единицы равновероятны, каждая из них несет одно и то же количество информации.
Более интересны, поскольку более типичны для языка, неравные вероятности. Предположим, например, что встречаются две, и только две, единицы, х и у, и что х встречается в среднем вдвое чаще, чем у, тогда рх = 2/3 и ру = 1/3. Информационное содержание x вдвое меньше, чем содержание у. Другими словами, количество информации обратно пропорционально вероятности (и, как мы увидим, логарифмически связано с ней): это фундаментальный принцип теории информации.
С первого взгляда это может показаться несколько странным. Однако рассмотрим сначала предельный случай полной предсказуемости. В письменном английском языке появление буквы u, когда она следует за q, почти полностью предсказуемо; если отвлечься от некоторых заимствованных слов и собственных имен, можно сказать, что оно полностью предсказуемо (его вероятность равна 1). Подобно этому, вероятность слова to в таких предложениях, как I want . . . go home, I asked him . . . help me [29] (предполагается, что пропущено только одно слово), равна 1. Если бы мы решили опустить u (в queen 'королева', queer 'странный', inquest 'следствие' и т. п.) или слово to в упомянутых контекстах, никакой информации не было бы потеряно (здесь мы наблюдаем связь между обычным и более специальным значением слова «информация»). Поскольку буква u и слово to не находятся в парадигматическом контрасте ни с какими другими единицами того же уровня, которые могли бы встретиться в том же контексте, вероятность их появления равна 1, а их информационное содержание — 0; они целиком избыточны. Рассмотрим теперь случай двучленного контраста, где рх = 2/3 и ру = 1/3. Ни один из членов не является целиком избыточным. Но ясно, что пропуск х приводит к меньшим последствиям, чем пропуск у. Поскольку появление х вдвое вероятнее, чем появление у, получатель сообщения (знающий априорные вероятности) имеет в среднем вдвое лучшие шансы «угадать» пропуск х, чем «угадать» пропуск у. Таким образом, избыточность проявляется в различной степени. Избыточность х в два раза больше, чем избыточность у. В общем, чем более вероятно появление единицы, тем большей оказывается степень ее избыточности (и тем ниже ее информационное содержание).
2.4.3. БИНАРНЫЕ СИСТЕМЫ
Количество информации обычно измеряется в битах (этот термин происходит от англ. binary digit 'двоичный знак'). Всякая единица с вероятностью появления 1/2 содержит один бит информации; всякая единица с вероятностью 1/4 несет 2 бита информации, и так далее. Удобство такого измерения количества информации станет очевидным, если мы обратимся к практической задаче «кодирования» множества единиц (сначала предположим, что вероятности их появления равны) группами двоичных знаков. В предыдущем разделе мы видели, что каждый элемент множества из восьми единиц может быть реализован отдельной группой из трех двоичных знаков (см. § 2.3.8). Это определяется связью между числом 2 (основанием двоичной системы исчисления) и 8 (количеством единиц, которые требуется различать): 8 = 23. В более общем виде, если N — это число единиц, которые следует различать, a m — это число позиций контраста в группах двоичных знаков, требуемых для их различения, то N = 2m. Связь между числом парадигматических контрастов на «высшем» уровне (N) и синтагматической длиной групп элементов «низшего» уровня (m), таким образом, логарифмическая: m = log2 N. (Логарифм числа есть степень, в которую следует возвести основание числовой системы, чтобы получить данное число. Если N = xm, то m = logx N 'если N равняется х в степени m, то m равняется логарифму N по основанию x'. Напомним, что в десятичной арифметике логарифм 10 равен 1, логарифм 100 равен 2, логарифм 1000 равен 3 и т. д., т. е. log10 10 = 1, log10 100 = 2, log10 1000 = 3 и т. д. Если бы теория информации основывалась на десятичной, а не на двоичной системе измерения, то было бы удобнее определять единицу информации в терминах вероятности 1/10. Читателю должно быть ясно, что приведенное здесь равенство N = 2m — это частный случай равенства N = р1 × р2 × р3, ..., рm, введенного в § 2.3.8. Равенство N = 2m справедливо, если в каждой позиции синтагматической группы в парадигматическом контрасте находится одно и то же число элементов.