Итак, мы пришли к выводу, что информационная емкость i-го символа любого алфавита, выраженная в битах, равна –log2pi, где pi есть частота встречаемости этого символа в данном языке. Это утверждение, выведенное из формулы (6) К. Шеннона, можно назвать правилом Шеннона.
Заметим, однако, что в работах самого К. Шеннона речь идет не об информационной емкости, а о количестве информации. Справедливо полагая, что количество информации, связанной с каким-либо сообщением, не должно зависеть от его семантики, К. Шеннон формулировал вопрос так: сколько информации получает адресат, воспринимая каждую из букв сообщения? Количество такой информации он и предложил выражать через величину Н и постулировал аддитивность этой величины по отношению к любому числу символов, составляющих сообщение. При этом непроизвольно произошла подмена терминов: понятие об информации, как о содержательной стороне сообщения, было подменено понятием о количестве информации, представляющем собой функцию статистических характеристик составляющих сообщение символов. Эта подмена терминов не имела никаких последствий для развития математической теории связи и даже оказалась для нее благотворной: ведь по каналам связи передают не информацию, а ее носителей, и для оптимизации работы систем связи безразлично, какую именно информацию эти носители содержат и содержат ли они ее вообще. Однако для теории информации эти различия весьма существенны, и вот почему.
Рассмотрим два сообщения: "Каин убил Авеля" и "инилА ваКу лебя". Оба они состоят из одинаковых 15 знаков, но первое – вполне осмысленно, т. е. содержит информацию, а второе представляет собой случайную последовательность букв и никакой информации не содержит. Согласно формуле (8), однако, с ними обоими связано одно и то же количество информации –около 45 битов. Если принять это утверждение за истинное, то отсюда следует, что информация может быть лишена семантики, что на самом деле нонсенс, ибо бессмысленной информации не бывает. Но возможен другой выход из этого противоречия: считать, что формула (8) является мерой не количества информации, а емкости информационной тары. Первая фраза – это тара, "полностью загруженная информацией", а вторая фраза это совершенно пустая тара. Очевидно, что емкость тары не зависит от того, загружена она или нет, полностью загружена или частично, а также от того, чем именно она загружена. Если тара заполнена, то ее емкость может служить мерой количества содержащегося в ней груза. Эти простые соображения позволяют сделать три вывода. Во-первых, если H-функцию считать емкостью информационной тары, то ее в равной мере можно прилагать и к осмысленным, и к бессмысленным наборам символов, которые могут служить носителями информации. Во-вторых, одни и те же единицы измерения, биты, можно применять для оценки и емкости тары, и количества информации, которая в ней может содержаться. В-третьих, при измерении в битах количество информации В, содержащейся в сообщении, заключено в интервал 0≤В≤Н, где Н – емкость составляющих сообщение носителей информации. Н сообщения, таким образом, – это верхняя граница того количества информации, которое может в нем содержаться, причем В = Н только при абсолютно компактном тексте.
К этим же выводам можно прийти и другим путем, рассматривая смысловое содержание понятия "избыточности", или условную вероятность встречаемости i- ro символа после 1-го, 2-го и т. д., а также после разных сочетаний двух, трех и т. д. символов [11]. При таком подходе легко показать, что величина Н имеет максимальное значение только при совершенно случайном расположении символов в сообщении, а при возрастании его осмысленности величины pi независимо от i, стремятся к единице, а Я стремится к нулю. В нашей интерпретации это выглядит вполне естественным: по мере заполнения тары информацией свободного места в ней остается все меньше. Если перед правыми частями формул (6)-(8) не ставить знак минус, как это делал Н. Винер [5], то величина Н будет меньше или равной нулю и будет обозначать количество недостающей в таре информации до ее полного заполнения. Естественно, что эта величина имеет минимальное значение лишь при совершенно случайном расположении составляющих сообщение букв.
Теперь вернемся опять к вопросу о дискретности и непрерывности информации. То обстоятельство, что элементарные единицы носителей информации – буквы – дискретны, ничего не говорит ни в пользу дискретности, ни в пользу континуальности самой информации. Дискретность носителей информации и различия в информационной емкости элементарных носителей в разных системах записи таковы, что в общем случае емкость разных носителей не является кратной какому-либо определенному числу, которое можно было бы принять за элементарную единицу количества самой информации. Это же относится и к сообщениям, состоящим из произвольного числа букв. Лишь в тех случаях, когда сообщения записаны бинарным кодом, их информационная емкость выражается целым числом битов, в подавляющем же большинстве других случаев она может быть выражена любым дробным числом. Это приводит к интересному следствию: переводя информацию с одной системы записи на другую, мы, как правило, вынуждены использовать тару разного объема. Действительно, если для некоторого сообщения, записанного 24-х буквенным алфавитом, H = 78,37 бит, то при записи его 2-х буквенным алфавитом, мы в лучшем случае можем использовать 78 или 79, но никак не 78,37 букв. Означает ли это, что при переводе с одной системы записи на другую изменяется и количество самой информации? Скорее всего, нет: мы уже видели, что в общем случае В < Н, и это неравенство хорошо соответствует описанной ситуации.
И вообще, имеем ли мы основания говорить о дискретности или непрерывности самой информации? Приложимы ли к ней эти понятия? Не лучше ли говорить о "полной" или "неполной" информации, имея в виду достаточность или недостаточность данной информации для построения какого-либо оператора. Однако, как это будет специально рассмотрено ниже, ни об одном операторе не может существовать полностью исчерпывающей информации. Это обстоятельство (или, точнее, принцип) делает весьма шатким и такие категории, как "полнота" и "неполнота". Поэтому о количественных аспектах информации (как, впрочем, и о других) можно судить лишь по тем или иным формам ее проявления (например, по степени заполненности ею носителей), но не по самой информации, как таковой. Ведь "информация есть информация, а не материя и не энергия", и этого не следует забывать.
Теперь, учитывая сделанные выше замечания, еще раз вернемся к правилу Шеннона, выраженному формулой (10). Очевидно, что формула эта выражает идеальный вариант, который в действительности проявляется лишь как тенденция, а не как абсолютное равенство. Тенденция эта будет тем ярче выражена, чем больше величина Н, т. е. с увеличением Н разность между М теоретическим и М действительным должна стремиться к нулю. Это, по-видимому, справедливо и для записи информации разными алфавитами на одном и том же языке и на разных языках, хотя во втором случае различия между теоретическим и действительным значениями М при относительно малых значениях Н должны быть, видимо, выражены значительно ярче, чем в первом. Жаль, что подобного рода данные в литературе отсутствуют.
Таким образом, располагая каким-либо сообщением и зная статистические веса слагающих язык букв в соответствующем языке, можно весьма точно рассчитать, какова емкость Н этой информационной тары, и на этом основании утверждать, что в данном сообщении содержится или может содержаться не более Н битов информации. Заметим, что определяемое таким путем количество информации полностью обусловливается двумя ипостасями ее носителей − языковой и алфавитной. Способ фиксации информации и природа ее носителя, столь важные для сохранения информации и ее репликации, здесь никакой роли не играют. Никак не связано количество информации и с ее семантикой, – т. е. семантика информации в пределах любого заданного ее количества может быть любой.