Литмир - Электронная Библиотека
Содержание  
A
A

2. ОЦЕНКА ЧАСТОТЫ ВСТРЕЧАЕМОСТИ БУКВ

Зададим человеку, для которого русский язык — родной, следующий вопрос: "Перед вами текст длиной в 1000 букв. Сколько раз в таком тексте можно встретить букву p?". Как вы думаете, что мы услышим в ответ?

Такую задачу (на материале английского языка) впервые решал американский психолог Ф. Эттнив еще в 1953 г. Эттнив вначале подсчитал частоты встречаемости букв английского алфавита, используя для этого тексты газет и журналов на английском языке. Эти оценки естественно считать объективными оценками частот букв английского алфавита.

Затем Эттнив сделал следующее. Он разделил своих ии. на две группы. В одной группе ии. получали листок с английским алфавитом и инструкцию, в которой предлагалось против каждой буквы проставить число, указывающее на то, сколько раз эта буква в среднем может встретиться в английском тексте длиной в 1000 букв.

Чтобы облегчить ии. задачу, в инструкции говорилось, что если бы все английские буквы встречались одинаково часто, то в тексте длиной в 1000 букв каждая из них появилась бы 38 раз. Значит, одни буквы должны были бы получить оценку более 38, другие — менее.

Вторую группу ии. Эттнив разделил на подгруппы, где задания были разными. Я ограничусь обсуждением одного из них. А именно: ии. получали 100 карточек типа игральных карт, перевернутых "рубашкой" вверх. Эттнив объявил, что на каждой карточке написана буква английского алфавита и что при этом буквы на карточках повторяются так же, как это происходит в тексте. Ии. предлагалось, не заглядывая в карточки, последовательно угадывать, какая буква там написана и записывать ответы в столбик на отдельном листе.

Получилось, что оценки ии. в обоих случаях не так уж кардинально отличались от объективных данных о частотах встречаемости букв. Правда, ии. регулярно завышали частоту частых букв и занижали частоту редких. В то же время ии. считали более частыми те буквы, которые стоят в начале английского алфавита, и более редкими — те, что стоят в его конце.

Последний момент заставляет нас задуматься: с одной стороны, в конце английского алфавита стоят X, Y, Z — действительно редкие буквы, а в начале — А, В, С, т. е. буквы куда более частые. Эттнив в первой группе ии. предъявлял буквы именно в алфавитном порядке, и как раз данные по первой группе ии. оказались ближе всего к частотам, подсчитанным по тексту. А тогда — что же на самом деле "знают" ии. и на что они ориентируются, — на свой опыт восприятия текста или на место буквы в алфавите?

Хорошо бы так поставить эксперимент, чтобы быть уверенным в том, что ии. все–таки оценивают частоты букв вне зависимости от алфавитного порядка, — тогда уже не придется сомневаться в том, что ии. имеют свои представления о повторяемости букв в тексте, а не ориентируются на место той или иной буквы в алфавите.

Далее: все частоты, определенные путем подсчетов по текстам, мы будем называть объективными частотами и обозначать их Фоб, а оценки частот, предложенные ии., называть субъективными частотами и обозначать Фсуб.

Видимо, для сравнения Фсуб и Фсуб надо одним ии. предложить размышлять о повторяемости букв, представленных в виде алфавита, т. е. построить опыт так же, как это сделал Эттнив в первой группе своих информантов. Другая же группа ии. должна оценивать повторяемость букв, имея перед собой список, где русские буквы расположены в заведомо случайном по сравнению с алфавитным порядке.

Такой эксперимент провел А. П. Василевич в конце 1960–х годов.

Самый интересный результат в этом эксперименте относится не к тому, что ии. действительно способны дать такие оценки Фсуб букв, которые были бы близки к Фоб, — все же после опытов Эттнива это трудно было бы поставить под сомнение. Более важно другое — оказалось, что ии. имеют совершенно разный "внутренний масштаб" оценок.

Инструкция в эксперименте Василевича предлагала ии. оценить частоту повторяемости букв в тексте длиной 1000 букв. При этом подчеркивалось, что, с учетом числа букв русского алфавита, это значит, что более частые буквы могут встретиться более чем 31 раз, а менее частые — менее чем 31 раз. Но это не помешало ии. дать отдельным буквам такие оценки Фсуб, что их сумма доходила до 1250!

Например, все ии. считают самой частой русской буквой букву а. Здесь Фсуб четко расходится с Фоб- Ибо самой частой русской буквой в текстах, согласно надежной статистике, является о, далее идет е, буква а занимает только третье место.

Впрочем, это не так важно. Более интересно иное: ии. приписывали букве а Фсуб от 30 до 150! Но зато даже те ии., которые мыслят весьма "размашисто", этот масштаб сохраняют и в оценках других букв.

Отсюда можно сделать любопытный вывод: человек, по–видимому, хорошо предсказывает относительные частоты и куда хуже — абсолютные.

Это, в общем, естественно — ведь для адекватного прогноза нам надо знать именно сравнительную вероятность того или иного события.

Таблица 3

Оценки относительной частоты встречаемости 15 букв русского алфавита

БукваДанные опроса (Фсуб)Данные подсчетов по текстам (Фоб)
А13
021
Е32
И44
К514
С69
Н75
Р87
П913
Л1010–11
в118
т126
м1312
Б1419
Д1510–11

Важно, что стоит на первом месте, а что на пятом, т. е. важно знать порядок, относительный ранг буквы, слога или слова.

О мере адекватности оценок частоты встречаемости букв можно судить по данным табл. 3, где приведены сравнительные данные ФСуб и Фоб для 15 букв русского алфавита.

3. ОЦЕНКА ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СЛОВ

Выше мы уже говорили о том, что, используя частотные словари, можно так выбрать слова, значение которых надо выучить в первую очередь, чтобы объем абсолютно необходимого словаря–минимума свести к 2,5–3 тыс. наиболее частых слов.

Это, в общем, верный путь. Однако — и это было отмечено в свое время французскими учеными, решавшими сходные практические задачи, — есть частые слова, которые почему–то регулярно не находят себе места в перечне того, что оказывается самым частым по данным частотных словарей.

Например, таково слово полотенце или ножницы. Мы часто видим вокруг себя предметы, именуемые этими словами, употребляем эти слова в устной речи, но гораздо реже они встречаются в речи письменной. А абсолютное большинство частотных словарей составляется на основе именно письменной, а не устной речи. Получается, что, базируясь только на словах, частоты которых определены по частотному словарю, мы именно такие слова, как полотенце или ножницы, не сочтем частыми, а значит, если иметь в виду практические цели обучения, мы их не выучим.

59
{"b":"225280","o":1}