Вот такие подсчеты и провели белорусские исследователи, поручив ЭВМ сравнивать эффективность учебников. Разумеется, это только начало кибернетизации педагогики (ведь дело не только в количественных данных лексики, но и в ее качестве, да и не только в лексике). Трудно дать сразу ответы на все вопросы, над которыми бьется педагогика вот уже столько веков.
Еще одним конкретным примером союза лингвистики, математики, педагогики и ЭВМ являются работы, проводимые во многих странах мира и связанные со словами и числами.
Сколько нужно слов?
В любом языке мира насчитываются тысячи, десятки тысяч, а то и сотни тысяч различных слов, как, например, в русском, английском, немецком, французском и других, имеющих давнюю- письменную традицию. Все слова не знает даже носитель языка (вряд ли кто из русских знает значение тех четырехсот сорока тысяч слов, что собраны в академической картотеке Института русского языка).
Значит, изучая иностранный язык, мы должны заучить не все, а самые нужные, самые важные слова. Именно их должен включать словарь-минимум, что обязательно прилагается почти к каждому учебнику языка. Но тут возникает вопрос: сколько же слов должно быть в этом словаре-минимуме?
Одни специалисты полагают, что для чтения учебного текста достаточно и семисот пятидесяти слов, а при запасе в две с половиной тысячи можно читать простой неадаптированный текст с помощью словаря. Другие называют тысячу восемьсот — стольких слов, по их мнению, достаточно, чтобы понимать речь на чужом языке и вести на нем повседневное общение.
Шестая Международная ассоциация преподавателей современных языков рекомендует тысячу пятьсот — три тысячи слов на шесть лет обучения. Нашей программой для языковых вузов и факультетов иностранных языков установлен минимум в пять тысяч слов, причем на первом курсе должно быть усвоено восемьсот слов. Программа для неязыковых вузов рекомендует на два года обучения минимум в две с половиной тысячи слов, из них тысячу двести — для активного усвоения.
Согласимся с программой для вузов. Однако тут встает очередной вопрос: а какие именно слова нужно включать в словарь-минимум? Понятно, что самые важные, самые употребительные. Предлоги, местоимения, союзы… Правда, их не так-то уж и много в любом языке, А дальше? Какие глаголы, прилагательные, существа тельные нужно знать наизусть, а какими можно и не обременять свою память?
Казалось бы, словари-минимумы в учебниках должны совпадать. Если не полностью, то хотя бы на три четверти, хотя бы наполовину… Когда же специалисты сравнили шестнадцать разных учебников французского языка для американских школ, то обнаружили, что общими для них является примерно два процента слов! В учебниках насчитывалось в общей сложности шесть тысяч разных слов. И только сто тридцать четыре из них входили во все словари-минимумы!
Представим, что два американца, изучив французский по разным учебникам, попробуют общаться друг с другом на этом языке. Вряд ли они поймут друг друга: ведь общими у них будет менее полутораста слов.
Ту же печальную картину показал анализ и других словарей-минимумов. Десять учебников испанского языка содержали четыре с половиной тысячи слов, общими же было двести сорок девять. А в двадцати шести учебниках того же испанского языка было обнаружено тринадцать тысяч слов. Хороший же словарь-минимум для тех, кто изучает испанский язык! Требовать от новичков, изучающих иностранный язык, знания всех этих слов нелепо и бессмысленно, не всякий переводчик-профессионал их знает.
Какие же слова считать употребительными, а какие нет? Ответ на этот вопрос дает статистика, так называемые частотные словари.
Частоты и слова
Чем чаще встречается в текстах слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту. Но как избежать слов, характерных только для данного текста, а в других почти не встречающихся? Самый лучший путь — брать не один источник, а несколько. А затем, подсчитав, сколько раз встречаются в этих книгах различные слова, сравнить результаты. Если они совпадают, то слово действительно является частым (или редким). Если не совпадают, то, значит, в одном из текстов оно было завышено из-за сюжета или пристрастия автора к этому слову.
Так, весьма частое для «Капитанской дочки» слово крепость, встретилось всего лишь в четырнадцати источниках из ста тридцати трех. Значит, слово это отнюдь не частое и занимает скромное место в списке самых употребительных слов русского языка. А составляй мы список лишь по «Капитанской дочке», то оно вошло бы едва ли не в первую двадцатку самых ходовых слов нашего языка!
В «Истории Пугачева» оно встречается еще чаще — сто тридцать четыре раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В «Путешествии в Арзрум» оно встречается шестнадцать раз. Зато во всех художественных произведениях (кроме «Капитанской дочки») Пушкин употребил слово крепость всего один раз (в «Дубровском») и два раза в стихотворениях и поэмах.
Но не только количество разных текстов может гарантировать наши подсчеты от случайности. Не менее важно взять большой объем этих текстов. И чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не повлияют на точность наших подсчетов.
Подсчеты частот слов производились давно: еще в средние века составлялись индексы к религиозным текстам, в которых указывалось, сколько и где упоминаются слова бог, ангел и т. д. Но только на пороге нашего века появляется серьезная потребность в частотных словарях. Первым таким словарем считается словарь немецкого языка, выпущенный в Берлине в 1897–1898 годах. Его составитель Ф. Кединг обработал колоссальный материал в одиннадцать миллионов слов!
Вслед за тем приходит черед частотных словарей английского языка. В Лондоне в 1904 году священник Дж. Ноулз составляет список из слов, которые встретились более двадцати пяти раз в текстах, объемом в сто тысяч слов.
Американец Р. Элдридж, управляющий небольшой фабрикой, где в основном работали иммигранты, за два года расписал на карточки двести пятьдесят статей из газет, составивших около пятидесяти тысяч слов, и подсчитал частоты этих слов.
Первоначально, как говорил Элдридж в предисловии к своему словарю, выпущенному в 1911 году, его целью было выявить минимум слов, который помог бы рабочим-иностранцам быстро овладеть разговорной речью. Но затем, продолжает Элдридж, он понял, что частотные словари могут принести и более существенную пользу, в том числе оказать помощь в реформе английской орфографии, которую справедливо называют «чудовищной».
Но частотные словари Ноулза, Элдриджа, а также ряд других, выпущенных в начале нашего века, были все-таки любительскими, ненадежными. Ноулз опирался на текст Библии, Элдридж — на текст газетных статей, другие авторы — на выборки из различных писем. Да и объем исследуемого материала был невелик. В двадцатых годах профессора Колумбийского университета Э. Торндайк и И. Лордж начинают работу над серией больших частотных словарей английского языка. Завершился их четвертьвековой труд выпуском крупнейшего в мире частотного словаря. Обработав различные тексты общим объемом в восемнадцать миллионов слов, ученые привели в своем словаре тридцать тысяч слов, которые встретились в этих текстах.
В настоящее время частотные словари созданы почти по всем европейским языкам. Словарь испанского языка, составленный Гарсиа Осом, создан на основании подсчетов четырехсот тысяч слов; словарь чешского языка — одного миллиона двухсот тысяч слов, польского — семи миллионов, французского — полутора миллионов и т. д.
Пришел черед и для частотного словаря русского языка. В настоящее время составлено пять таких словарей.