4.2.14. «ДИСТРИБУЦИЯ» И «ПРОЦЕДУРЫ ОТКРЫТИЯ» *
Принципы дистрибуционного анализа (определяющего противопоставление «формальная» vs. «понятийная» грамматика) наиболее тщательно и широко были рассмотрены Хэррисом, особенно в книге «Методы структурной лингвистики» (опубликованной в 1951 г., но написанной несколькими годами раньше). Хэррис и другие американские лингвисты того времени разработали эти принципы в рамках «процедурной» лингвистики, то есть определенного набора исходных представлений относительно природы лингвистической теории и методики, которые не всеми были приняты в то время и пользуются еще меньшей популярностью сейчас. В частности, предполагалось, что основная задача структурной лингвистики состоит в определении методики или процедуры, которая может применяться к корпусу засвидетельствованных высказываний и, при минимальном использовании суждений информанта относительно «тождеств» и «различий», может гарантировать получение из самого корпуса правил грамматики. По этой причине термины «дистрибуция» и «структуралистский» стали в силу чисто исторических причин связываться с той точкой зрения, согласно которой можно сформулировать «процедуры открытия» для установления правил конкретных грамматик на основе засвидетельствованных высказываний. Должно быть ясно, что термин «дистрибуция» используется в этой книге без подобных побочных импликаций. Следует также понять, что труды Хэрриса и его коллег с их сильной тенденцией к точной формулировке дистрибуционных принципов послужили основанием, на котором была построена генеративная грамматика со времени публикации работы Хомского «Синтаксические структуры» в 1957 г.
4.3. ГРАММАТИКА И СЛОВАРЬ
4.3.1. АНАЛИЗ И СИНТЕЗ
Как мы уже видели в предыдущем разделе, каждая грамматика предполагает некоторый словарь (или лексикон), в котором слова языка классифицируются в соответствии с их вхождением в дистрибуционные классы, упоминаемые в грамматических правилах.
Как грамматику, так и словарь можно рассматривать с двух различных точек зрения, в зависимости от того, занимается ли лингвист анализом («распознаванием») корпуса высказываний или синтезом («образованием») грамматически правильных предложений. Хотя из соображений практического удобства считается, что словарь и грамматика организованы до некоторой степени различным образом в соответствии с тем, используются ли они для «распознавания» или «образования», важно понять, что сами по себе они нейтральны по отношению к этому разграничению. Любой корпус засвидетельствованных предложений может быть удовлетворительно описан лишь как «выборка» из предложений, порождаемых грамматикой (см. § 4.2.8). Таким образом, генеративная и «описательная» грамматика не противопоставляются друг другу.
Однако тот факт, что грамматика нейтральна в принципе по отношению к анализу и синтезу, не означает, что принятие одной, а не другой точки зрения не имеет никаких практических последствий. Если грамматика предназначается для синтеза, удобно организовать словарь так, чтобы можно было легко найти все элементы некоторого класса слов для замены любым из них соответствующего символа класса (например, N), что предполагается правилами лексической субституции (см. § 4.3.2). Очевидный способ сделать это — организовать лексикон как множество списков, обладающих следующей формой:
N = {man, boy, chimpanzee, . . .}.
С другой стороны, если мы занимаемся анализом данного текста, будет легче работать с эталонным списком, в котором слова упорядочены в соответствии с некоторым принципом (например, по алфавиту), что позволит нам быстро найти любые отдельные слова, встречающиеся в анализируемом предложении, и распознать их грамматические свойства, например:
beauty 'красота': Существительное
die 'игральная кость; умирать': Существительное, Глагол
warm 'теплый; греть': Прилагательное, Глагол.
Наши обычные словари принадлежат к этому второму типу. Традиционные грамматики обычно не составляли списков первого типа, за исключением списков для «неправильных» форм (которые. они могли записывать в грамматике, так же как и перечислять в алфавитном порядке в словаре). Они допускали возможность построения списков слов для целей «синтеза» на основе значения отдельных слов и определений «частей речи». Некоторые современные генеративные грамматики, или грамматические очерки, предусматривают частичные списки для каждого класса слов в отдельности (мы рассмотрим природу этих списков ниже). Различие между двумя видами словаря не принципиально, а касается, скорее, удобства. Современные генеративные грамматики упомянутого типа более заинтересованы в установлении грамматических классов, требуемых для описания рассматриваемого ими языка, нежели в исчерпывающей классификации всех слов в этом языке. Если все слова языка не классифицированы соответствующим образом в словаре, грамматика не будет генеративной в смысле «эксплицитности» (см. § 4.2.13).
Одно из следствий принятия точки зрения анализа, а не синтеза заключается в следующем. Если лингвист знает, что его описание отдельного языка будет использовано только для анализа зафиксированного материала (например, в некоторых проектах автоматического анализа письменных текстов для создания машинного перевода или библиотечного каталога и поиска информации), он может позволить себе менее исчерпывающую классификацию словаря и менее полное грамматическое описание языка.
Например, есть много английских существительных, оканчивающихся на ness (например, goodness 'доброта', correctness 'правильность' и т. д.). Большинство из них, как и два приведенных здесь примера, могут быть «образованы» от прилагательных (например, good 'хороший', correct 'правильный' и т. д.). Не вдаваясь здесь в природу «словообразования» (см. § 5.4.2), мы можем считать одно слово, существительное, образованным от другого, прилагательного, с помощью следующей формулы: Ax + ness = Ny. (Это можно прочесть следующим образом: «Любое слово, состоящее из члена класса слов Аx и ness, является членом класса слов Ny».) Поскольку это весьма продуктивное словообразовательное правило английского языка, можно решить, что его следует включить в грамматику; и все слова, оканчивающиеся на ness, которые можно образовать с помощью этой формулы, могут быть изъяты из словаря.
Если же мы занимаемся синтезом, мы должны решить, какие прилагательные принадлежат классу Аx; например, включает ли этот класс слова true 'верный' и strong 'сильный' с тем, чтобы trueness и strongness (в дополнение к truth 'правда' и strength 'сила' или вместо них) порождались как грамматичные или исключались как неграмматичные. Но грамматика «распознавания» не нуждается в решении этого вопроса. Эта грамматика могла бы вполне довольствоваться более общим правилом A + ness = Ny («Любое слово, встречающееся в предложении в позиции, в которой допустимо Ny, и которое можно разложить на А и ness, должно быть принято программой распознавания»). Если бы trueness и strongness встретились в анализируемом тексте, они были бы проанализированы и признаны грамматичными; если нет, то данный вопрос не релевантен. (Слова truth и strength были бы перечислены в словаре или анализировались бы на основе иных правил. Использованный здесь пример взят из действительной программы вычислительной машины, которая успешно анализировала очень многие английские деривационные образования.)
С различием точек зрения не связано никакое принципиальное различие. Формула A + ness = Ny порождает одно и то же множество слов, используется ли она для анализа или синтеза (предполагается, что она относится к одному и тому же списку прилагательных). Но, занимаясь исключительно анализом, можно позволить себе некоторые вольности. Можно намеренно порождать (в абстрактном, математическом значении — и именно в этом значении следует всегда понимать этот термин) множество предложений, которое включало бы ряд подлежащих исключению предложений, исходя из предположения, что они так или иначе не встретятся. Исключение предложений, которые предположительно не встретятся, значительно увеличило бы «затраты» (см. § 4.2.11). Этот принцип «эффективности затрат» часто применяется при автоматическом анализе языка с помощью компьютера, поскольку принцип «снижения рентабельности» имеет весьма прямую экономическую интерпретацию (в виде дополнительного времени, необходимого для программирования, излишних затрат времени компьютера и т. д.).