Литмир - Электронная Библиотека
Содержание  
A
A

Другая идея – имеющая куда больше сторонников, особенно в США, – состоит в том, что работа лексикографа не предписывает, что нам делать, а описывает, что мы делаем, будучи предоставленными сами себе[100]. Согласно этому подходу, лексикографы – это не монархи, а исследователи. Словарь представляет собой карту их открытий.

Однако и у этой идеи есть свои проблемы. Если лексикографы не могут решить, что является словом, а что нет, то насколько велика вероятность ошибки? Можем ли мы в таком случае полагаться на словарь?

В конце концов, лексикографы – это обычные люди. Конечно же, нюансы использования слов интересуют их больше, чем случайного человека на улице. Однако, пытаясь вычислить, какие слова нужно включать в словари, лексикографы обычно делают то же самое, что и все остальные. Они слушают, как говорят другие. Они много читают. Они изо всех сил пытаются выявить возникающие тенденции – какие новые слова стали употреблять? Какими словами перестали пользоваться? Какая новая информация появляется в словарях-конкурентах?

В результате у лексикографов формируются свои личные впечатления от кандидата в слова, они пытаются вычислить, насколько эти впечатления истинны[101]. Один знакомый нам лексикограф использует для этого следующий критерий: он пытается найти четыре примера этого слова в не связанных между собой текстах. Консенсус в лексикографическом сообществе желателен, однако когда речь идет о техническом жаргоне – например, о решении, включать ли в словарь слово «графен», – решение остается на усмотрение одного консультанта, имеющего определенные знания в области физики. Создание словарей – это не наука. Это искусство, которому уже много столетий.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - i_007.jpg

Возьмем, к примеру, American Heritage Dictionary. Его четвертое издание было опубликовано в 2000 году, через восемь лет после третьего. За эти годы в языке появились новые слова. Редакторы AHD предприняли немалые усилия по их выявлению. Их трофеи включали в себя amplidyne («разновидность силового генератора»), mesclun («разновидность салата»), netiquette («сетевой этикет») и phytonutrient («химические вещества, придающие растениям цвет, запах и вкус»). Можно ли считать такой подход удачным?

График четко показывает, что успех AHD весьма относителен. В случаях mesclun и netiquette составители явно опоздали. Если судить по критерию частоты, оба слова вполне могли попасть в AHD уже в 1992 году. В случае amplidyne они опоздали еще сильнее; пик использования этого слова пришелся на начало XX века, и в наши дни слово уже полностью устарело. Несмотря на все свои усилия, лексикографам не удается вовремя выявить новые слова, и порой они могут отставать на десятилетия.

Увидев этот график, мы поняли, что (по крайней мере, когда речь заходит о выявлении слов) способность прочитать миллиарды предложений после одного нажатия кнопки может быть для лексикографов настоящим подарком небес.

Словарь по принципу «Сделай сам»

Мы решили создать свой собственный описательный словарь, состоящий из всех слов современного английского языка. Наша идея была простой – если некая последовательность символов достаточно часто встречается в современных текстах, написанных на английском языке, то это – слово. Что такое «достаточно часто»? Естественным было бы использовать для отсечки ту же частоту самых редких слов, которая встречается в словарях. По нашим расчетам, она составила примерно один раз на каждый миллиард слов текста[102]. Поэтому наш ответ на вопрос «Что такое слово?» звучит следующим образом:

Английское слово – это 1-грам, возникающий в среднем не реже 1 раза на каждый миллиард 1-грамов английского текста.

Очевидно, что это не идеальное определение слова. К примеру, включает ли выражение «английский текст» цитату на испанском, которая должна быть включена в абзац на английском? Должен ли текст быть недавним? Должен ли он исходить из книг? Оцифрованной речи? Интернета? Стоит ли нам принимать во внимание типичные опечатки типа excesss (с лишней буквой s в конце)? А что насчет форм с включением цифр, типа l8r (вариант написания слова later – «позднее»)? Может ли считаться словом 2-грам, типа straw man («соломенное чучело»)? [103]

Однако если оставить в стороне эти вопросы, наше определение выглядит достаточно точным – настолько, что, руководствуясь им, договорившись об объеме проверочного текста и имея несколько мощных компьютеров, любой человек может создать объективный словарь английского языка. В этом смысле наше определение значительно лучше субъективных формулировок, которые можно найти во множестве других работ.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - i_008.jpg

Мы хотели убедиться, что наш новый ципфовский словарь действительно фиксирует современное состояние языка, поэтому мы не просто добавили в базу все имевшиеся тексты[104]. Вместо этого мы взяли десятилетний срез данных – все книги в нашей базе данных опубликованы между 1990 и 2000 годами. Эта коллекция включала в себя более 50 миллиардов 1-грамов. Для того чтобы 1-грам соответствовал установленной нами частоте отсечения (один случай употребления на миллиард), слово должно было появиться в нашей коллекции не менее пятидесяти раз. Итоговый список составил 1 489 337 слов, включая unhealthiness («нездоровье»), 6.24, psychopathy («психопатия») и Augustean («относящийся к эпохе Августа»).

Наш ципфовский список слов представляет собой вполне удобный информационный источник. Если какого-то слова в нем нет, то значит, оно встречается еще реже, чем наименее часто встречающиеся слова в словаре, – соответственно, у нас есть основания считать, что это вообще не слово. Если же оно появляется, то это значит, что оно вполне достойно включения в словарь (а если его там нет, то это может вызвать вполне законное недоумение).

Именно в этом вся прелесть обладания объективным словарем. Все эти годы во время учебы или при игре в «Эрудит» мы использовали для проверки словари. Теперь же, получив независимый способ оценки словарного состава, мы приобрели возможность оценить точность словаря и создавших его лексикографов. Кабинетные лексикографы занимались своим делом на протяжении столетий, но только после появления n-грамов стало возможным появление кабинетных лексикограферологов («лексикограферология» – труд безобидных работяг; «лексикограферолог» – еще более безобидный работяга).

Затем мы задали самый фундаментальный вопрос в области лексикограферологии – какая доля нашего ципфовского списка слов представлена в имеющихся словарях?

Она оказалась на удивление малой. Oxford English Dictionary, самый крупный словарь английского языка, содержит менее 500 тысяч слов. Его лексикон составляет примерно треть нашего списка. Объем всех остальных словарей еще меньше.

Как такое может быть? Неужели лексикографы действительно настолько плохо разбираются в том, что происходит в их собственном языке?

Лексическая темная материя

Мы немного поспешили с выводами. Большинство словарей не претендует на то, чтобы включить все слова, имеющиеся в языке. По сути, составители многих словарей даже стараются исключать те или иные слова, пусть даже часто использующиеся в языке, например[105]:

вернуться

100

См. ожесточенные споры на эту тему, описанные в: Acocella Joan. The English Wars // New Yorker (14 мая 2012 г.), доступно в сети Интернет: http://goo.gl/wGVHsx; Bloom Ryan. Inescapably, You’re Judged by Your Language // New Yorker (29 мая 2012), доступно в сети Интернет: http://goo.gl/js9VJc; Pinker Steven. False Fronts in the Language Wars // Slate (31 мая 2012), доступно в сети Интернет: http://goo.gl/33vNYT. Споры идут и в научных кругах. См., к примеру, Bergenholtz Henning, Gouws Rufus H. A Functional Approach to the Choice Between Descriptive, Prescriptive and Proscriptive Lexicography // Lexicos 20 (2010), доступно в сети Интернет: http://goo.gl/agXm7S.

вернуться

101

Все примеры анализа, представленные в главе, подробнее разбираются в Michel2011 и Michel2011S.

вернуться

102

Мы рассчитали распределение частоты употребления 116 156 уникальных 1-грам (исходных слов) в American Heritage Dictionary. После десятого процентиля, то есть примерно на уровне одно на миллиард, частота резко возрастает.

вернуться

103

При этом не вполне понятно, должно ли слово состоять исключительно из буквенных символов. К примеру, OED (впервые в своей истории) не так давно добавил статью о символе ♥. См. Ho Erica. The Oxford-English Dictionary Adds «♥» and «LOL» as Words // Time (25 марта 2011 г.), доступно в сети Интернет: http://goo.gl/0RB6EA.

вернуться

104

Заметим, что этот ципфовский словарь представляет собой всего лишь современную интерпретацию идеи, предложенной Элдриджем и реализованной в AHD (что для улучшения качества словарей может использоваться лексическая статистика). Один из первых и убедительных аргументов в пользу этого подхода появляется в статье Bailey Richard W. Research Dictionaries // American Speech 44, no. 3 (1969). P. 166–172. Доступно в сети Интернет: http://goo.gl/4RqfDu.

вернуться

105

Категории, исключенные из поиска (составные слова, варианты написания и неопределяемые понятия), выбирались на основании результатов обсуждений с Джозефом Пикеттом из American Heritage Dictionary. Принципы исключения варьируются, но в целом при составлении словарей процесс сознательного исключения всегда шел рука об руку с процессом сознательного включения. Сэмюел Джонсон обсуждает множество примеров исключенных слов в своем знаменитом словаре 1755 года. Пространное рассуждение доктора Джонсона по этому вопросу, приведенное во вступлении, не упоминает небуквенных понятий, однако обращается к трем другим классам исключений. Составные слова в основном исключены: «Составные или двойные слова были чаще всего исключены, кроме случаев, когда у итогового слова появляется иное значение, чем у составляющих его элементов. Таким образом, слова highwayman („разбойник“), woodman („лесник“) и horsecourser („заводчик лошадей“) заслуживают включения в словарь; а для слов типа thieflike („напоминающий вора“) или coachdriver („возница“) специальных статей не требуется, поскольку их смысл не отличается от смысла составляющих их слов». Варианты написания, в основном оставленные в словаре: «Я отказался от некоторых, поскольку они не были необходимыми или показались избыточными; при этом я оставил те, которые по-разному создавались и употреблялись различными авторами, к примеру viscid и viscidity („вязкий“ и „вязкость“), viscous и viscosity („липкий“ и „липкость“)». К тому же правила написания слов были в то время значительно менее стандартизованными. Сложные для определения понятия: «Есть и такие, смысл которых слишком трудноуловим и непостоянен для того, чтобы зафиксировать его в пересказе; это и те слова, которые специалисты по грамматике относят к бранной лексике, и слова из мертвых языков, вынужденным образом превратившиеся в набор пустых звуков. Это и слова, единственный смысл которых состоит в заполнении пауз или обозначении окончания предложения, активно использующиеся в живых языках. Они были исключены, хотя порой их нельзя заменить никакими другими средствами». Он также исключает множество других категорий, которые не отражаются в словарях и в наши дни. Имена: «Поскольку моей целью было создание словаря, содержащего обычные или нарицательные слова, я исключил все, связанное с именами собственными, как, например, „арианский“, „социнианский“, „кальвинистский“, „бенедиктинский“ и „магометанский“; при этом я оставил слова, имеющие более широкий смысл, например „языческий“». Специальная лексика: «Должен признать, что я был вынужден исключить из словаря многие понятия из области искусства или ремесел; это было неизбежно: я не мог ни спуститься в шахты, чтобы изучать язык шахтеров, ни совершить морское путешествие, чтобы усовершенствовать навыки в области навигационных понятий, ни заходить на склады купцов, в магазины торговцев искусством, ни собирать названия приспособлений, инструментов и действий, которые обычно не упоминаются в книгах; я не отказывался от включения в словарь слов, оказавшихся в моем распоряжении или ставших доступными мне благодаря счастливому случаю; однако я считал совершенно бесплодным трудом собирать слова из всего окружающего мира, что было бы сопряжено с многочисленными трудностями». В ходе проведенного нами анализа онлайновый словарь Merriam-Webster часто оказывается богаче OED с точки зрения медицинской лексики, поскольку включает в себя отдельный и обширный словарь медицинских терминов (неопубликованная рукопись). Иностранные слова: «Я фиксировал по мере их возникновения слова, которые используют наши авторы благодаря своему знанию иностранных языков или по причине собственного невежества, тщеславия или следования моде, из-за страсти к новшествам. При этом я тщательно их отбирал и призываю остальных воздерживаться от замещения наших родных слов натурализованными и бесполезными иностранными». Причудливые слова: «Не всегда отсутствие слов в словаре должно восприниматься как упущение. Выражения, активно и повсеместно используемые большой частью людей, возникают случайным и непредсказуемым образом; многие из них появляются для временного или локального удобства, и, активно употребляясь в определенных местах или в определенные моменты времени, практически неизвестны где-либо еще. Такие непостоянные жаргонные средства, все время находящиеся в состоянии роста или исчезания, не могут считаться полезными элементами языка, и, таким образом, им суждено исчезнуть вместе со всем, что не заслуживает сохранения». В английском языке есть множество видов темной материи. См. Johnson Samuel. A Dictionary of the English Language. London, 1755; Merriam-Webster’s Collegiate Dictionary. 11th ed. Springfield, MA: Merriam-Webster, 2003. Также мы рекомендуем книгу Carolino Pedro. English As She Is Spoke. New York: Appleton, 1883.

17
{"b":"545803","o":1}