Литмир - Электронная Библиотека
Содержание  
A
A

1. Слова, состоящие не только из букв (например, 3.14 и l8r).

2. Составные слова (whalewatching – «наблюдение за китами»).

3. Нестандартная орфография (untill вместо until – «до тех пор, пока»).

4. Слова, которым сложно дать однозначное описание (AAAAAAARGH).

Поэтому с нашей стороны было бы несправедливым тыкать пальцем в людей, которые даже не пытались включать в словарь определенные типы слов. Чтобы убедиться в том, что составители словарей исключают из них именно то, что планировали, мы рассчитали, какая часть нашего списка слов пришла из указанных выше четырех категорий.

Это сократило наш список с 1,5 миллиона до немногим более миллиона слов. Но все равно наш ципфовский лексикон почти в два раза превышал по объему количество статей в Oxford English Dictionary. Иными словами, даже самый полный словарь английского языка упускает большинство слов. Эти задокументированные слова включали в себя множество ярких понятий, таких как aridification (процесс, в результате которого географический регион становится засушливым), slenthem (музыкальный инструмент) и, что показалось вполне уместным, слово deletable («допускающий удаление»).

Так в чем же состоит проблема словарей?

Ответ – частотность употребления. Судя по всему, составители словарей проводят отличную работу по отбору самых частых слов. В этом смысле словари совершенно идеальны: они действительно содержат буквально 100% всех слов – если только эти слова встречаются чаще, чем один раз на миллион, например слово dynamite («динамит»). Если слово появляется хотя бы один раз в случайной стопке из десяти книг, словарь зафиксирует его и даст ему определение.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - i_009.jpg

Однако у лексикографов возникает немалая проблема с редкими словами. Как только частота слова оказывается меньше, чем одно на миллион, шансы на то, что оно не будет включено в словарь, резко возрастают. Если посмотреть на слова с частотой употребления немногим меньшей, чем одно на миллиард, в словари будет включена лишь четверть.

Стоит помнить о правиле, установленном Ципфом, – большинство слов встречается достаточно редко. Соответственно, если словари упускают из вида большинство редких слов, то можно сказать, что они упускают большинство слов как таковых.

В результате оказывается, что 52% английского языка – большинство слов, используемых в книгах, – представляют собой лексическую темную материю. Подобно темной материи в космосе, составляющей основной объем Вселенной, лексическая темная материя составляет основную массу нашего языка, которая не может быть протестирована обычными способами[106].

Как только ограничения традиционной лексикографии стали понятными, эта область работы начала меняться. Новые игроки на рынке, такие как wordnik.com, wiktionary.com и urbandictionary.com, перестали полагаться на кабинетных лексикографов в деле создания масштабных онлайн-словарей. Напротив, они пытаются использовать силу огромного количества пользователей для документирования всей темной материи – по тому же пути идут и традиционные словари типа OED. Для ускорения работы они дополняют существующие методы новым подходом обработки данных в лексикографии (и даже вплотную приближаются к лексикограферологии!).

В целом все эти нововведения полезны и приятны для лексикографов. Несмотря на многовековые усилия, предстоит проделать еще огромную работу. Можно сказать, что английский язык и по сей день остается неизведанным континентом.

Четыре дня рождения и одни похороны

Новые слова всегда волнуют людей. Каждый год Американское диалектное общество проводит специальное собрание, посвященное словам. Члены общества отдают свои голоса в категориях «Слово года» [107], «Самое странное слово» и даже «Кандидат, у которого мало шансов стать словом» [108]. Стоит отметить, что наше изобретение – слово «культуромика» – в 2010 году было номинировано именно в этой последней категории. С 1991 года список слов года включал в себя cyber (1994), e- (1998), metrosexual (2003) и совсем недавно hashtag (mot-diиse на случай, если нас читают представители французского правительства). Списки, составляемые Американским диалектным обществом, наглядно подтверждают, что язык охотно приветствует новые слова и уделяет им должное внимание.

Однако в том, что касается конца лексического жизненного цикла, никакой бурной деятельности не происходит. Судя по всему, никому не хочется проводить похороны для умерших слов. Именно поэтому так сложно сказать, что оказывается выше, рождаемость или смертность (иными словами, что происходит с английским языком – расширяется ли он, сужается или остается неизменным).

Чтобы разобраться с этим вопросом, мы создали еще два ципфовских списка слов. Для первого мы использовали тексты, опубликованные между 1990 и 2000 годами, и сформировали современный словарь. А для второго мы использовали два исторических периода – десятилетие, предшествовавшее 1900 году, и десятилетие, предшествовавшее 1950-му[109].

Мы обнаружили, что к 1900 году словарный состав насчитывал свыше 550 000 слов. Это больше, чем в новом издании Oxford English Dictionary. В течение следующих 50 лет не происходило ничего интересного и язык оставался неизменным по объему. Рождаемость и смертность почти уравновешивали друг друга.

Однако в период между 1950 и 2000 годами английский язык вошел в период роста и почти удвоился в размере за счет добавления сотен тысяч новых слов. Новая рождаемость значительно превысила смертность слов. В настоящее время каждый год в английский язык добавляется около 8400 слов – иными словами, ежедневно порог преодолевает свыше 20 новых слов.

Наш язык не просто меняется – он растет[110].

Почему так происходит? В точности этого никто не знает, и (как и в случае степенных законов) у нас нет нехватки в домыслах[111]. Одна гипотеза заключается в том, что по мере повышения социальной сплоченности (мы поддерживаем связи с большим количеством людей) и сужения нашего мира (люди находятся на расстоянии телефонного звонка или перелета на самолете друг от друга), новые слова быстрее и проще набирают критическую массу. Другая гипотеза утверждает, что прогресс в науке, медицине и технологиях формирует новые слова вследствие того, что профессиональный жаргон проще попадает в общее употребление. Однако еще одно объяснение кроется в диверсификации, связанной с самими книгами, – основой нашего ципфовского словаря. Чем больше людей публикует тексты в конце XX столетия, тем чаще авторы пишут на различные темы, используя свой собственный идиолект. Иначе говоря, глобальная дискуссия начинает вестись все большим количеством слов.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - i_010.jpg

Если честно, никто точно не знает, какая из гипотез верна, как возникает этот эффект и что будет дальше. Будет ли расти количество слов, появляющихся каждый год? Есть ли границы у нашего словарного состава? Насколько сильно язык ваших детей будет отличаться от вашего собственного? Массивы больших данных позволяют лучше представить себе язык и освещают нам путь к новому научному ландшафту, в котором не скрыться даже снежному человеку.

Однако слова, которые мы используем, способны рассказать куда более интересную историю, чем язык в целом. Слова представляют собой окно в мир наших мыслей, нравов и общества в целом. Поэтому давайте обратимся от механизма коммуникации к сути наших мыслей.

вернуться

106

Мы выбрали тысячу слов из словаря и посчитали, как много из них попадает в исключенные категории. В результате у нас нет исчерпывающего списка темной материи английского языка. Как и в случае темной материи во Вселенной, мы не знаем в точности, из чего она состоит, – мы лишь знаем, что ее очень много.

вернуться

107

См. All of the Words of the Year, 1990 to Present // American Dialect Society, доступно в сети Интернет: http://goo.gl/JCYMiK.

вернуться

108

Мы с огромным удовольствием проголосовали за слово skyaking – прыжки с самолета на каяке. При этом нам представляется, что вследствие смертельной опасности, которой подвергаются поклонники этого вида спорта, есть немало эволюционных оснований считать, что такое слово действительно не имеет будущего. Разумеется, к предсказаниям ADS не стоит относиться слишком серьезно; к 2011 году слово «культуромика» вошло в словари Random House и Macmillan. См. Culturomics // Macmillan Dictionary online, доступно в сети Интернет: http://goo.gl/qkg8GE; Culturomics // Dictionary.com, доступно в сети Интернет: http://goo.gl/EmvAhE.

вернуться

109

Расчеты для промежуточных точек были сделаны с помощью метода линейной интерполяции.

вернуться

110

Интересно поразмышлять о точных причинах изменений в языке (и о будущем английского языка в частности). См. Erard Michael. English As She Will Be Spoke // New Scientist (29 марта 2008 г.); English Is Coming // Economist (12 февраля 2009 г.), доступно в сети Интернет: http://goo.gl/wcPGt8. Люди уже давно интересовались подобными вопросами. См. Jacobs Joseph. Growth of English-Amazing Development of Language as Shown in New Standard Dictionary’s 450 000 Words // New York Times (16 ноября 1913 г.).

вернуться

111

Связь между частотой употребления и выравниванием исследуется в работе Bybee Joan L., Morphology: A Study of the Relation Between Meaning and Form. Amsterdam: John Benjamins, 1985. В целом была проведена большая работа по исследованию лингвистических изменений. См., к примеру, Labov William. Transmission and Diffusion // Language 83, no. 2 (June 2007). P. 344–387. Доступно в сети Интернет: http://goo.gl/aZ5M2R; Corbett Greville et al. Frequency, Regularity, and the Paradigm: A Perspective from Russian on a Complex Relation // Bybee J. L., Hopper P. J. (eds.) Frequency and the Emergence of Linguistic Structure. Amsterdam: John Benjamins, 2001. P. 201–228. Эти вопросы также можно изучать с более явной эволюционной точки зрения. См. Pagel Mark. Wired for Culture: Origins of the Human Social Mind. New York: W. W. Norton, 2012; Pagel Mark. Atkinson Quentin D., Meade Andrew. Frequency of Word-Use Predicts Rates of Lexical Evolution Throughout Indo-European History // Nature 449 (11 октября 2007 г.). P. 717–720. Доступно в сети Интернет: http://goo.gl/93WiJ0.

18
{"b":"545803","o":1}