Литмир - Электронная Библиотека
Содержание  
A
A

Не менее важно и то, что этот огромный массив данных был по-настоящему блестящим. Несмотря на то, что общий объем текста в тысячу раз превосходил геном человека, он был – буква за буквой – в десять раз более точен, чем последовательность, о которой сообщал проект «Геном человека» [116].

Теперь, после того как тексты и метаданные каталогов на основе карточек были уточнены, созданные на их основе списки n-грамов стали выглядеть просто отлично. Мы ясно видели широкий спектр лингвистических и культурных изменений, таких как переход от throve к thrived или движение от telegraph («телеграф») к telephone («телефон») и television («телевидение»). Выражаясь научным языком, с данными n-грамов у нас возникла любовь с первого взгляда.

Однако, подобно многим другим летним романам, наши отношения с n-грамами вскоре столкнулись с осенними проблемами. Юань заканчивал интернатуру с начала учебного года, и мы вскоре оказались за пределами Google, а соответственно, все наши данные были спрятаны за брандмауэрами компании.

Нам было необходимо, чтобы Google отправила нам данные. Однако интернет-гигант этого не хотел. По мнению Google, работа с данными n-грамов оставалась довольно деликатным делом. Массив данных был сформирован из полного текста 5 миллионов книг, и юридический расчет Google был прост. Пять миллионов книг соответствуют пяти миллионам авторов – иными словами, пяти миллионам истцов в рамках огромного иска, который мог появиться в случае утечки. Мы проектировали набор данных в виде тени (n-грама), чтобы обойти эту проблему. Мы подсчитывали слова вместо того, чтобы записывать длинные последовательности текста. Однако наша ловкость рук еще не проходила проверки судами[117]. Было вполне понятно, чего опасается Google.

У нас было мало шансов на успех в противостоянии с юридической службой одной из крупнейших мировых корпораций. Однако, имея в кармане два миллиарда n-грамов, мы не были готовы сдаться.

Что можно купить за славу

У нас оставалось все меньше карт для игры. Авива Эйден, получившая свою награду, дала нам шанс открыть двери Googleplex. Мы в полной мере воспользовались добротой чужих людей, когда Питер Норвиг дал нам добро на проект и выразил готовность сотрудничать. Мы даже воспользовались «звонком другу», когда оказалось, что наш давний сосед Бен Байер оказался «Повелителем времени и пространства» в Google Research (возможно, это лучшее название должности во всей корпоративной истории). Однако нам предстояло разыграть еще одну карту.

Наши разговоры о количественном измерении исторических тенденций привлекли внимание Стивена Пинкера, одного из самых знаменитых ныне живущих ученых, перед которым мы всегда преклонялись.

Пинкер – психолог, лингвист и когнитивист, обладающий невероятной глубиной и широтой познаний. Автор многочисленных бестселлеров, он обладает потрясающей способностью препарировать самые сложные проблемы и выявлять их суть. Например, как-то раз Пинкера пригласили на сатирическое телешоу Colbert Report. Ведущий Стивен Колберт спросил его: «Как работает мозг? Ответьте в пяти словах или меньше». Пинкер подумал пару секунд и сказал: «Клетки мозга „выстреливают“ определенные последовательности» [118].

Нам невероятно повезло, что одним из фанатов Пинкера оказался не кто иной, как Дэн Клэнси, возглавлявший летом 2009 года работу над проектом Google Books. Клэнси занимал достаточно высокое положение для того, чтобы обеспечить нам доступ к данным извне. Но Клэнси – это занятой и важный человек, у которого нет времени для мелких проектов типа нашего. Однако к концу лета стало понятно, что если мы хотим устроить встречу с Пинкером и обсудить с ним наши n-грамы, то для этого придется найти время и неуловимому Дэну Клэнси.

Поэтому мы сказали Пинкеру следующее: «Мы создали 2 миллиарда n-грамов; можете ли вы помочь нам выпустить их на волю?» Пинкер посчитал, что у нашей работы есть будущее, и согласился прийти на встречу. После этого Клэнси тоже изъявил желание прийти. У нас было тридцать минут на то, чтобы изложить суть своего дела.

Несколько лет назад Пинкер был назван журналом Time одним из 100 наиболее влиятельных людей на планете. И как только началась встреча, сразу же стало понятно, почему. Тридцати минут было более чем достаточно, чтобы он продемонстрировал нам свои волшебные способности. И вскоре n-грамы уже были на пути к свободе.

Так что же покупает вам слава? Слава Пинкера купила нам тридцать минут времени Клэнси. Немного, но этого было достаточно.

История славы

Слава – пчела,
И жужжаща,
И жаляща.
Ах – есть крыла еще[119].

Это стихотворение Эмили Дикинсон описывает суть славы – очарование, опасность, то, как она поднимает человека, и то, как порой оказывается вне пределов нашей досягаемости. Можно было бы думать, что Дикинсон разбирается в этом вопросе лучше многих. Ее вполне можно считать самым знаменитым поэтом Америки. Однако отношения Дикинсон со славой далеко не однозначны.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - i_012.jpg

Все, что она знала о славе, подсказывала ей интуиция, а не опыт. Почти неизвестная при жизни, Дикинсон оставила после себя произведения, ставшие предметом масштабного обсуждения почти через полвека после ее смерти в 1886 году.

Так исключение или правило – отношения Дикинсон со славой? Слава по-разному находит людей, в разное время и по различным причинам. И кажется, что тут нет ничего общего. Принц Уильям, сын принца Чарльза и принцессы Дианы, был знаменит с момента своего рождения или даже до него (с учетом того, что его судьба была предначертана уже тогда, когда он находился в материнской утробе). Поп-певца Джастина Бибера открыли благодаря его записям на YouTube, когда ему было всего 13 лет; пятью годами позже количество запросов по имени Бибер в Google превысило количество запросов о любом другом человеке[120]. Иногда слава внезапно настигает человека после многих лет жизни, как это произошло с Пинкером. Он, уже будучи преподавателем Массачусетского технологического, получил мировое признание в возрасте 40 лет после публикации бестселлера «Язык как инстинкт». Джулия Чайлд не умела готовить до 40 лет. Тем не менее ей хватило времени на то, чтобы произвести революцию в американской кухне и превратиться в национальный символ.

Подобно Эмили Дикинсон, многие из самых знаменитых людей не сыскали славы в течение своей жизни. Винсент Ван Гог продал за всю жизнь единственную картину (своему брату) и умер в безвестности. Монах Коперник понимал, что его главная идея – что Земля вращается вокруг Солнца, а не наоборот – была настолько «зажигательной», что он разрешил публиковать ее, только оказавшись на смертном одре. В некоторых областях человеческой деятельности посмертная слава вполне нормальна. Как говорил генерал армии северян Уильям Текумсе Шерман: «Думаю, что понимаю, в чем состоит воинская слава: вы умираете на поле боя, а затем газеты перевирают ваше имя».

А еще есть люди, кажущиеся знаменитыми без достаточных к тому оснований. Такие знаменитости, как Пэрис Хилтон или Ким Кардашьян, создают себе репутацию как раз за счет своей известности, что превращается в своеобразное самосбывающееся пророчество. Такие люди выделяют невероятное гравитационное притяжение, связанное со славой. Нас притягивают не только достижения знаменитых людей, но и сам факт их известности. С учетом того, насколько мы все очарованы славой, остается удивляться, как мало мы понимаем механизмы ее работы.

вернуться

116

Расчеты, связанные с качеством расшифровки генома, основаны на данных статьи Lander Eric et al. Initial Sequencing and Analysis of the Human Genome // Nature 409, no. 6822 (2001). P. 860–921. Доступно в сети Интернет: http://goo.gl/trMZ4e.

вернуться

117

Один из новых аргументов юристов заключается в том, что предоставление цифровых копий миллионов текстов, защищенных копирайтом, для чтения (так называемого «потребительского» использования) представляет собой нарушение авторского права. В этой связи можно предположить, что вычисления, производимые с теми же защищенными текстами («непотребительские» виды использования), не являются нарушением, если только результат не включает в себя больших кусков изначального текста. n-грамы представляют собой пример полезного «непотребительского» использования книг, и мы указали на это в экспертном заключении для суда по делу Authors Guild, Inc., et al., v. Google, Inc. См. письмо Эреца Либермана Эйдена и Жана-Батиста Мишеля в суд, 3 сентября 2009 г. (ECF No. 303), Authors Guild, Inc., et al., v. Google, Inc., 770 F.Supp.2d 666 (S.D.N.Y., 22 марта 2011 г.) (No. 05– Civ.-8136). Не так давно этот аргумент был использован в разбирательстве Authors Guild, Inc., et al. v. HathiTrust et al. (S.D.N.Y., 2012). HathiTrust Digital Library предлагает прямой доступ к миллионам оцифрованных книг, полученных от участвующих в проекте библиотек. Во многих случаях эти книги были оцифрованы Google. 10 октября 2011 г. федеральный судья Южного округа Нью-Йорка Гарольд Баэр-мл. вынес решение в пользу HathiTrust. В решении было подчеркнуто, что «непотребительские» вычисления, связанные с большой коллекцией книг, представляют собой «бесценный вклад в прогресс науки и развитие искусств» и что подобная деятельность «вполне подпадает под определение добросовестного использования». Для подкрепления своей точки зрения судья Баэр процитировал экспертное заключение Мэттью Л. Джокерса, Мэттью Сага и Джейсона Шульца, под которым мы также поставили свои подписи; в качестве конкретного примера судья указал на тот же n-грам, который мы использовали во вступлении к этой книге: «частота, с которой авторы используют с течением времени слова is и are в отношении Соединенных Штатов». Вердикт судьи: Brief of Digital Humanities and Law Scholars as Amici Curiae in Partial Support of Defendants’ Motion for Summary Judgment // Authors Guild, Inc., et al., v. HathiTrust et al., 902 F.Supp.2d 445 (S.D.N.Y., 10 октября 2012 г.) (No. 11-Civ.– 06351) 2012 WL 4808939.

вернуться

118

См. The Colbert Report, 6:38, 7 февраля 2007 г, http://goo.gl/iFMGCt. Пинкер был соавтором Michel2011.

вернуться

119

Пер. В. Емелина (Прим. пер.).

вернуться

120

См. Zeitgeist 2010: How the World Searched // Google Zeitgeist, 2011, доступно в сети Интернет: http://goo.gl/OCpY2X.

20
{"b":"545803","o":1}