Люди помогают друг другу осуществлять фильтрацию, записывая свои реакции на прочитанные документы. Например, такая реакция может уведомлять, что документ показался особенно интересным (или особенно неинтересным). Подобные реакции, называемые в общем случае аннотациями, могут быть доступными фильтрам других людей.
В Tapestry использовались “фильтратор”, запускавший повторяющиеся запросы по набору документов, “ящичек”, собиравший материалы, которые могли заинтересовать пользователя, и “оценщик”, который устанавливал приоритеты и категоризировал документы. Концептуально это очень похоже на современные алгоритмические ленты: цель Tapestry заключалась в том, чтобы выводить на первый план контент, который с наибольшей вероятностью окажется важен для пользователя. Однако подобная система требовала гораздо больше предварительных действий со стороны пользователей: им приходилось писать запросы, по которым система определяла, что они желают увидеть, основываясь либо на контенте, либо на действиях других пользователей. Остальным пользователям в системе также приходилось выполнять весьма целенаправленные действия, помечая материал как важный или нерелевантный. Для подобной схемы требуется небольшая группа людей, которые уже знают друг друга и понимают, как их сообщество взаимодействует с электронной почтой – например, вы уже осведомлены, что Джефф отвечает только на особо важные письма, и поэтому вы хотите, чтобы ваш фильтр выводил наверх все письма, на которые отвечает Джефф. Tapestry лучше всего функционировала в весьма небольшой системе.
В 1995 году Упендра Шардананд и Пэтти Маес из MIT Media Lab (медиалаборатории Массачусетского технологического института) описали в своей статье “социальную фильтрацию информации” – “технику создания персонализированных рекомендаций из любой базы данных для пользователя на основе сходства профилей интересов”. Эта работа опиралась на идеи Tapestry и стала ответом на перегруженность онлайн-информацией: “Объем значительно больше, нежели человек может отфильтровать, чтобы найти то, что ему понравится”. Авторы пришли к выводу о необходимости автоматизированных фильтров: “Нам нужна технология, которая поможет продраться через всю информацию, чтобы найти то, что нам действительно нужно, и избавит нас от того, с чем мы не хотим заморачиваться”. (Естественно, эта проблема актуальна до сих пор.) Шардананд и Маес утверждали, что у фильтрации на основе содержания есть существенные недостатки. Она требует перевода материала в данные, понятные машине, например в текст; ей не хватает интуитивной прозорливости, поскольку она может фильтровать только по терминам, которые вводит пользователь; и она не измеряет внутреннее качество. Она не способна “отличить хорошо написанную статью от плохо написанной, если в этих двух работах используются одинаковые термины”. Невозможность оценить качество наводит на мысли об искусственном интеллекте: новые инструменты вроде ChatGPT, казалось бы, способны понимать и генерировать осмысленный язык, однако на самом деле они лишь повторяют схемы, присущие уже существующим данным, на которых они обучались. Качество субъективно; сами по себе данные – без человеческой оценки – не могут его определить.
Социальная фильтрация информации позволяет обойти эти проблемы, поскольку основана на действиях людей-пользователей, которые самостоятельно оценивают содержание, используя как количественные, так и качественные суждения. Это больше похоже на сарафанное радио, когда мы получаем советы, что послушать или посмотреть, от друзей, чьи предпочтения схожи с нашими собственными: “Объекты рекомендуются пользователю на основе величин, присвоенных другими людьми со сходным вкусом”, – говорилось в статье. Сходство вкусов одного пользователя с другим определялось с помощью статистической корреляции. Чтобы давать музыкальные рекомендации, исследователи разработали систему под названием Ringo, использующую электронную почту. Пользователю предлагали первоначальную группу из 125 исполнителей, он выставлял оценки по шкале от 1 до 7, после чего строилась диаграмма его предпочтений. Затем программа сравнивала эту диаграмму с диаграммами других пользователей и подбирала музыку, которая человеку предположительно понравится (или совсем не понравится – такой вариант тоже был). Рекомендации Ringo также сопровождались указателем уровня уверенности, который выдавал вероятность того, что предложение окажется удачным, и позволял пользователю дополнительно подумать над предложенным алгоритмическим выбором. К сентябрю 1994 года у Ringo были двадцать одна сотня пользователей и пятьсот электронных писем в день с оценками музыки.
Ringo тестировала различные алгоритмы для принятия решений на основе музыкальных рейтингов. Первый алгоритм измерял несходство между вкусами пользователей и основывал рекомендации на максимальном сходстве. Второй измерял сходство, а затем использовал для принятия решений положительные и отрицательные корреляции с другими пользователями. Третий определял корреляцию между различными исполнителями и рекомендовал музыкантов, которые сильно коррелировали с теми, что уже нравились данному человеку. Четвертый алгоритм (по мнению исследователей, самый эффективный) подбирал пользователей на основе того, положительно или отрицательно они оценивали одни и те же вещи – иными словами, на основе совпадения вкусов. Сходство оказалось наилучшей переменной. Чем больше пользователей включалось в систему и чем больше сведений они предоставляли, тем лучше работала Ringo – некоторые пользователи даже назвали систему “пугающе точной”. Инновация Ringo заключалась в том, что она подтверждала: наилучшим источником точных рекомендаций или лучших индикаторов релевантности, скорее всего, являются другие люди, а не анализ самого содержания. Концепция отражала повышение важности человеческого вкуса.
Первые алгоритмы интернета разработали для того, чтобы просеивать огромное количество материала в поисках вещей, важных для пользователя, и затем представлять их в связном виде. Целью были рекомендации: рекомендовать ту или иную информацию, песню, картинку или новость в социальных сетях. Алгоритмическую подачу информации иногда более формально и буквально называют “рекомендательными системами” за простой акт выбора того или иного контента.
Первым полностью общедоступным интернет-алгоритмом, с которым сталкивался практически каждый пользователь интернета, стал алгоритм поиска Google. В 1996 году, учась в Стэнфордском университете, соучредители Google Сергей Брин и Ларри Пейдж начали работу над тем, что впоследствии превратилось в PageRank – систему ранжирования страниц интернета (который на тот момент насчитывал около ста миллионов документов); она просматривала веб-страницы и определяла, какие из них окажутся полезнее или информативнее. Алгоритм PageRank подсчитывал, сколько раз на данный сайт ссылались другие, подобно тому, как авторы научных работ ссылаются на результаты предыдущих серьезных исследований. Чем больше ссылок, тем более важной считалась страница. Показатель цитирования “согласуется с субъективным представлением людей о важности”, – писали Брин и Пейдж в 1998 году в работе “Анатомия системы крупномасштабного гипертекстового интернет-поиска”. Алгоритм PageRank объединил форму совместной фильтрации с фильтрацией на основе содержания. Связывая различные страницы, люди-пользователи формировали субъективную карту рекомендаций, которую учитывал алгоритм. Он также измерял такие факторы, как количество ссылок на странице, относительное качество этих ссылок и даже размер текста – чем он длиннее, тем более релевантным может оказаться текст для конкретного поискового запроса. Страницы с высоким значением PageRank с большей вероятностью появлялись в верхней части списка результатов, которые выдавала поисковая система Google.
Прогноз Пейджа и Брина относительно того, что их система останется функциональной и масштабируемой по мере развития интернета, оказался верным. Спустя десятилетия PageRank стал почти тиранической системой, которая управляет тем, как и когда видны сайты. Для любого бизнеса или ресурса жизненно важно приспособиться к алгоритму ранжирования и попасть на первую страницу результатов поиска Google. В начале 2000-х годов мне приходилось просматривать множество выдаваемых страниц, чтобы найти то, что мне требовалось. В последнее время я почти никогда не добираюсь даже до второй страницы – в частности, благодаря тому, что поисковая система Google теперь еще и сама показывает текст, который сочла релевантным: она берет его с сайта и демонстрирует пользователю в верхней части страницы – выше фактических результатов поиска. Таким образом, пользователь, спросивший: “Можно ли кормить собаку морковью?” (я без устали искал ответ на этот вопрос, когда у меня впервые появился щенок), сразу получает ответ, и у него отпадает необходимость заходить на другой сайт, что еще сильнее укрепляет авторитет Google. “Знание – сила”, – писал Фрэнсис Бэкон в XVI веке, однако в эпоху интернета, возможно, еще больше преимуществ дает сортировка знаний. Информацию сегодня найти легко; гораздо сложнее разобраться в ней и понять, какие сведения полезны.