Для улучшения работы системы используются различные модификации ранее описанных методов[333]. В частности, для преодоления дефицита оценок конкретного пользователя и подбора ему подходящих рекомендателей прибегают к «голосованию по умолчанию» (эта схема подходит в том случае, если все потребляют одно и то же и сходным образом оценивают). Эмпирически установлено, что точность предсказания растет, если присваивать неоцененным товарам некую гипотетическую оценку. Чтобы получить ее, предложено вычислять сходство не между пользователями, а между товарами[334]. Поскольку вкусы людей из группы рекомендателей, подобранных компьютерной программой для данного клиента, хотя и близки между собой, но все же не идентичны, нужно каким-то образом резюмировать их общую оценку. В примитивном варианте она вычисляется как простое среднее. В то же время ясно, что чем более сходны во вкусах клиент и кто-то из его рекомендателей, тем весомей должен быть вклад оценки данного рекомендателя в предсказание, обобщающее мнение группы. Однако и в этом варианте учтено не все: в частности, пользователи по-разному воспринимают шкалу оценок. Эта проблема снимается, если абсолютные значения оценок корректируются с учетом систематического сдвига от их среднего значения для соответствующего рекомендателя (так нивелируется общая позитивная или негативная установка абонента). Наряду с клиент-клиентскими системами применяется коллаборативная фильтрация второго типа – модельного[335]. В этой схеме с помощью некоего индекса сходства пользователей объединяют в кластеры. Покупки и оценки, данные потребителями из одного сегмента, используются для вычисления рекомендаций. По утверждению Г. Линдена и его соавторов, кластерные модели легче масштабируются (т. е. они лучше приспособлены к работе с крупными базами данных) в сравнении с поклиентской коллаборативной фильтрацией, так как сверяют профиль пользователя с относительно небольшим количеством сегментов, а не с целой пользовательской базой[336]. Сложный и дорогой кластерный подсчет ведется в оффлайновом режиме, что разгружает систему. Но качество рекомендаций при этом снижается, и вот почему. Кластерная модель группирует пользователей в сегмент, сравнивает конкретного пользователя с этим сегментом и выдает всем членам сегмента общие рекомендации. Так как пользователи, объединенные в кластер, не обладают идеальным сходством, рекомендации тоже не идеальны. Их качество можно повысить, разбивая пользователей на высокооднородные подгруппы, но тогда их будет много, и анализ связи пользователь-сегмент обойдется так же дорого, как и поиск сходных потребителей методом субъект-субъектной (поклиентской) коллаборативной фильтрации[337]. Работа по совершенствованию коллаборативной фильтрации полным ходом ведется во всем мире. Известны попытки внедрения статистической схемы[338], а также более сложных вероятностных методов[339]. Объединение анамнестического и модельного принципов дает лучшие результаты, чем каждый из них в отдельности. 2.7.3.1. Проблемы и недостатки Коллаборативные рекомендации по целому ряду параметров превосходят контентные. В частности, они могут работать с любыми продуктами, даже c теми, которые вообще пока не известны данному потребителю. Технология может использоваться и для экспертизы самого эксперта[340]. (Если профессиональный критик включается в орбиту рекомендательного сервиса, важно знать, в какой области он специализируется и сколь авторитетен.) Главное достоинство коллаборативной фильтрации состоит в том, что рекомендации персонифицированы. При этом сервис не просто использует повседневную потребительскую активность клиентов, а стимулирует их анализировать свои поступки. Создатели рекомендательных систем для торговли по вполне понятным причинам стараются не утруждать потребителя и свести его рефлексию к минимуму. Но несомненно, что для самого покупателя осмысление выбора – полезное занятие. В частности, культурно-потребительская активность может привести к формированию сообществ по интересам, и это бесконечно позитивно[341] – при условии, что реальное (офф-лайн) знакомство людей с их «вкусовыми» соседями не будет противоречить этике и принципу невмешательства в частную жизнь[342].
Но в коллаборативных сервисах имеются и свои ограничения. К их числу относится проблема нового пользователя. Чтобы дать ему точные рекомендации, системе прежде надлежит выяснить его предпочтения. Это препятствие обходят, используя гибридный метод, совмещающий возможности контентного и коллаборативного принципов[343]. Совсем недавно появились методики построения потребительского профиля, в которых используется автоматическая обработка текстов (data-mining), анализ сетевого поведения клиента и т. д. Они позволяют учесть интересы и предпочтения пользователей, не обременяя их лишними вопросами, и тем самым насытить как их собственные профили, так и профили объектов. Эти технологии позволяют отчасти снять еще одну проблему рекомендательных систем – назойливость. Большинство рекомендательных сервисов предполагают пользовательскую активность: MovieLens, например, первым делом просит новичков проставить оценки двум десяткам фильмов[344].. Для точного расчета необходимы оценки большого количества уже известных продуктов. Эти сведения стараются извлечь косвенными методами[345]. Например, анализируют время, ушедшее на чтение статьи. Но косвенные данные неточны и не заменяют полностью прямых оценок пользователя. Поэтому проблема снижения навязчивости рекомендательных систем при сохранении высокого качества их работы стоит довольно остро. Те же сложности возникают и с новым товаром: его невозможно рекомендовать до тех пор, пока он не наберет достаточного количества оценок[346]. Есть и еще одна препона – так называемая разреженность оценок. Спрос на рекомендации обычно превышает наличие оценок в системе. Люди предпочитают не давать оценки, а получать их, не вкладываться в формирование базы данных, а пользоваться ею. Отсюда, в частности, проблема «первого оценщика» и вообще «холодного старта». Как побудить человека к этому действию, ведь поначалу он не приобретает ничего взамен и может подождать, пока эти хлопоты возьмет на себя кто-то другой?[347] Хотя если судить по высочайшей спонтанной активности веблоггеров, не стоит переоценивать трудности. И все же так или иначе критическая масса пользователей необходима. Например, в рекомендательных системах по кино часть фильмов оценивается лишь малым числом зрителей, поэтому эти ленты будут рекомендоваться редко, даже если им поставили высокие баллы. В общем, если в базе данных число «экспертов» относительно мало по сравнению с количеством объектов, прогнозы будут неточны. Проблему можно частично купировать, если включить в профиль пользователя дополнительную информацию, к примеру, учитывать социально-демографические данные (это так называемая демографическая фильтрация). Так, рекомендательные системы для ресторанов предлагается пополнять сведениями о возрасте, месте проживания, образовании и работе[348]. Часть проблем коллаборативной фильтрации носит сугубо технический характер и связана со сложностями вычислений при работе с большими базами данных. Как указывают разработчики конкурирующих друг с другом систем, «почти все современные алгоритмы коллаборативной фильтрации были разработаны на небольших базах данных. Например, MovieLens работает с 35000 клиентов и 3000 товаров, а EachMovie работает с базой из 4000 пользователей и 1600 товаров»[349]. Дорогостоящие вычисления целесообразно выполнять только в офф-лайне, но традиционная поклиентсткая корпоративная фильтрация в таком режиме практически не функционирует, а делать все вычисления в режиме реального времени трудно. Это возможно только если количество измерений невелико, что уменьшает качество рекомендаций. В противном случае обслуживание рекомендательной системы оказывается неоправданно затратным. вернуться Такие как голосование по умолчанию, обратная частотность, предсказание на основании взвешенного большинства и др. вернуться Sarwar B., Karypis G., Konstan J., Riedl J. Item-Based Collaborative Filtering Recommendation Algorithms // Proc. 10th Intl WWW Conf., 2001. По их мнению, системы, ориентированные на анализ оценок, данных товарам, показывают лучшие результаты по сравнению с коллаборативными алгоритмами, ориентированными на анализ потребителей. Так же считают и авторы работы: Deshpande M., Karypis G. Item-Based Top-N Recommendation Algorithms // ACM Trans. Information Systems, Vol. 22, № 1, 2004. P. 143–177. вернуться Billsus D., Pazzani M. Learning Collaborative Information Filters; Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering; Getoor L., Sahami M. Using Probabilistic Relational Models for Collaborative Filtering // Proc. Workshop Web Usage Analysis and User Profiling (WEBKDD ’99), Aug. 1999; Goldberg K., Roeder T., Gupta D., Perkins C. Eigentaste: A Constant Time Collaborative Filtering Algorithm // Journal of Information Retrieval, Vol. 4, № 2, July 2001. P. 133–151; Hofmann T. Collaborative Filtering via Gaussian Probabilistic Latent Semantic Analysis // Proc. 26th Ann. Intl ACM SIGIR Conf., 2003; Marlin B. Modeling User Rating Profiles for Collaborative Filtering // Proc. 17th Ann. Conf. Neural Information Processing Systems (NIPS ’03), 2003; Pavlov D., Pennock D. A Maximum Entropy Approach to Collaborative Filtering in Dynamic, Sparse, High-Dimensional Domains // Proc. 16th Ann. Conf. Neural Information Processing Systems (NIPS ’02), 2002. вернуться Linden G., Smith B., York J. Amazon.com Recommendations. Item-to-Item Collaborative Filtering // IEEE Internet Computing, February 2003. вернуться Каждый товар может рассматриваться как один из узлов байесовой сети, а положение узла соответствует предполагаемой величине оценки товара. Плохо здесь то, что каждый пользователь может быть отнесен к отдельному кластеру, хотя некоторые системы способны рассматривать пользователя сразу в нескольких амплуа. Например, в системе, занимающейся рекомендацией книг, пользователь может интересоваться одной темой для работы и совершенно другой – для досуга. Кроме того, предлагается метод КФ, основанный на машинном самообучении (например, система искусственных нейронных сетей), вкупе с методами извлечения релевантных признаков (таких, как алгебраические модели сокращения матриц до матриц меньшего размера с сохранением репрезентативности). По некоторым оценкам, не являющимся окончательными, модельные методики превосходят анамнестические в точности рекомендаций. См., например: Billsus D., Pazzani M. Learning Collaborative Information Filters и Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering. вернуться Ungar L. H., Foster D. P. Clustering Methods for Collaborative Filtering // Proc. Recommender Systems, Papers from 1998 Workshop, Technical Report WS-98-08 1998. вернуться В частности, для выработки рекомендаций предлагают использовать цепи Маркова (Shani G., Brafman R., Heckerman D. An MDP-Based Recommender System // Proc. 18th Conf. Uncertainty in Artificial Intelligence, Aug. 2002). Известен латентно-семантический анализ и группа методов, оперирующих понятиями генеративной семантики. Показано, что коллаборативная фильтрация применима и при относительно небольшом количестве информации о пользователе (Kumar R., Raghavan P., Rajagopalan S., Tomkins A. Recommendation Systems: A Probabilistic Analysis // Journal of Computer and System Sciences, Vol. 63, № 1, 2001. P. 42–61). вернуться С помощью взаимной фильтрации формируются круги не только ценителей определенного произведения, точно так же могут формироваться и группы поклонников определенного критика. вернуться Вообще говоря, сближение родственных по духу людей и формирование сообществ по интересам может оказаться главной ценностью коллаборативной технологии, радикально и позитивно меняющей мир. вернуться Этика содействия организации обществ по интересам разбирается, в частности, Тервином и Хиллом на примере системы PHOAKS. Главный приоритет здесь – соблюдение невмешательства в частную жизнь (Terveen L., Hill W. Beyond Recommender Systems: Helping People Help Each Other // Carroll J. (ed.) HCI in the New Millennium. Addison-Wesley, 2001). вернуться Подробнее см.: Rashid A. M., Albert I., Cosley D., Lam S. K., McNee S. M., Konstan J. A., Riedl J. Getting to Know You: Learning New User Preferences in Recommender Systems // Proc. Intl Conf. Intelligent User Interfaces, 2002; Yu K., Schwaighofer A., Tresp V., Xu X., Kriegel H.-P. Probabilistic Memory-Based Collaborative Filtering // IEEE Transactions on Knowledge and Data Engineering, Vol. 16, № 1, Jan. 2004. P. 56–69. вернуться Такой запрос требует от пользователя некоторого количества усилий. В то же время каждая дополнительная оценка увеличивает точность анализа и в этом смысле выгодна клиенту. Поэтому перед разработчиками стоит проблема минимизации необходимого числа оцениваемых единиц, чтобы человек ради получения эффективного результата был готов потратить некоторое время на первоначальные оценки. вернуться См.: Caglayan A., Snorrason M., Jacoby J., Mazzu J., Jones R., Kumar K. Learn Sesame — A Learning Agent Engine // Applied Artificial Intelligence, Vol. 11, 1997. P. 393–412; Konstan J. A., Miller B. N., Maltz D., Herlocker J. L., Gordon L. R., Riedl J. GroupLens: Applying Collaborative Filtering to Usenet News // Comm. ACM, Vol. 40, № 3, 1997. P. 77–87; Middleton S. E., Shadbolt N. R., de Roure D. C. Ontological User Profiling in Recommender Systems // ACM Trans. Information Systems, Vol. 22, № 1, 2004. P. 54–88; Oard D. W., Kim J. Implicit Feedback for Recommender Systems // Proc. Recommender Systems. Papers from 1998 Workshop, Technical Report WS-98-08, 1998. вернуться Good N., Schafer J. B., Konstan J., Borchers A., Sarwar B., Herlocker J., Riedl J. Combining Collaborative Filtering with Personal Agents for Better Recommendations // Proc. of AAAI’99, July 1999. вернуться Avery C., Resnick P., Zeckhauser R. The Market for Evaluations // American Economic Review, Vol. 89(3), 1999. P. 564–584. вернуться Pazzani M. A Framework for Collaborative, Content-Based, and Demographic Filtering // Artificial Intelligence Review, December 1999. P. 393–408. вернуться Linden G., Smith B., York J. Amazon.com Recommendations. Item-to-Item Collaborative Filtering // IEEE Internet Computing, February 2003. |