Литмир - Электронная Библиотека

Для улучшения работы системы используются различные модификации ранее описанных методов[333]. В частности, для преодоления дефицита оценок конкретного пользователя и подбора ему подходящих рекомендателей прибегают к «голосованию по умолчанию» (эта схема подходит в том случае, если все потребляют одно и то же и сходным образом оценивают). Эмпирически установлено, что точность предсказания растет, если присваивать неоцененным товарам некую гипотетическую оценку. Чтобы получить ее, предложено вычислять сходство не между пользователями, а между товарами[334].

Поскольку вкусы людей из группы рекомендателей, подобранных компьютерной программой для данного клиента, хотя и близки между собой, но все же не идентичны, нужно каким-то образом резюмировать их общую оценку. В примитивном варианте она вычисляется как простое среднее. В то же время ясно, что чем более сходны во вкусах клиент и кто-то из его рекомендателей, тем весомей должен быть вклад оценки данного рекомендателя в предсказание, обобщающее мнение группы. Однако и в этом варианте учтено не все: в частности, пользователи по-разному воспринимают шкалу оценок. Эта проблема снимается, если абсолютные значения оценок корректируются с учетом систематического сдвига от их среднего значения для соответствующего рекомендателя (так нивелируется общая позитивная или негативная установка абонента).

Наряду с клиент-клиентскими системами применяется коллаборативная фильтрация второго типа – модельного[335]. В этой схеме с помощью некоего индекса сходства пользователей объединяют в кластеры. Покупки и оценки, данные потребителями из одного сегмента, используются для вычисления рекомендаций. По утверждению Г. Линдена и его соавторов, кластерные модели легче масштабируются (т. е. они лучше приспособлены к работе с крупными базами данных) в сравнении с поклиентской коллаборативной фильтрацией, так как сверяют профиль пользователя с относительно небольшим количеством сегментов, а не с целой пользовательской базой[336]. Сложный и дорогой кластерный подсчет ведется в оффлайновом режиме, что разгружает систему. Но качество рекомендаций при этом снижается, и вот почему. Кластерная модель группирует пользователей в сегмент, сравнивает конкретного пользователя с этим сегментом и выдает всем членам сегмента общие рекомендации. Так как пользователи, объединенные в кластер, не обладают идеальным сходством, рекомендации тоже не идеальны. Их качество можно повысить, разбивая пользователей на высокооднородные подгруппы, но тогда их будет много, и анализ связи пользователь-сегмент обойдется так же дорого, как и поиск сходных потребителей методом субъект-субъектной (поклиентской) коллаборативной фильтрации[337].

Работа по совершенствованию коллаборативной фильтрации полным ходом ведется во всем мире. Известны попытки внедрения статистической схемы[338], а также более сложных вероятностных методов[339]. Объединение анамнестического и модельного принципов дает лучшие результаты, чем каждый из них в отдельности.

2.7.3.1. Проблемы и недостатки

Коллаборативные рекомендации по целому ряду параметров превосходят контентные. В частности, они могут работать с любыми продуктами, даже c теми, которые вообще пока не известны данному потребителю. Технология может использоваться и для экспертизы самого эксперта[340]. (Если профессиональный критик включается в орбиту рекомендательного сервиса, важно знать, в какой области он специализируется и сколь авторитетен.)

Главное достоинство коллаборативной фильтрации состоит в том, что рекомендации персонифицированы. При этом сервис не просто использует повседневную потребительскую активность клиентов, а стимулирует их анализировать свои поступки. Создатели рекомендательных систем для торговли по вполне понятным причинам стараются не утруждать потребителя и свести его рефлексию к минимуму. Но несомненно, что для самого покупателя осмысление выбора – полезное занятие. В частности, культурно-потребительская активность может привести к формированию сообществ по интересам, и это бесконечно позитивно[341] – при условии, что реальное (офф-лайн) знакомство людей с их «вкусовыми» соседями не будет противоречить этике и принципу невмешательства в частную жизнь[342].

Но в коллаборативных сервисах имеются и свои ограничения. К их числу относится проблема нового пользователя. Чтобы дать ему точные рекомендации, системе прежде надлежит выяснить его предпочтения. Это препятствие обходят, используя гибридный метод, совмещающий возможности контентного и коллаборативного принципов[343]. Совсем недавно появились методики построения потребительского профиля, в которых используется автоматическая обработка текстов (data-mining), анализ сетевого поведения клиента и т. д. Они позволяют учесть интересы и предпочтения пользователей, не обременяя их лишними вопросами, и тем самым насытить как их собственные профили, так и профили объектов. Эти технологии позволяют отчасти снять еще одну проблему рекомендательных систем – назойливость. Большин­ство рекомендательных сервисов предполагают пользовательскую активность: MovieLens, например, первым делом просит новичков проставить оценки двум десяткам фильмов[344].. Для точного расчета необходимы оценки большого количества уже известных продуктов. Эти сведения стараются извлечь косвенными методами[345]. Например, анализируют время, ушедшее на чтение статьи. Но косвенные данные неточны и не заменяют полностью прямых оценок пользователя. Поэтому проблема снижения навязчивости рекомендательных систем при сохранении высокого качества их работы стоит довольно остро.

Те же сложности возникают и с новым товаром: его невозможно рекомендовать до тех пор, пока он не наберет достаточного количества оценок[346].

Есть и еще одна препона – так называемая разреженность оценок. Спрос на рекомендации обычно превышает наличие оценок в системе. Люди предпочитают не давать оценки, а получать их, не вкладываться в формирование базы данных, а пользоваться ею. Отсюда, в частности, проблема «первого оценщика» и вообще «холодного старта». Как побудить человека к этому действию, ведь поначалу он не приобретает ничего взамен и может подождать, пока эти хлопоты возьмет на себя кто-то другой?[347] Хотя если судить по высочайшей спонтанной активности веблоггеров, не стоит переоценивать трудности. И все же так или иначе критическая масса пользователей необходима. Например, в рекомендательных системах по кино часть фильмов оценивается лишь малым числом зрителей, поэтому эти ленты будут рекомендоваться редко, даже если им поставили высокие баллы. В общем, если в базе данных число «экспертов» относительно мало по сравнению с количеством объектов, прогнозы будут неточны. Проблему можно частично купировать, если включить в профиль пользователя дополнительную информацию, к примеру, учитывать социально-демографические данные (это так называемая демографическая фильтрация). Так, рекомендательные системы для ресторанов предлагается пополнять сведениями о возрасте, месте проживания, образовании и работе[348].

Часть проблем коллаборативной фильтрации носит сугубо технический характер и связана со сложностями вычислений при работе с большими базами данных. Как указывают разработчики конкурирующих друг с другом систем, «почти все современные алгоритмы коллаборативной фильтрации были разработаны на небольших базах данных. Например, MovieLens работает с 35000 клиентов и 3000 товаров, а EachMovie работает с базой из 4000 пользователей и 1600 товаров»[349]. Дорогостоящие вычисления целесообразно выполнять только в офф-лайне, но традиционная поклиентсткая корпоративная фильтрация в таком режиме практически не функционирует, а делать все вычисления в режиме реального времени трудно. Это возможно только если количество измерений невелико, что уменьшает качество рекомендаций. В противном случае обслуживание рекомендательной системы оказывается неоправданно затратным.

вернуться

333

Такие как голосование по умолчанию, обратная частотность, предсказание на основании взвешенного большинства и др.

вернуться

334

Sarwar B., Karypis G., Konstan J., Riedl J. Item-Based Collaborative Filtering Recommendation Algorithms // Proc. 10th Intl WWW Conf., 2001. По их мнению, системы, ориентированные на анализ оценок, данных товарам, показывают лучшие результаты по сравнению с коллаборативными алгоритмами, ориентированными на анализ потребителей. Так же считают и авторы работы: Deshpande M., Karypis G. Item-Based Top-N Recommendation Algorithms // ACM Trans. Information Systems, Vol. 22, № 1, 2004. P. 143–177.

вернуться

335

Billsus D., Pazzani M. Learning Collaborative Information Filters; Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering; Getoor L., Sahami M. Using Probabilistic Relational Models for Collaborative Filtering // Proc. Workshop Web Usage Analysis and User Profiling (WEBKDD ’99), Aug. 1999; Goldberg K., Roeder T., Gupta D., Perkins C. Eigentaste: A Constant Time Collaborative Filtering Algorithm // Journal of Information Retrieval, Vol. 4, № 2, July 2001. P. 133–151; Hofmann T. Collaborative Filtering via Gaussian Probabilistic Latent Semantic Analysis // Proc. 26th Ann. Intl ACM SIGIR Conf., 2003; Marlin B. Modeling User Rating Profiles for Collaborative Filtering // Proc. 17th Ann. Conf. Neural Information Processing Systems (NIPS ’03), 2003; Pavlov D., Pennock D. A Maximum Entropy Approach to Collaborative Filtering in Dynamic, Sparse, High-Dimensional Domains // Proc. 16th Ann. Conf. Neural Information Processing Systems (NIPS ’02), 2002.

вернуться

336

Linden G., Smith B., York J. Amazon.com Recommendations. Item-to-Item Collaborative Filtering // IEEE Internet Computing, February 2003.

вернуться

337

Каждый товар может рассматриваться как один из узлов байесовой сети, а положение узла соответствует предполагаемой величине оценки товара. Плохо здесь то, что каждый пользователь может быть отнесен к отдельному кластеру, хотя некоторые системы способны рассматривать пользователя сразу в нескольких амплуа. Например, в системе, занимающейся рекомендацией книг, пользователь может интересоваться одной темой для работы и совершенно другой – для досуга. Кроме того, предлагается метод КФ, основанный на машинном самообучении (например, система искусственных нейронных сетей), вкупе с методами извлечения релевантных признаков (таких, как алгебраические модели сокращения матриц до матриц меньшего размера с сохранением репрезентативности). По некоторым оценкам, не являющимся окончательными, модельные методики превосходят анамнестические в точности рекомендаций. См., например: Billsus D., Pazzani M. Learning Collaborative Information Filters и Breese J. S., Heckerman D., Kadie C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering.

вернуться

338

Ungar L. H., Foster D. P. Clustering Methods for Collaborative Filtering // Proc. Recommender Systems, Papers from 1998 Workshop, Technical Report WS-98-08 1998.

вернуться

339

В частности, для выработки рекомендаций предлагают использовать цепи Маркова (Shani G., Brafman R., Heckerman D. An MDP-Based Recommender System // Proc. 18th Conf. Uncertainty in Artificial Intelligence, Aug. 2002). Известен латентно-семантический анализ и группа методов, оперирующих понятиями генеративной семантики. Показано, что коллаборативная фильтрация применима и при относительно небольшом количестве информации о пользователе (Kumar R., Raghavan P., Rajagopalan S., Tomkins A. Recommendation Systems: A Probabilistic Analysis // Journal of Computer and System Sciences, Vol. 63, № 1, 2001. P. 42–61).

вернуться

340

С помощью взаимной фильтрации формируются круги не только ценителей определенного произведения, точно так же могут формироваться и группы поклонников определенного критика.

вернуться

341

Вообще говоря, сближение родственных по духу людей и формирование сообществ по интересам может оказаться главной ценностью коллаборативной технологии, радикально и позитивно меняющей мир.

вернуться

342

Этика содействия организации обществ по интересам разбирается, в частности, Тервином и Хиллом на примере системы PHOAKS. Главный приоритет здесь – соблюдение невмешательства в частную жизнь (Terveen L., Hill W. Beyond Recommender Systems: Helping People Help Each Other // Carroll J. (ed.) HCI in the New Millennium. Addison-Wesley, 2001).

вернуться

343

Подробнее см.: Rashid A. M., Albert I., Cosley D., Lam S. K., McNee S. M., Konstan J. A., Riedl J. Getting to Know You: Learning New User Preferences in Recommender Systems // Proc. Intl Conf. Intelligent User Interfaces, 2002; Yu K., Schwaighofer A., Tresp V., Xu X., Kriegel H.-P. Probabilistic Memory-Based Collaborative Filtering // IEEE Transactions on Knowledge and Data Engineering, Vol. 16, № 1, Jan. 2004. P. 56–69.

вернуться

344

Такой запрос требует от пользователя некоторого количества усилий. В то же время каждая дополнительная оценка увеличивает точность анализа и в этом смысле выгодна клиенту. Поэтому перед разработчиками стоит проблема минимизации необходимого числа оцениваемых единиц, чтобы человек ради получения эффективного результата был готов потратить некоторое время на первоначальные оценки.

вернуться

345

См.: Caglayan A., Snorrason M., Jacoby J., Mazzu J., Jones R., Kumar K. Learn Sesame — A Learning Agent Engine // Applied Artificial Intelligence, Vol. 11, 1997. P. 393–412; Konstan J. A., Miller B. N., Maltz D., Herlocker J. L., Gordon L. R., Riedl J. GroupLens: Applying Collaborative Filtering to Usenet News // Comm. ACM, Vol. 40, № 3, 1997. P. 77–87; Middleton S. E., Shadbolt N. R., de Roure D. C. Ontological User Profiling in Recommender Systems // ACM Trans. Information Systems, Vol. 22, № 1, 2004. P. 54–88; Oard D. W., Kim J. Implicit Feedback for Recommender Systems // Proc. Recommender Systems. Papers from 1998 Workshop, Technical Report WS-98-08, 1998.

вернуться

346

Good N., Schafer J. B., Konstan J., Borchers A., Sarwar B., Herlocker J., Riedl J. Combining Collaborative Filtering with Personal Agents for Better Recommendations // Proc. of AAAI’99, July 1999.

вернуться

347

Avery C., Resnick P., Zeckhauser R. The Market for Evaluations // American Economic Review, Vol. 89(3), 1999. P. 564–584.

вернуться

348

Pazzani M. A Framework for Collaborative, Content-Based, and Demographic Filtering // Artificial Intelligence Review, December 1999. P. 393–408.

вернуться

349

Linden G., Smith B., York J. Amazon.com Recommendations. Item-to-Item Collaborative Filtering // IEEE Internet Computing, February 2003.

46
{"b":"231114","o":1}