Различие между описательными и нормативными теориями изложил Джон Невилл Кейнс в книге The Scope and Method of Political Economy (Macmillan, 1891).
Глава 6
Шэрон Берч Макгрейн рассказывает историю байесовского учения от Байеса и Лапласа до наших дней в книге The Theory That Would Not Die (Yale University Press, 2011). Введением в байесовскую статистику может служить учебник First Course in Bayesian Statistical Methods* Питера Хоффа (Springer, 2009).
Наивный байесовский алгоритм впервые упомянут в книге Pattern Classification and Scene Analysis* Ричарда Дуда и Питера Харта (Wiley, 1973). Милтон Фридман приводит аргументы в пользу чрезмерно упрощенных теорий в статье The methodology of positive economics, которая вышла в сборнике Essays in Positive Economics (University of Chicago Press, 1966). Применение наивного байесовского алгоритма для фильтрации спама описано в статье Stopping spam Джошуа Гудмана, Дэвида Хекермана и Роберта Рунтвейта (Scientific American, 2005). Статья Relevance weighting of search terms* Стивена Робертсона и Карена Спарка Джонса (Journal of the American Society for Information Science, 1976) посвящена использованию методов, схожих с наивным байесовским алгоритмом, для поиска информации.
Статья First links in the Markov chain Брайана Хейза (American Scientist, 2013) рассказывает об изобретении Марковым цепей своего имени. Статья Large language models in machine translation Торстена Брантса и соавторов (Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007) объясняет, как работает Google Translate. В статье The PageRank citation ranking: Bringing order to the Web* Ларри Пейджа, Сергея Брина, Раджива Мотвани и Терри Винограда (Stanford University technical report, 1998) описан алгоритм PageRank и его интерпретация как случайное блуждание по сети. Книга Statistical Language Learning* Юджина Чарняка (MIT Press, 1996) объясняет, как работают скрытые марковские модели, а Statistical Methods for Speech Recognition* Фреда Елинека (MIT Press, 1997) описывает их применение для распознавания речи. Об истории логического вывода в стиле скрытой марковской модели в области коммуникаций рассказывает статья The Viterbi algorithm: A personal history Дэвида Форни (не опубликована, но доступна в интернете по адресу arxiv.org/pdf/cs/0504020v2.pdf). Книга Bioinformatics: The Machine Learning Approach* Пьера Балди и Серена Брунака (второе издание, MIT Press, 2001) — введение в использование машинного обучения, в том числе в скрытой марковской модели в биологии. Статья Engineers look to Kalman filtering for guidance Барри Ципры (SIAM News, 1993) — краткое введение в фильтры Калмана, их историю и применение.
Работа Джуды Перла о байесовских сетях описана в его книге Probabilistic Reasoning in Intelligent Systems* (Morgan Kaufmann, 1988). Статья Юджина Чарняка Bayesian networks without tears* (AI Magazine, 1991) — во многом нематематическое введение в байесовские сети. Статья Probabilistic interpretation for MYCIN’s certainty factors* Дэвида Хекермана (Proceedings of the Second Conference on Uncertainty in Artificial Intelligence, 1986) объясняет, когда наборы правил с оценкой уверенности — разумные приближения байесовских сетей, а когда — нет. Статья Module networks: Identifying regulatory modules and their condition-specific regulators from gene expression data Эрана Сегала и соавторов (Nature Genetics, 2003) — пример использования байесовских сетей для моделирования регуляции генов. В статье Microsoft virus fighter: Spam may be more difficult to stop than HIV Бена Пейнтера (Fast Company, 2012) рассказывается, как Дэвид Хекерман вдохновился спам-фильтрами и использовал байесовские сети для разработки возможной вакцины от СПИДа. Вероятностное, или «зашумленное», ИЛИ объясняется в упомянутой выше книге Перла. В статье Probabilistic diagnosis using a reformulation of the INTERNIST-1/QMR knowledge base М. А. Шве и соавторов (части I и II, Methods of Information in Medicine, 1991) описано применение байесовской сети с зашумленным ИЛИ в медицинской диагностике. Байесовская сеть Google для размещения рекламы описана в разделе 26.5.4 книги Кевина Мерфи Machine Learning* (MIT Press, 2012). Система оценки игроков Microsoft описана в статье TrueSkillTM: A Bayesian skill rating system* Ральфа Хербриха, Тома Минки и Тора Грепела (Advances in Neural Information Processing Systems 19, 2007).
Книга Modeling and Reasoning with Bayesian Networks* Аднана Дарвиша (Cambridge University Press, 2009) объясняет важнейшие алгоритмы логического вывода в байесовских сетях. Номер Computing in Science and Engineering* за январь-февраль 2000 года под редакцией Джека Донгарры и Фрэнсиса Салливана содержит статьи о десяти главных алгоритмах ХХ столетия, в том числе MCMC. Статья Stanley: The robot that won the DARPA Grand Challenge Себастьяна Труна и соавторов (Journal of Field Robotics, 2006) рассказывает, как работает беспилотный автомобиль Stanley. Статья Bayesian networks for data mining* Дэвида Хекермана (Data Mining and Knowledge Discovery, 1997) подытоживает байесовский подход к обучению и объясняет, как получать байесовские сети на основе данных. Статья Gaussian processes: A replacement for supervised neural networks?* Дэвида Маккея (NIPS tutorial notes, 1997; онлайн www.inference.eng.cam.ac.uk/mackay/gp.pdf) дает почувствовать атмосферу захвата байесовцами конференции NIPS.
Необходимость взвешивать вероятность появления слов при распознавании речи обсуждается в разделе 9.6 книги Speech and Language Processing* Дэна Джурафски и Джеймса Мартина (второе издание, Prentice Hall, 2009). Моя статья о наивном байесовском алгоритме, написанная в соавторстве с Майком Паццани, On the optimality of the simple Bayesian classifier under zero-one loss Джонатона Китса (Machine Learning, 1997) — расширенная журнальная версия статьи, написанной в 1996 году для конференции. В книге Джуды Перла, о которой уже говорилось выше, рассмотрены сети Маркова и байесовские сети. Сети Маркова в компьютерном зрении — тема книги Markov Random Fields for Vision and Image Processing* под редакцией Эндрю Блейка, Пушмита Коли и Карстена Ротера (MIT Press, 2011). Сети Маркова, которые максимизируют условное правдоподобие, были представлены в статье Conditional random fields: Probabilistic models for segmenting and labeling sequence data* Джона Лафферти, Эндрю Маккаллума и Фернандо Перейры (International Conference on Machine Learning, 2001).
История попыток соединить вероятность и логику рассмотрена в специальном издании Journal of Applied Logic*, вышедшем в 2003 году под редакцией Джона Уильямсона и Дова Габбая. В статье From knowledge bases to decision models* Майкла Уэллмана, Джона Бриза и Роберта Голдмана (Knowledge Engineering Review, 1992) обсуждаются некоторые ранние подходы к этой проблеме с применением искусственного интеллекта.
Глава 7
Фрэнк Абигнейл подробно рассказывает о своих подвигах в автобиографии Catch Me If You Can*, написанной в соавторстве со Стэном Реддингом (Grosset & Dunlap, 1980)[139]. Исходный технический отчет об алгоритме ближайшего соседа можно найти в статье Эвелин Фикс и Джо Ходжеса Discriminatory analysis: Nonparametric discrimination: Consistency properties* (USAF School of Aviation Medicine, 1951). В книге Nearest Neighbor (NN) Norms* под редакцией Белура Дасатари (IEEE Computer Society Press, 1991) собраны многие ключевые для этой области статьи. Локально линейная регрессия рассмотрена в статье Locally weighted learning* Криса Аткесона, Эндрю Мура и Стефана Шаала (Artificial Intelligence Review, 1997). Первая система совместной фильтрации, основанная на алгоритме ближайшего соседа, описана в статье GroupLens: An open architecture for collaborative filtering of netnews* Пола Резника и соавторов (Proceedings of the 1994 ACM Conference on Computer-Supported Cooperative Work, 1994). Алгоритм совместной фильтрации Amazon приведен в статье Amazon.com recommendations: Item-to-item collaborative filtering* Грега Линдена, Брента Смита и Джереми Йорка (IEEE Internet Computing, 2003). (О Netflix см. литературу к главе 8.) Вклад рекомендательных систем в продажи Amazon и Netflix можно найти, например, в книге Виктора Майера-Шенбергера и Кеннета Кукьера Big Data[140] или Predictive Analytics Зигеля (см. выше). Также любопытна статья 1967 года Тома Кавера и Питера Харта об уровне ошибки ближайшего соседа — Nearest neighbor pattern classification* (IEEE Transactions on Information Theory).