Большинство людей, и среди них даже математики, учившие теорию вероятностей, сталкиваются с огромными трудностями при оценке вероятностной информации в повседневной жизни. Рассмотрим, например, известную задачу о двух фирмах такси, изучавшуюся многочисленными исследователями, в том числе Канеманом и Тверски (Tversky, A., & Kahneman, D. Evidential impact of base rates. In D. Kahneman, P. Slovic, & A. Tversky (Eds.), Judgment under uncertainty: Heuristics and biases (pp. 153-160). Cambridge: Cambridge University Press. 1982).
Представьте себе, что ночью произошла автомобильная авария, в которую было вовлечено такси. В городе существуют две компании — Зелёная и Синяя. В Вашем распоряжении следующие факты: 85% такси принадлежат Зелёной компании и окрашены, соответственно, в зелёный цвет. На Синюю компанию приходится 15% синих такси. Имеется свидетель, который утверждает, что в аварию было вовлечено синее такси. Полиция проводит следственный эксперимент, чтобы установить достоверность свидетельских показаний. Результаты показывают, что свидетель в условиях ночи правильно определяют цвет такси в 80% случаев. Как Вы считаете, какова вероятность, что участвовавший в аварии автомобиль действительно принадлежит Синей компании?
Теорема Байеса предлагает нам оптимальный способ решения этой задачи. Итак, у нас в распоряжении следующая информация:
1.Всего в городе 15% такси, покрашенных в синий цвет.
2.Свидетель с достоверностью в 80% определил цвет машины, участвовавшей в аварии, как синий.
Для людей манипуляции с вероятностями не являются врождённой функцией мозга, поэтому многие бывают удивлены, когда узнают, что вероятность того, что такси действительно было синим, несмотря на показания свидетеля, равна 0,41, тогда как вероятность того, что оно было зелёным, равна 0,59.
Проблема заключается в том, что вероятность того, что такси было зелёным (0,85%), выше, нежели надёжность определения свидетелем синего цвета (0,80%). Мы можем получить результат 0,41 даже не используя формулу:
В 100 процентах подобных аварий только 15% были бы совершены такси Синей компании и свидетель правильно бы определил 80% из них, то есть 12 такси. Далее, в 100 процентах подобных аварий 85% могли бы быть совершены такси, принадлежащих Зелёной компании, а свидетель определил бы как синие 20% из них, то есть 17 такси. Таким образом, 29 машин были бы определены как синие, однако только 12 из них покрашены в этот цвет. 12 из 29 дают 0,41.
Парк такси города — 100 автомобилей
85 зелёных такси
15 синих такси
Свидетель идентифицировал 68 такси Зелёной компании как автомобили зелёного цвета
Свидетель идентифицировал 17 такси Зелёной компании как автомобили синего цвета
Свидетель идентифицировал 12 такси Синей компании как автомобили синего цвета
Свидетель идентифицировал 3 такси Синей компании как автомобили зелёного цвета
29 такси идентифицированы как синие, но только 12 из них на самом деле синие.
Теперь получим тот же результат с помощью формулы:
Р(Н/D) = Р(Н) * Р(D/Н) / [Р(Н) * Р(D/Н) + Р(~Н) * Р(D/~Н)]
Р(Н/D) = (0,15)*(0,8) / [(0,15) * (0,8) + (0,85) * (0,2)] = 0,41
Менее чем половина испытуемых дали ответ, лежащий между 0,2 и 0,7. Более половины пришли к результату, лежащему вокруг 0,8. То есть они сосредоточились на показаниях свидетеля, не принимая во внимание априорную или базовую вероятность 0,15. Это показывает, что люди склонны переоценивать наглядную информацию, полученную от живого свидетеля, когда она должна комбинироваться с абстрактной вероятностной информацией.
Теперь Вы представляете важность применения теории вероятности в работе полиции и уже умеете применять формулу Байеса, поэтому рассмотрим ещё один случай, имеющий отношение к нашему здоровью (Stanovich, K. E., & West, R. E (1999). Discrepancies between normative and descriptive Models of decision making and the understanding / acceptance principle. Cognitive Psychology, 38, 349-385.):
Представьте себе, что появился некий опасный вирус АВС, вызывающий опасную для жизни болезнь у одного человека из тысячи. Разработан тест, позволяющий точно определить, что у человека, больного этой болезнью, наличествует вирус АВС. Предположим теперь, что тест работает с положительной погрешностью в 5 процентов, то есть он показывает у пяти процентов людей наличие вируса, когда они такового не имеют.
Некто был протестирован и тест показал, что у этого человека наличествует вирус АВС. Какова вероятность, что этот человек действительно болен АВС (предположим для простоты, что нам не известно ничего о его личной жизни и его история болезни нам недоступна)?
Наиболее частый ответ — 95%. Правильный ответ — примерно 2%. Здесь также опрошенные переоценивают наглядный результат теста и недооценивают базовую вероятность. Снова перед применением формулы немного логики, чтобы увидеть решающее значение базовой вероятности. У нас есть данные о том, что из тысячи человек страдает от АВС в действительности один. Это означает, что если остальные 999 человек будут протестированы на АВС, тест покажет, что больны примерно 50 человек (0,5 * 999), поскольку тест имеет пятипроцентную погрешность. Таким образом, у 51 человека тест показывает наличие вируса АВС, но только один из них действительно болен — примерно 2%. Рассчитаем теперь по Байесу:
Р(Н/D) = Р(Н) * Р(D/Н) / [Р(Н) * Р(D/Н) + Р(~Н) * Р(D/~Н)]
Р(Н/D) = (0,001)*(1,0) / [(0,001) * (1,0) + (0,999) * (0,05)] = 0,0198
В принципе люди не должны обязательно знать наизусть формулу Байеса (хотя это, конечно, никому и не вредит). Желательно, однако, мыслить в направлении Байеса. В частности, делая спонтанные предположения о вероятностных явлениях, не забывать о значении базовой вероятности.
Научиться думать «по-Байесовски» можно, хотя это и не столь просто. Мы с вами рассмотрели нарушение рациональности при игнорировании базовой вероятности. Этим, однако, нарушения не исчерпываются. До сих пор мы использовали формулу в терминах апостериорной вероятности основной гипотезы относительно полученных новых данных. Однако формулу можно переписать в терминах апостериорной вероятности альтернативной гипотезы относительно полученных новых данных. Если при этом разделить одну формулу на другую (опустим детали), то мы получим наиболее распространённый вариант формулы:
Р(Н/D) Р(D/Н) Р(Н)
----------- = ---------- * -------------
Р(~Н/D) Р(D/~Н) Р(~Н)
Теперь мы имеем дело с тремя отношениями:
- апостериорная вероятность основной гипотезы (Н) после получения новых данных (D);
- так называемое отношение правдоподобия, возникающее от деления вероятности полученных данных для основной гипотезы на вероятность полученных данных для альтернативной гипотезы;
- априорная вероятность основной гипотезы.
Априорная вероятность: Р(Н/D) / Р(~Н/D).
Отношение правдоподобия: Р(D/Н) / Р(D/~Н).
Апостериорная вероятность: Р(Н) / Р(~Н).
Что нам всё это даёт? Очень часто, оценивая отношение правдоподобия, люди недооценивают вероятность того, что основная гипотеза ложная. Эта неспособность «думать от противного» приводит к серьёзным ошибкам рациональности — неспособности увидеть, что истинной является альтернативная гипотеза.
Дохерти и Майнэтт (Doherty, M. E., & Mynatt, C. (1990). Inattention to P(H) and to P(D/~H): A converging operation. Acta Psychologica, 75, 1-11.) предлагали испытуемым представить, что они являются медиками и исследуют пациента, страдающего от красной сыпи. Испытуемые должны были установить, болеет ли пациент «Дигирозой». Они могли получить для этого карточки со следующей информацией:
- Процент людей, страдающих Дигирозой.
- Процент людей, не болеющих Дигирозой.