Вышеприведенное предложение легко вывести из аксиом, но оно не может, конечно, быть адекватно проверено эмпирически, поскольку оно предполагает бесконечную последовательность испытаний. Если будет казаться, что испытания, которые мы можем осуществить, будут подтверждать его, то возражающий всегда сможет сказать, что они не показали бы этого, если бы мы продолжали испытание дальше; а если будет казаться, что они не подтверждают его, то защищающий теорему сможет точно так же сказать, что они еще не достаточно долго продолжали испытания. Теорему нельзя, таким образом, ни доказать, ни опровергнуть эмпирическим свидетельством.
Вышеприведенные предложения являются основными предложениями чистой теории вероятности, имеющими большое значение в нашем исследовании. Я хочу, однако, сказать еще кое-что по вопросу о a +1 сумках, каждая из которых содержит n белых и черных шаров, причем r+1-я сумка содержит r белых шаров и n — r черных шаров. Мы исходим из следующих данных: я знаю, что сумки содержат разные количества белых и черных шаров, но при этом нет никакого способа отличить эти сумки друг от друга по внешним признакам. Я выбираю одну сумку наудачу и вынимаю из нее один за другим m шаров, причем, вынимая эти шары, я не кладу их обратно в сумку. Оказывается, что все вынутые шары белые. Учитывая этот факт, я хочу знать две вещи: во-первых, каков шанс того, что я выбрал сумку, содержащую одни только белые шары? Во-вторых, каков шанс того, что следующий шар, который я выну, окажется белым?
Мы рассуждаем следующим образом. Путь h будет тот факт, что сумки имеют вышеописанный вид и содержание, а q — тот факт, что было вынуто m белых шаров; пусть также Pr будет гипотеза, что мы выбрали сумку, содержащую r белых шаров. Очевидно, что г должно быть по крайней мере таким же большим, как и m, то есть если г меньше, чем m, то Pr/qh=Q и q/Prh=0. После некоторых вычислений оказывается, что шанс, что мы выбрали сумку, в которой все шары белые, равен (m +1)/(n +1).
Теперь мы хотим знать шанс, что следующий шар будет белым. После некоторых дальнейших вычислений оказывается, что этот шанс равен (m +1)/(m +2).
Заметьте, что это не зависит от n и что если m велико, то оно очень близко к 1.
В вышеприведенное описание я не включил никакого аргумента по вопросу об индукции, которой я займусь позже. Прежде всего я рассмотрю адекватность определенной интерпретации вероятности, поскольку она может рассматриваться независимо от проблем, связанных с индукцией.
ГЛАВА 3
ИНТЕРПРЕТАЦИЯ С ПОМОЩЬЮ ПОНЯТИЯ КОНЕЧНОЙ ЧАСТОТЫ
В этой главе нас интересует одна очень простая интерпретация «вероятности». Мы должны прежде всего показать, что она удовлетворяет аксиомам главы SI, и затем рассмотреть в порядке предварительного разбора, насколько ее можно сделать соответствующей обычному употреблению слова «вероятность». Я буду называть эту интерпретацию «теорией конечной частоты», чтобы отличить ее от другой формы теории частоты, которой мы займемся ниже.
Теория конечной частоты исходит из следующего определения.
Пусть В будет любой конечный класс, а A — любой другой класс. Мы хотим определить шанс, что член класса В, выбранный наудачу, будет членом класса А, например, что первый человек, которого вы встретите на улице, будет иметь фамилию Смит. Мы определяем эту вероятность как число членов класса В, являющихся также членами класса А, деленное на полное число членов класса В. Мы обозначаем это знаком А/В.
Ясно, что вероятность, определяемая таким образом, должна быть или рациональной дробью, или 0, или 1.
Несколько примеров сделают ясным смысл этого определения. Каков шанс, что какое-либо целое число меньше 10, выбранное наудачу, будет простым числом? Существует 9 целых чисел меньше 10, и 5 из них являются простыми; следовательно, этот шанс равен 5/9. Каков шанс, что в прошлом году в Кембридже в день моего рождения шел дождь, в предположении, что вы не знаете, когда бывает день моего рождения? Если m есть число дней, когда шел дождь, то шанс равен m/365. Каков шанс, что человек, фамилия которого содержится в лондонской телефонной книге, носит фамилию Смит? Для решения этой задачи вы должны сначала сосчитать все записи в этой книге с фамилией «Смит», а затем сосчитать вообще все записи и разделить первое число на второе. Каков шанс, что карта, вытащенная наудачу из колоды, окажется пиковой масти? Ясно, что этот шанс равен 13/52, то есть 1/4. Если вы вытянули карту пиковой масти, то каков шанс, что следующая карта, которую вы вытащите, будет тоже пика? Ответ: 12/51. Каков шанс, что в бросании двух костей выпадет сумма 8? Имеется 36 комбинаций выпадения костей, и в 5 из них сумма будет равна 8, так что шанс выпадения суммы 8 равен 5/36.
Ясно, что в иных элементарных случаях вышеприведенное определение дает результаты, согласующиеся с обычным употреблением. Теперь исследуем, удовлетворяет ли таким образом определяемая вероятность аксиомам.
Буквы p, q и h, употребленные в аксиомах, должны теперь пониматься как обозначающие не предложения, а классы или пропозициональные функции. Вместо выражения «h предполагает p» мы будем иметь выражение «h содержится в p», выражение «p и q " будет обозначать общую часть двух классов p и q, тогда как «p и q» будет классом всех членов, которые принадлежат к каждому или к обоим из двух классов p и q.
Наши аксиомы были следующие:
1. Есть только одно значение p/h. Оно будет истинным, если только h не является нулем, в каковом случае p/h = 0/0. Мы поэтому исходим из того, что h не есть нуль.
2. Возможными значениями p/h являются все реальные числа от 0 до 1. В нашей интерпретации они будут только рациональными числами, если только мы не сможем найти способ распространения нашего определения на бесконечные классы. Этого нельзя сделать просто, поскольку деление не дает единого результата, когда дело касается бесконечных чисел.
3. Если h содержится в p, тогда p/n=1. В этом случае общая часть h и p есть h, следовательно, вышеупомянутое следует из нашего определения.
4. Если h содержится в не-p, тогда p/h = 0. Это ясно по определению, ибо в этом случае общая часть h и p равна нулю.
5. Конъюнктивная аксиома. Согласно нашей интерпретации, она утверждает, что отношение членов h, являющихся членами как p, так и q, есть отношение членов h, являющихся членами p, помноженное на отношение членов p и b, являющихся членами q. Допустим, что число членов h есть а, что число членов, общих для p и h, есть b и что число членов, общих для p, q и h, есть с. Тогда отношение членов h, являющихся членами p и q, есть с/a, отношение членов h, являющихся членами p, есть h/a и отношение членов p и h, являющихся членами q, есть с/b. Таким образом, наша аксиома подтверждается, поскольку с/а = b/a x с/b.
6. Дизъюнктивная аксиома. Согласно нашей настоящей интерпретации, эта аксиома говорит, сохраняя вышеприведенные значения а, b и с и добавляя, что d есть число членов h, являющихся членами или p, или q, или обоих из них, тогда как е есть число членов h, являющихся членами q, что
То есть d = b + e — c, что опять-таки совершенно очевидно.
Таким образом, наши аксиомы удовлетворяются, если h есть конечный класс, не являющийся нулем, за исключением того, что возможные значения вероятности нужно ограничивать рациональными дробями.
Из этого следует, что математическая теория вероятности оказывается действенной при вышеприведенной интерпретации.
Мы должны, однако, исследовать вопрос о сфере применения таким способом определяемой вероятности, которая с первого взгляда кажется чересчур узкой для того употребления, которое мы хотим сделать из вероятности.
Прежде всего мы хотим, чтобы можно было говорить о шансе, что некоторое определенное событие будет иметь некоторые черты, а не только о шансе, что какой-либо рядовой член класса будет иметь их. Например, вы уже осуществили бросание с двумя костями, но я еще не видел результата этого бросания. Какова для меня вероятность, что выпали две шестерки? Мы хотели бы сказать, что эта вероятность равна 1/36, а если наше определение не позволяет нам сказать этого, то оно неадекватно. В таком случае мы сказали бы, что мы рассматриваем событие просто как представителя определенного класса; мы сказали бы, что если А рассматривается просто как член класса В, то шанс, что он принадлежит к классу А, равен А/В. Но здесь не совсем ясно, что значит «рассматривание определенного события просто как члена определенного класса». В таком случае предполагается следующее: нам дается некая характеристика какого-либо события, которая для более полного познания, чем наше, является достаточной, чтобы определить его однозначно; что же касается нашего познания, то мы не имеем способа узнать, принадлежит ли оно к классу А, хотя мы и знаем, что оно принадлежит к классу В. Бросив кости, вы знаете, принадлежит или не принадлежит ваше бросание к классу двойной шестерки, но я этого не знаю. Я знаю только то, что это бросание с двойной шестеркой есть одно из 36 возможных бросаний. Рассмотрим следующий вопрос: каков шанс, что самый высокий человек в Соединенных Штатах живет в штате Айова? Возможно, что кто-нибудь знает этого человека; во всяком случае, существует известный метод, с помощью которого можно узнать, кто этот человек. Если бы этот метод был успешно применен, то имелся бы определенный, не предполагающий вероятности ответ, именно или что он живет в штате Айова, или что он там не живет. Но я не знаю этого. Я ногу только утверждать, что население штата Айова равно числу m, население Соединенных Штатов равно числу n, и сказать, что в отношении этих данных вероятность, что он живет в штате Айова, равна m/n. Таким образом, когда мы говорим о вероятности определенного события, имеющего какую-то характеристику, мы всегда должны специфицировать те данные, по отношению к которым должна быть степень вероятности.