Начнем с замечания о том, что эффект может быть значительным или незначительным лишь по отношению к чему-либо. Для наших целей будет достаточно прибегнуть к трем определениям критериев относительной масштабности эффекта: статистическому, прагматическому и основанному на ожиданиях.
Статистический критерий масштабности
Рассматривая статистический критерий, необходимо начать с замечания, что масштабность эффекта имеет очень мало общего со статистической значимостью. Эффект почти любого масштаба может быть представлен как статистически значимый (т.е. проявляющийся неслучайным образом) просто путем сбора информации о достаточно большом количестве наблюдений. Один из авторов этой книги, обучаясь в аспирантуре, имел особенно убедительный повод осознать это, когда, развернув компьютерную распечатку статистического анализа данных, собранных со всей страны, и отыскав строку с зависимостью, которая его особенно интересовала, обнаружил статистически значимую корреляцию на считавшемся достаточным уровне 0,05, что заставило его запрыгать от радости. Глядя на это, один из его коллег вынужден был заметить, что корреляция, вызвавшая у него столь бурный восторг, составляла около 0,04 — уровень зависимости, весьма близкий к нулю. Подобная заурядная корреляция оказалась значимой лишь потому, что опросом было охвачено более тысячи респондентов. Таким образом, автор оказался прав в своем прогнозе: зависимость действительно имела место, но была настолько слабой, что не могла иметь никакого теоретического или практического значения.
Гораздо более разумное для определения масштабности экспериментальных эффектов соображение высказал Коэн (Cohen, 1965, 1977), предложивший судить о них в зависимости от изменчивости рассматриваемых переменных. Согласно критерию Коэна, разница между двумя средними величинами, соответствующая четверти стандартного отклонения в распределении соответствующего показателя, должна рассматриваться как малая; разница, соответствующая половине стандартного отклонения — как умеренная; и, наконец, разница, соответствующая целому стандартному отклонению, должна расцениваться как большая. Это и подобные ему статистические определения оценивают масштаб эффекта в зависимости от всех неучтенных, так называемых “случайных”, детерминант изменчивости или, иными словами, в зависимости от “уровня помех”. Данное определение ловко устраняет, а по сути игнорирует все соображения о природе рассматриваемой переменной и используемых единиц измерения. В этом (как станет ясно из обсуждения двух оставшихся критериев) заключается как его основное достоинство, так и его главнейший недостаток.
Прагматический критерий масштабности
Наиболее содержательным возражением против простого статистического определения, основанного на стандартном отклонении, является то, что во многих случаях нас нимало не заботят те эффекты, которые в соответствии с данным определением можно было бы квалифицировать как “большие”. И наоборот, иногда мы придаем огромное значение эффектам, оцениваемым с этой точки зрения как “незначительные”. Представьте себе, например, что вы узнали о некоем новом экзотическом лекарстве, способном продлить жизнь людям, страдающим от лихорадки Смидли, на срок, соответствующий 1,5 стандартного отклонения. Сначала это может вас заинтересовать, но затем вы выясните, что лихорадка Смидли представляет собой заразное тропическое заболевание, в результате которого не получившие помощь люди умирают в среднем через 40 часов после заражения при стандартном отклонении в четыре часа. Это означает, что данное лекарство может продлить жизнь в среднем еще на шесть часов. Если вдобавок вы узнаете, что стоимость одной дозы лекарства составляет 10 000 долларов, то ваш интерес, который вы уже и без того частично утратили, скорее всего и вовсе улетучится. (Вместе с тем некоторые исследователи-медики, пытающиеся разгадать тайну этого или родственных ему заболеваний, могут необычайно обрадоваться, узнав о столь незначительном с клинической точки зрения улучшении, поскольку оно может дать им ключ к действительно выдающимся открытиям и способствовать продвижению в исследованиях.)
Теперь представьте себе противоположную ситуацию с политиком, вовлеченным в предвыборную борьбу с примерно равным по силе кандидатом. Этот политик может стремиться потратить впечатляющую сумму денег на рекламу или на разработку стратегии предвыборной кампании, которые изменили бы долю полученных им (или ею) голосов менее чем на одну десятую часть стандартного отклонения [т.е. менее чем на 0,05 общего числа поданных голосов, в соответствии с общепринятой формулой, где стандартное отклонение доли полученных голосов (р) равняется квадратному корню из выражения р(1-р) или, иными словами, квадратному корню из произведения 0,5×0,5{4}]. Большинство экспертов-политологов согласились бы, что эффект от любой рекламы или стратегии, способный в подобного рода борьбе вызвать изменение числа голосов на “пять пунктов”, следует признать “большим”. (Его хватило бы, в частности, чтобы изменить результаты примерно половины президентских выборов, проводившихся в Америке на протяжении XX столетия.) Аналогичным образом, как мы будем более подробно говорить об этом в главе 4, не требующий больших затрат тест личностных качеств, с помощью которого можно предсказать “всего лишь” 10% вариации некоторого важного результата, окажется весьма ценным и “рентабельным” применительно ко многим известным нам диагностическим и прогностическим задачам, например для отбора людей, имеющих экстремальные значения какого-либо параметра личности (см. Abelson, 1985).
Приведенные выше примеры показывают, что наши суждения о том, является ли эффект значительным или нет, почти неизбежно подвержены влиянию утилитарных соображений. Эффект может быть значительным или незначительным в зависимости от характера препятствий, стоящих на пути выполнения той или иной работы, а также в зависимости от важности самой этой работы, т.е. он может быть значителен или незначителен с точки зрения его достаточности для достижения определенных целей с учетом того, насколько большое значение мы придаем этим целям.
Критерий масштабности, основанный на ожиданиях
Наконец (что, возможно, наиболее важно для наших целей) эффект может рассматриваться как большой или малый в зависимости от того, каким мы его ожидаем увидеть. Это может быть названо критерием, основанным на ожиданиях, поскольку он подразумевает изменение наших исходных убеждений (или Байесовых “первоначальных параметров”) по отношению к некоторому результату или событию. Согласно этому критерию, эффект является большим, если вынуждает нас существенно пересмотреть свои ожидания вместе с лежащими в их основе теориями, и малым, если он порождает незначительное изменение этих ожиданий и теорий либо не вызывает их вовсе. В данном контексте не играет никакой роли тот факт, что иногда даже самые незначительные (в соответствии с принятыми статистическими стандартами) эффекты могут заставить нас переосмыслить наиболее основополагающие и прочно утвердившиеся теории (при условии, конечно, что у нас имеются хорошо подкрепленные основания не ожидать проявления вообще никакого различия, и при условии, что в нашем распоряжении имеется очень точная техника измерений, позволяющая установить реальное наличие или отсутствие различий).
Таким образом, результат может оцениваться, исходя из его способности изменять наши субъективные представления о вероятности его появления. Когда сенатор Снорт, который, как ожидалось, должен был занять пятое место на первичных выборах в штате Нью-Гэмпшир, приходит к финишу вторым, мы считаем, что он получил “значительную” долю общего числа голосов. Когда же губернатор Грамп, от которого мы ожидали победы, занимает вместо этого второе место, мы чувствуем, что процент собранных им голосов оказался “незначительным”. В обоих случаях мы оцениваем проведенные ими кампании как “успешные” или как “неудачные” в зависимости от их эффективности в сравнении с нашими предварительными прогнозами и мнениями.