Конечно, в том случае, если есть основания полагать, что основные зависимости неодинаковы для людей с различными образовательными уровнями, социальными статусами, принадлежащих к разным возрастным группам, людей разного пола или отличающихся по каким — нибудь другим показателям, то можно провести дополнительные сравнительные исследования различных категорий людей.
Если экспериментатор может выбирать из большого количества конкретных примеров, имея в своем распоряжении широкие классы переменных и испытуемых, то, принимая решение, он обычно исходит из соображений удобства, простоты и точности измерений, а также наличия максимальной возможности осуществлять контроль. При этом возникают два вполне естественных вопроса: 1) можно ли провести количественные оценки переменных выбранного примера таким образом, чтобы результат не зависел от того, кто проводит измерения или когда они проводятся и 2) является ли выбранный пример точным изображением интересующего исследователя процесса, или концептуальной переменной? Первый вопрос касается надежности эксперимента, а второй — его валидности.
Надежность можно отождествить с последовательностью или устойчивостью результатов. Дадут ли количественные оценки выбранной реакции ту же величину при повторных испытаниях, если все прочие условия останутся постоянными? Можно ли получить те же самые результаты при сходных обстоятельствах тестирования?
Понятие валидности труднее проиллюстрировать, и этот термин имеет несколько значений, только два из которых будут здесь упомянуты. Концептуальная ва — лидность означает, что воздействия, наблюдения и измерения, которые проводит экспериментатор, представляют собой адекватный конкретный пример, относящийся к более широкому абстрактному классу объектов, о которых экспериментатор на самом деле хочет что — либо узнать. Исследователя установок интересуют установки, а не «галочка», поставленная около числа на десятибалльной шкале вопросника. В идеале желательно получить конкретный набор операций, которые связывают абстрактное понятие с событиями реального мира и в то же время являются как можно более безупречным примером данного понятия.
К валидности измерений можно подойти с другой точки зрения, и тогда речь пойдет о содержательной валидности. Любое изменение величины зависимой переменной состоит из двух компонентов: истинного изменения и составляющей ошибки. Чем ближе полученный результат к (гипотетическому) истинному значению, тем валиднее оценка. Если на результат влияют не только изменения релевантной реакции, которую изучает исследователь, но также и посторонние источники ошибок, то он теряет свой статус валидной характеристики истинной системы реакций. Систематические погрешности искажают результат в определенном направлении, в то время как из — за случайных ошибок результат может отклоняться от своего истинного значения в любую сторону.
Систематические погрешности могут возникать, например, из — за того, что экспериментатор непреднамеренно подсказывает испытуемым, какой реакции он от них ожидает, или из — за того, что экспериментатор знает, какой испытуемый подвергался определенному воздействию (такому, как прием лекарственного препарата), и субъективно оценивает поведение этого испытуемого. Причинами случайных ошибок бывают внешние возмущения или методологические недочеты. При любом испытании какое — нибудь случайное событие может изменить реакцию испытуемого на стимул, которым манипулирует экспериментатор (например, если во время процедуры формирования условных реакций неожиданно возникает шум). Кроме того, результат может возрастать или снижаться непредсказуемым образом, если экспериментатор по — разному предъявляет стимул испытуемым из одной и той же экспериментальной группы. Систематические ошибки можно свести к минимуму путем использования контролируемых процедур, объективных методов измерений, рандомизации и контрольных групп. Случайные ошибки устраняются в основном с помощью использования стандартной методологии и создания среды, в которой маловероятны случайные изменения характеристик, способных повлиять на реакции испытуемого.
Если переформулировать задачу исследования в свете данного обсуждения, то можно сказать, что эксперимент — это набор объективных процедур, позволяющих изолировать сигнал от фонового шума. Истинный результат, или сигнал, должен быть концептуально чистым, чтобы его можно было отличить от других сходных сигналов. Процедуры воздействия предназначены для усиления этого сигнала, в то время как процедуры измерений должны обеспечивать возможность детектирования даже слабого сигнала. Все это осуществимо только при условии адекватного контроля над другими сигналами и фоновым шумом, либо путем их минимизации, либо путем точной оценки вклада, который они вносят в наблюдаемую величину основного сигнала.
А что можно сказать о возможности генерализации результатов эксперимента? Мало кого из ученых могут удовлетворить выводы, которые сводятся лишь к тому, что при воздействии конкретных стимулов и операций на единственную выборку испытуемых получена определенная реакция. Нам хочется, чтобы полученные выводы имели более высокую степень общности. Мы уже видели, что при изучении важнейших психологических процессов исследователи часто предполагают, что полученные результаты будут справедливы и для более широкой популяции. Обоснованность такого предположения зависит от ряда факторов, которые необходимо учитывать в ходе экспериментального исследования. Мы проанализируем эти факторы в следующих разделах.
Обобщение результатов экспериментов: статистические выводы
Делая выводы из исследования, мы всегда рискуем допустить ошибку, даже если это хорошо спланированное и тщательно проведенное исследование. Тем не менее степень этого риска можно рассчитать с помощью объективных статистических процедур, разработанных для оценки вероятности того, что данный вывод из конкретной серии наблюдений может оказаться ложным. Допустим, мы хотим выяснить, повлияло ли участие в групповой дискуссии на установки, касающиеся употребления наркотиков. Мы можем оценить мнения участников до начала дискуссии и после ее окончания. Оценки по шкале мнений, полученные испытуемыми из нашей выборки, будут сначала просуммированы удобным и эффективным способом, чтобы преобразовать их в форму определенных статистических данных. Вычислив средние значения, медианы или моды, можно ответить на вопрос «Чему равна типичная или средняя оценка до дискуссии и после нее?» Рассчитав вариабельность реакции (диапазон ее изменения или среднее квадратическое отклонение), можно сказать, насколько реакции индивидуальных испытуемых отклоняются от этого характеристического показателя.
Однако чтобы определить, действительно ли именно групповая дискуссия привела к изменению установок в желательном направлении, необходимо сравнить полученные статистические данные с оценочным значением изменений, которые произошли бы просто за счет повторной оценки мнений, в отсутствие дискуссии. Сравнение полученного распределения оценок с теоретическими распределениями различных типов позволяет оценить вероятность того, что данные не имеют случайного характера, а отражают определенную статистическую закономерность. Вероятность того, что дифференцированное поведение — различное для испытуемых, поведение которых первоначально было сходным, — в ответ на воздействие переменной отражает «истинные» различия, находится в прямой зависимости от трех факторов: количества наблюдений, величины различий и вариабельности реакции. Вероятность статистической значимости полученных различий возрастает с ростом количества (N) наблюдений, с увеличением различий в поведении (представленных в форме каких — либо статистических данных) между группами и с уменьшением отклонений внутри каждой отдельной группы.
Понятие значимости результатов в психологии определяется как соответствие минимальному критерию, по которому устанавливают, что данный результат обусловлен влиянием экспериментального воздействия, а не случайными флуктуациями (дисперсией ошибки) в наблюдениях. В качестве такого минимального стандартного уровня задается уровень вероятности р<0,05 (р меньше, чем 0,05, или 5 %). Это означает, что обнаруженные изменения могут быть обусловлены чистой случайностью в пяти случаях из ста. Поэтому мы можем считать, что наш случай — это один из тех 95 случаев, когда различия нельзя приписать случайности. При определенных обстоятельствах исследователь может задать более строгий вероятностный критерий отвержения, например р<0,01 или даже р<0,001 (т. е. только в одном случае из тысячи экспериментатор сделает ложный вывод, приняв обнаруженные им различия за истинный результат экспериментального воздействия).