Миссис Вонг могла бы утверждать, что ее дети зарабатывают в среднем $ 110 000 или $15 000, и оба утверждения были бы правдивыми. Смысл приведенного примера в том, что следует осторожно относиться к средним показателям. Чтобы понять их смысл, необходимо знать, о каком типе значения идет речь – о среднем арифметическом или медиане, а также иметь представление об изменчивости данных и «форме» распределения (каким образом числа группируются).
Точность
Предположим, я сообщу вам, что проводилось научное исследование продолжительности рабочего дня у служащих. Более того, в результате этого исследования обнаружено, что средняя продолжительность рабочего дня равна 8,167 часа. Не правда ли, звучит наукообразно и внушительно? А если бы я сказала вам, что большинство служащих работает примерно по 8 часов в день? Большинство из вас ответило бы: «Я это и так знаю. Стоило ли проводить исследование?» Дело в том, что точные статистические данные часто производят на нас впечатление даже тогда, когда точность совсем не нужна.
Приведу пример из одного престижного еженедельного журнала новостей. Естественно, для журнала важно, чтобы читатели считали его статьи правдивыми и авторитетными. Несколько лет назад в нем была опубликована статья об угрозе здоровью жителей Нью-Йорка, которая возникает из-за собачьих экскрементов. Чтобы создать у читателей представление о масштабах проблемы, они подсчитали ежедневное количество собачьих экскрементов в Нью-Йорке с точностью до двух десятичных знаков (до одной сотой фунта!). Я понятия не имею, как они получили эту цифру, и мне даже думать не хочется о том, как они собирали данные. Я твердо уверена только в том, что они не могли точно измерить это количество. Зато, конечно, такие точные статистические данные произвели впечатление, что журнал публикует тщательно проверенную научную информацию, которой можно доверять.
Еще более смешной пример излишней точности связан с именем Марка Твена, одного из самых знаменитых писателей Америки. Однажды он заявил, что возраст реки Миссисипи – 100 миллионов и три года. Оказывается, за три года до этого Марк Твен узнал, что Миссисипи – 100 миллионов лет.
Значимые различия
Если вы хотите определить средний рост всех женщин, то вы можете создать выборку из 100 женщин, измерить их рост и вычислить среднее значение. Предположим, что вы взяли другую выборку из 100 женщин и снова определили их средний рост. Будете ли вы ожидать, что средние значения роста для этих двух выборок точно совпадут? Конечно, нет – очевидно, что будут наблюдаться некоторые отклонения. Эти средние значения рассчитаны на различных выборках, поэтому получены несколько отличающиеся результаты.
Допустим, кто-нибудь измерил рост женщин из выборки, состоящей из тех, кто живет в студенческом общежитии, и обнаружил, что их средний рост 5 футов и 5 дюймов. Затем он измерил рост женщин, которые не живут в общежитии, и обнаружил, что их средний рост 5 футов и 4? дюйма. Можно ли на основании этих данных сделать вывод, что те, кто живет в общежитии, – выше ростом, чем те, кто там не живет? Надеюсь, что вы ответили «нет», потому что небольшие различия между группами могут носить случайный характер, особенно если размер выборки невелик, т. е. в нее входит малое количество людей. Существуют статистические методы для определения вероятности того, что различия между данными, полученными на двух или нескольких выборках, являются случайными. Если вероятность случайности очень мала, то такие различия называются значимыми различиями.
Вопрос о значимости изменений относится также и к контингентам. Если по списку численность студентов вашего колледжа увеличилась с 15 862 до 15 879 человек, то есть ли у администрации основания заключить, что подобное увеличение численности что-либо означает? Ответ на этот вопрос зависит от множества переменных. Если количество студентов в течение последних 5 лет ежегодно немного увеличивалось, то эти цифры могут отражать слабую, но постоянную тенденцию. С другой стороны, это сравнительно небольшое увеличение могло произойти из-за случайных колебаний, и тогда оно не отражает определенной тенденции. Из-за случайных факторов это число могло бы с таким же успехом уменьшиться. Точно так же изменение уровня безработицы с 10,0 % до 9,9% может или быть всего лишь случайным колебанием (флуктуацией), или указывать на конец экономического спада. Можно ожидать, что республиканцы и демократы по-разному будут интерпретировать такие цифры, в зависимости от того, кто в данный момент стоит у власти.
Экстраполяция
Экстраполяцией называется оценка значения величины путем продолжения ряда известных ее значений. Если число студентов, специализирующихся по психологии в Захолустном университете, за последние 5 лет составляло приблизительно 150, 175, 200, 225 и 250, соответственно, то большинство людей одобрительно отнесется к прогнозу, предсказывающему, что в следующем году количество студентов, специализирующихся по психологии, будет равно примерно 275.
Экстраполяция может приводить к ошибкам, которые иногда бывают смешными. Например, предположим, что нам надо исследовать уменьшение средней численности американской семьи с 1900 по 1950 г. С помощью экстраполяции мы можем получить прогноз, что вскоре средняя численность американской семьи будет равна нулю, а затем превратится в отрицательное число. Конечно, этого быть не может! Это все равно что сказать, что если время, за которое спринтеры пробегают стометровку, будет продолжать сокращаться, то в конце концов кто-нибудь пробежит ее за 0 секунд или за отрицательный промежуток времени.
Статистические мистификации
Как можно превратить чистый жир в смесь, которая на 96% не содержит жиров? Нет, тут нет никакого волшебства; на самом деле это очень просто. Если съесть два кусочка сливочного масла, то 100% калорийности будут составлять жиры. Но если положить те же два кусочка масла в стакан с водой и выпить эту тошнотворную смесь, то вы создадите на 96% свободный от жиров напиток (т. е. он будет содержать 96% воды). Вам достанется то же самое количество калорий, состоящих из одних жиров, но название «напиток, на 96% свободный от жиров» производит впечатление большей пользы для здоровья. Поэтому продукты с наклейкой «на столько-то процентов не содержит жиров» являются фальсификацией здорового питания, а этикетки наклеены с целью дезинформации (Nutrition Action Healthletter, 1991).
Многие из статистических данных, на которые мы по привычке ссылаемся, удручающе неправильны. Бозелл (Bozell, 1993) усомнился в точности сведений, которые мы получаем из средств массовой информации. Например, он цитирует репортера CBS, который предупреждал, что заболеваемость СПИДом среди гетеросексуалов только в 1992 г. увеличилась на 30%. Но по данным Центра контроля над заболеваемостью, количество заболевших СПИДом среди гетеросексуалов в 1992 г. увеличилось на 17%, что является снижением скорости роста заболеваемости по сравнению с ростом на 21% в 1991 г. Точно так же Бозелл цитирует ведущего программы новостей NBC, который сообщил, что в настоящее время в США 5 миллионов бездомных, хотя Бюро переписи населения в 1990 г. насчитало только 220 000 бездомных. Различия очень большие, но как нам определить, какие из этих статистических данных ближе к истине?
Во-первых, стоит выработать привычку подвергать сомнениям статистические данные, которые вам сообщают. Как они были собраны и кто их собирал? Например, трудно точно подсчитать количество бездомных – их нелегко отыскать, поскольку у них нет адресов и телефонов. Как были получены две различные оценки этого количества? Какая выборка использовалась – из центра Нью-Йорка или из Солт-Лэйк-Сити? Есть ли у вас причины считать, что данные преднамеренно искажены? Например, консервативная политическая группа «Женщины, волнующиеся за Америку» с очевидными целями поместила в общенациональных газетах призыв к запрещению мужского и женского гомосексуализма в армии. В поддержку своей позиции они цитировали научное исследование, обнаружившее, что «гомосексуальное поведение приводит к половой распущенности, связано с принуждением и не поддается контролю» (цит. по: Bozell, 1993, р. А18). Далее шло утверждение что «типичный гомосексуалист» каждый год имеет минимум 68 половых партнеров! Вы заинтересовались, где и как были получены подобные статистические данные? Надеюсь, что заинтересовались. Это «научное исследование» проводилось более 10 лет назад и специально было нацелено на изучение наиболее активных и неразборчивых в связях гомосексуалистов-мужчин, поэтому его результаты нельзя обобщать на всех гомосексуалистов. Если вы будете подвергать сомнению статистические данные, с которыми постоянно встречаетесь в жизни, у вас будет меньше шансов быть введенными в заблуждение искаженными данными.