Есть в этом вопросе и другие неточности, которые нельзя обнаружить простой проверкой на правдоподобие:
…с течением времени эти 16 % сократились до 10 %. Дело в том, что государству стало известно о родах, о которых не сообщалось ранее. Оказалось, что многие роженицы не считали нужным сообщить о своих новорожденных детях, так как их социальные дотации на период ухода за ребенком никак не увеличивались[16].
Вот вам пример того, с какими проблемами можно столкнуться, собирая статистические данные: оказывается, мы учитываем не всех людей, хотя думаем, что охвачены все. Одни ошибки в рассуждениях заметить проще, другие сложнее, но со временем мы лучше научимся их распознавать. Для начала давайте взглянем на простой инструмент, который часто используют неверно.
С помощью круговой диаграммы легко представить себе процентные соотношения – то, каким образом распределены разные части единого целого. Например, вы хотите узнать, какой процент школьного бюджета тратится на зарплаты учителям, на учебные материалы, на ремонт. Или же вам хочется выяснить, какая часть денег, ассигнованных на учебные материалы, идет на естественные науки, язык, физкультуру, музыку и т. д. Главное правило круговых диаграмм – сумма процентов во всех секторах должна быть равна 100. Представьте себе пирог: ведь круговая диаграмма – не что иное, как пирог, поделенный на кусочки. Если девять человек хотят разделить его поровну, мы не можем порезать его на восемь частей. И тут ничего нельзя поделать.
Fox News, однако, это не смутило, и они опубликовали вот такую диаграмму:
Главное правило круговых диаграмм: сумма процентов во всех секторах должна быть равна 100. (Fox News, 2010)
Можно легко объяснить, как такое могло произойти. У избирателей есть возможность отдать свой голос более чем за одного кандидата. Однако в таком случае нельзя представлять результаты в виде круговой диаграммы.
Чехарда со средними
Среднее значение может быть весьма полезно, да и разобраться с ним проще, чем с круговой диаграммой. Оно позволяет нам охарактеризовать огромное количество информации одним-единственным числом. Например, мы хотим узнать среднее благосостояние людей в комнате, чтобы понять, принесет ли встреча с ними какую-нибудь пользу нашим фандрайзерам[17] или менеджерам по продажам. Другой пример: мы хотим узнать среднюю цену на бензин, чтобы оценить, во сколько обойдется поездка на машине из Ванкувера в Банф. Однако средние могут быть обманчиво сложными.
Есть три вида средних, и они могут выражаться разными числами. Поэтому те, кто всерьез занимается статистикой, избегают слова «среднее», отдавая предпочтение другим, более точным терминам, как то: среднее арифметическое, медиана или мода. И только так. Иногда все эти величины совпадают, но чаще они различаются. Если вам встретилось слово «среднее», оно, как правило, означает «среднее арифметическое», но нельзя быть в этом абсолютно уверенным.
Чаще других из этих трех встречается среднее арифметическое; оно равно сумме всех данных, поделенной на их количество. Например, среднее благосостояние всех людей, находящихся в комнате, будет равно их общему благосостоянию, поделенному на количество человек. Если в комнате находится десять человек, состояние каждого из которых оценивается в 100 тысяч долларов, то общее богатство составит миллион. Отсюда легко вычислить среднее арифметическое (даже доставать калькулятор не нужно): 100 тысяч долларов. А если состояние каждого присутствующего будет варьироваться от 50 тысяч до 150 тысяч долларов, но общее количество будет по-прежнему миллион, то среднее арифметическое по-прежнему будет 100 тысяч долларов (потому что мы просто разделим миллион на десять, не принимая во внимание, сколько денег на счете у каждого).
Медиана – это число в середине упорядоченного набора чисел (статистики называют его выборкой): половина данных находится ниже этого значения, а половина выше. Как вы помните, смысл среднего значения в том, чтобы охарактеризовать весь объем данных одним-единственным числом. Медиана лучше с этим справляется, если некоторые из ваших данных уж очень отличаются от большинства, статистики называют такие значения выбросами.
Представим себе комнату, в которой находятся девять человек; состояние восьмерых из них равно примерно 100 тысяч долларов, а один находится на грани банкротства, его долг равен 500 тысячам долларов. Вот что у нас получится:
Человек 1: –500 тыс. долл.
Человек 2: 96 тыс. долл.
Человек 3: 97 тыс. долл.
Человек 4: 99 тыс. долл.
Человек 5: 100 тыс. долл.
Человек 6: 101 тыс. долл.
Человек 7: 101 тыс. долл.
Человек 8: 101 тыс. долл.
Человек 9: 104 тыс. долл.
Теперь складываем все показатели и получаем общую сумму в 299 тысяч долларов. Разделим это число на общее количество участников, девять, и получится, что среднее арифметическое равно 33 222 долларам. Создается, однако, впечатление, что среднее арифметическое – не лучший способ охарактеризовать данные о присутствующих. Смею предположить, что фандрайзер не захочет наносить им визит, если среди них найдется человек с показателем-выбросом, который тянет вниз всю группу. В этом и заключается вся трудность работы со средним арифметическим: оно слишком чувствительно к выбросам.
Медиана здесь равна 100 тысячам долларов: четверо зарабатывают меньше этой суммы, а четверо – больше. Мода равна 101 тысяче долларов – это та цифра, которая появляется намного чаще других. И медиана, и мода в этом конкретном примере оказываются гораздо показательнее.
Можно по-разному использовать средние, особенно если вы хотите, чтобы кто-то увидел в ваших данных то, что нужно вам.
Давайте представим, что вы с двумя друзьями запустили стартап – небольшую компанию, в которой работают пять человек. Сейчас конец года, вы собираетесь подвести финансовые итоги и рассказать сотрудникам, как у компании идут дела, чтобы они почувствовали удовлетворение от долгих часов, проведенных в офисе, и от холодной пиццы, съеденной за это время. А еще вы хотите привлечь инвесторов. Скажем, четверо сотрудников – все программисты – за год заработали по 70 тысяч долларов, а один – офис-менеджер – 50 тысяч. Это даст среднее арифметическое зарплат, равное 66 тысячам долларов в год: сумма (4 × 70 000) + (1 × 50 000), поделенная на 5. Вы и двое ваших друзей принесли домой по 100 тысяч долларов – это ваша зарплата. Следовательно, общая сумма выплаченных зарплат составит (4 × 70 000) + (1 × 50 000) + (3 × 100 000) = 630 тысяч долларов. Кроме того, пусть ваша компания принесла 210 тысяч долларов чистого дохода, который вы разделили поровну между собой и соучредителями в качестве бонусов, это дает каждому из вас по 100 тысяч + 70 тысяч. Как вы им об этом сообщите?
Вы могли бы сказать:
средняя зарплата сотрудников составляет 66 тысяч долларов;
средняя зарплата + прибыль владельцев составляет 170 тысяч долларов.
И хотя это правда, вряд ли новость понравится кому-нибудь, кроме вас и вашей мамы. Если ваши подчиненные прознают об этом, то решат, что им существенно недоплатили. А потенциальные инвесторы сочтут, что учредителям платят слишком много. Поэтому вы можете оформить отчет по-другому:
средняя зарплата сотрудников составляет 66 тысяч долларов;
средняя зарплата владельцев составляет 100 тысяч долларов;
прибыль: 210 тысяч долларов.
Для потенциальных инвесторов это выглядит убедительнее, тем более что им можно и не говорить о том, что вы поделили прибыль между совладельцами. А сотрудникам последнюю строку можно и вовсе не показывать. Каждый из четырех программистов будет думать, что он на хорошем счету и его ценят, так как зарабатывает он больше, чем большинство. Единственный, кто будет не очень доволен, – ваш офис-менеджер. Но ведь девушка и раньше понимала, что программисты зарабатывают больше нее. Теперь представим: вы чувствуете, что перегружены работой, и хотите уговорить ваших партнеров, которые не сильны в критическом мышлении, что вам нужно нанять еще сотрудников. Вы можете поступить так же, как в таком случае делают многие компании, и заявить о «прибыли на одного сотрудника», поделив прибыль компании, равную 210 тысячам долларов, на пятерых: