Тим Харфорд
Ложь, наглая ложь и статистика: приемы, которые помогут видеть правду за цифрами
Tim Harford
HOW TO MAKE THE WORLD ADD UP
© Tim Harford, 2020
В оформлении обложки использована иллюстрация:
hauvi / Shutterstock / FOTODOM
Используется по лицензии от Shutterstock / FOTODOM
© Левина Е.Л., перевод на русский язык, 2024
© Оформление. ООО «Издательство «Эксмо», 2024
Вступление
Как лгать при помощи статистики
Настоящая же проблема… заключается не в том, чтобы доказать, что ложь – это ложь, а в том, чтобы доказать истинность истинного объекта.
Умберто Эко1
Знаете старую байку про то, что детей приносят аисты? Это чистая правда.
Сейчас я докажу это при помощи статистики.
Возьмите число аистов в каждой стране и сравните его с числом рождений за год. По всей Европе эти два числа на удивление четко коррелируют. Больше аистов – больше младенцев; меньше аистов – меньше младенцев. Закономерность достаточно заметная, чтобы пройти отсев в научном журнале. Есть даже опубликованная научная работа под названием «Аисты приносят детей (p = 0.008)». Не будем вдаваться в детали, скажу лишь, что все эти нули говорят о том, что это не простое совпадение2.
Вы, наверное, уже догадались, в чем тут подвох. В крупных европейских странах вроде Германии, Польши и Турции много младенцев и много аистов. В небольших странах, таких как Албания и Дания, и младенцев, и аистов меньше. Между числом тех и других есть взаимосвязь, но это не означает, что младенцы появляются благодаря аистам.
Создается впечатление, что при помощи статистики можно «доказать» все что угодно – даже то, что детей приносят аисты.
Если вы читали «Как лгать при помощи статистики», вы наверняка пришли к такому выводу. Эту остроумную и циничную книжку выпустил в 1954 малоизвестный тогда американский журналист-фрилансер Дарелл Хафф. The New York Times немедленно написала на нее восторженный отзыв, и с тех пор было продано более миллиона экземпляров этой книги, что, возможно, сделало ее самой популярной книгой по статистике на свете.
Книга заслуживает и славы, и похвалы. Это – настоящее чудо популярной статистики. Среди любителей чисел Дарелл стал легендой. Бен Голдакр, эпидемиолог и автор бестселлера «Обман в науке», восхищается тем, какую «бомбу» написал «брюзга Хафф». Американский писатель Чарльз Уилан говорит, что его книга «Голая статистика» вдохновлена «классической» работой Хаффа. Через 50 лет со дня выхода книги Хаффа известный журнал «Статистическая наука» организовал в его честь ретроспективу.
Я и сам раньше так думал. Подростком я зачитывался книгой «Как лгать при помощи статистики». Эта блестящая, хлесткая, да еще и забавно проиллюстрированная книга позволила мне проникнуть за завесу статистических манипуляций и научила меня распознавать обман.
Хафф использует море примеров. Для начала он задается вопросом, сколько зарабатывают выпускники престижного Йельского университета. Если верить опросу, проведенному в 1950 году, выпускники 1924 года зарабатывали в среднем что-то вроде 500 000 долларов в год в пересчете на сегодняшние деньги. Ну что ж, можно в это поверить – в конце концов, речь идет о Йеле, – но полмиллиона долларов в год – это целое состояние… неужели и правда это средний доход?
Вовсе нет. Хафф объясняет, что источник этой «невероятно привлекательной» информации – ответы самих выпускников, а как же не приукрасить рассказ о себе любимом и не сказать, что зарабатываешь больше, чем на самом деле? Кроме того, опрос учитывает только тех, кто взял на себя труд ответить на вопросы – и только тех, кого исследователи смогли найти. А кого легче всего найти? Конечно, людей богатых и известных. «Что же это за заблудшие овечки, которые в списках выпускников значатся под рубрикой «адрес неизвестен?» – спрашивает Хафф. Йель следит за успехами выпускников-миллионеров, но их менее успешные товарищи могли не попасть в его поле зрения. Все это говорит о том, что в результатах опроса зарплата намного выше, чем в реальности. Хафф галопом пробегается по галерее статистических преступлений – от рекламы зубной пасты, подтвержденной лишь искусно подобранными данными, до схем, которые, в зависимости от того, как их раскрасить, меняют значение. Хафф выразился вот как: «Пройдохам эти фокусы давно известны. Люди честные должны о них знать, чтобы их не обвели вокруг пальца».
Если вы прочитаете «Как лгать при помощи статистики», вы поймете, как часто вас обманывают числа. Это умная и полезная книга.
Но я больше десятилетия рассказываю людям о статистике и проверяю заявления, основанные на числовой информации, – и чем дальше, тем больше у меня сомнений по поводу книжки «Как лгать при помощи статистики» и того, что она собой представляет. Что можно подумать о статистике – и о нас самих – если самая известная книга на эту тему от корки до корки состоит из рассказов о ложной информации?
Дарелл Хафф напечатал свою книгу в 1954 году. Но в том же году случилось кое-что другое: британские ученые Ричард Долл и Остин Брэдфорд Хилл выпустили одно из первых убедительных исследований, демонстрирующих, что курение сигарет приводит к раку легких3.
Без статистики Долл и Хилл никогда не пришли бы к этому выводу. За 15 лет число случаев рака легких в Соединенном Королевстве выросло в шесть раз. Уже в 1950 году страна лидировала по числу случаев заболеваний, а число смертей от рака легких впервые превысило число смертей от туберкулеза. Статистический подход нужен был уже хотя бы для того, чтобы заметить эти изменения. Доктора-одиночки располагали информацией лишь о единичных случаях.
Статистика была необходима и чтобы доказать, что убивают именно сигареты. Многие тогда полагали, что рак легких возникает из-за автомобилей. В этом была своя логика. В первой половине двадцатого века автомобили стали привычным явлением, а вместе с ними появились и выхлопные газы, и всепроникающий запах новых асфальтовых дорог. В то же самое время выросло и число случаев рака легких. Чтобы понять, в чем дело, чтобы догадаться, что не машины, а сигареты вызывают рак легких, недостаточно просто оглядеться по сторонам. Для этого нужны ученые, которые тщательно считают и сравнивают данные. Короче говоря – нужна статистика.
Многие скептически относились к гипотезе о сигаретах, хоть она была и не нова. К примеру, нацистская Германия активно пыталась доказать вред сигарет, а Адольф Гитлер относился к ним с отвращением. Не сомневаюсь, что фюрер был доволен, когда немецкие врачи доказали, что курение приводит к раку. Но нацисты – так себе пример для подражания, и табак не терял своей популярности.
Поэтому Долл и Хилл решили провести свои собственные статистические изыскания. Ричард Долл был красивым, тихим и безупречно вежливым молодым человеком, участником Второй мировой. У него была масса идей, как использовать статистику для революции в медицине. Его наставник, Остин Брэдфорд Хилл, служил пилотом в Первой мировой, а потом едва не умер от туберкулеза[1]. Харизматичный и острый на язык Хилл считался одним из лучших специалистов по медицинской статистике в двадцатом веке4. Их совместная работа по анализу данных спасла не одну жизнь.
Коллеги начали свое исследование первого января 1948 года. Под предводительством Долла они исследовали порядка 20 больниц на северо-западе Лондона. Всякий раз, когда в больницу прибывал пациент с раком, медсестра должна была подобрать ему в пару человека того же пола и примерно того же возраста – руководствуясь одной лишь случайностью. И больных раком, и их «напарников» подробно опрашивали о том, где они живут и работают, как проводят свое время, что едят, а также как долго и как часто курят. Понемножку, неделя за неделей, месяц за месяцем набиралось все больше ответов.