Итак, нам не стоит проводить весьма сомнительный в этическом плане эксперимент, чтобы изучить последствия курения. А не проще ли вместо всей этой заумной методологии взять и сравнить во время встречи по случаю двадцатилетнего юбилея со дня окончания колледжа процент заболевания раком у бывших выпускников – курильщиков и некурильщиков?
Не проще! Курильщики и некурильщики, скорее всего, будут отличаться не только своим отношением к курению. Например, не исключено, что у курильщиков выработался ряд специфических привычек, таких как тяга к алкоголю или склонность к перееданию, что тоже негативно сказывается на их здоровье. Поэтому мы не можем быть твердо убеждены, что их нездоровый вид – следствие именно курения, а не каких-либо других пагубных пристрастий. Кроме того, у нас возникла бы серьезная проблема с данными, на которых основывается наш анализ. Курильщики, действительно заболевшие раком (не товоря уже о тех, кто к тому времени от него умер), вряд ли придут на празднование юбилея. В результате на точности любого анализа состояния здоровья тех, кто пришел (касается ли этот анализ вреда курения или чего-либо другого), существенно скажется то обстоятельство, что в этом праздновании, скорее всего, примут участие лишь те, кто не испытывает особых проблем со здоровьем. Чем больше лет пройдет с момента окончания учебы в колледже (скажем, будет отмечаться сорокалетний или пятидесятилетний юбилей), тем меньшей будет точность анализа.
Мы не можем относиться к людям как к подопытным кроликам. В итоге статистика оказывается сродни профессии детектива. Исходные данные могут подсказать нам модели, которые в конечном счете способны привести к правильным выводам. Вы наверняка смотрели увлекательные полицейские сериалы наподобие CSI: New York, где очень симпатичные детективы и эксперты-криминалисты скрупулезно исследуют всевозможные «мелочи»: ДНК из остатков слюны на сигаретном окурке, отпечатки зубов на яблоке, кусочек волокна из автомобильного коврика, – а затем используют полученные улики для поимки преступника. «Изюминка» сериала заключается в том, что поначалу эксперты не располагают традиционными вещественными доказательствами (например видеозаписью камер наружного наблюдения или живым свидетелем преступления), позволяющими им изобличить «плохого парня», поэтому им приходится прибегать к научным методам и логическим умозаключениям. Статистика, по сути, идет тем же путем. Исходные данные дают нам некое хаотическое нагромождение подсказок и намеков – так сказать, сцену преступления. А статистический анализ их упорядочивает и систематизирует таким образом, чтобы на их основе можно было сделать логический вывод.
После прочтения главы 11 вы сможете по достоинству оценить телевизионное шоу, которое я планирую предложить какому-либо из телеканалов: CSI: Regression Analysis («CSI: регрессионный анализ»). Это шоу лишь немного отличалось бы от множества других остросюжетных полицейских сериалов. Регрессионный анализ – инструмент, позволяющий исследователям вычленить взаимосвязь между двумя переменными, такими как курение и раковые заболевания, удерживая при этом постоянным (или «учитывая») влияние других важных переменных, таких как режим питания, физические упражнения, вес и т. п. Когда вы читаете в газете о том, что ежедневное употребление в пищу хлеба из отрубей снижает риск заболевания раком толстой кишки, вы не должны думать, что группу несчастных испытуемых насильно кормили хлебом из отрубей в подвале какой-то федеральной лаборатории, в то время как контрольная группа, находившаяся в соседнем здании, с удовольствием уплетала яичницу с беконом. Вовсе нет! Исследователи собирают подробные сведения о тысячах людей (в том числе как часто они едят хлеб из отрубей), а затем используют регрессионный анализ, чтобы сделать две важные вещи: во-первых, выразить в количественной форме связь между употреблением в пищу хлеба из отрубей и снижением вероятности заболевания раком толстой кишки (например, гипотетический вывод о том, что у тех, кто ежедневно ест хлеб из отрубей, рак толстой кишки встречается на 9 % реже, с учетом других факторов, которые могут вызывать это заболевание); и во-вторых, вычислить вероятность того, что связь между ежедневным поеданием хлеба из отрубей и снижением заболеваемости раком толстой кишки, наблюдаемая в этом исследовании, является простым совпадением – случайностью в данных именно для этой выборки людей, – а не устойчивой закономерностью: связью между режимом питания и состоянием здоровья человека.
Разумеется, в телешоу CSI: Regression Analysis будут участвовать профессиональные актеры, которые выглядят на экране гораздо лучше реальных ученых, исследующих такие данные. Этим актерам и актрисам (многие из которых, между прочим, несмотря на молодой возраст, будут иметь ученые степени) предстоит изучить огромные массивы данных и использовать новейшие статистические инструменты для ответа на важные социальные вопросы (например, каковы самые эффективные методы борьбы с преступностью и насилием и какие социальные типы чаще всего становятся террористами). Далее в этой книге мы обсудим концепцию «статистически значимого» вывода, то есть когда в результате анализа выявляется связь между двумя переменными, которая не является случайной. Ученые рассматривают такой статистический вывод как «явную улику». Я предполагаю, что в телешоу CSI: Regression Analysis героиней будет девушка-исследователь, работающая поздно вечером в компьютерной лаборатории, поскольку днем она интенсивно тренируется в составе олимпийской сборной США по пляжному волейболу. Получив распечатку со статистическим анализом, девушка видит именно то, на что и рассчитывала: ярко выраженную статистически значимую связь между некой, по ее мнению, важной переменной и развитием аутизма. Естественно, она тут же спешит поделиться своим открытием с коллегами!
Девушка берет распечатку и бежит по коридору; скорость ее передвижения замедляют лишь высокие каблуки и очень узкая короткая черная юбка. Моя героиня вбегает в комнату к коллеге, симпатичному загорелому парню (и когда он только успел так загореть, ежедневно просиживая по четырнадцать часов за компьютером?), и демонстрирует ему распечатку. Он задумчиво теребит пальцами свою аккуратно подстриженную эспаньолку, вынимает из ящика письменного стола пистолет калибра 9 мм марки Glock и сует его в боковой карман своего костюма от Hugo Boss за 5000 долларов (и откуда, интересно, взялся у него такой костюмчик, учитывая, что размер его годовой заработной платы составляет примерно 38 000 долларов?). Затем они быстрым шагом направляются в кабинет к боссу, прожженному ветерану сыска, которому уже удалось наладить отношения со своей женой и вылечиться от алкоголизма…
Ладно, вам вовсе не обязательно смотреть телевизор, чтобы оценить важность подобных статистических исследований, практически все важнейшие социальные проблемы решаются с помощью систематического анализа огромных массивов данных. (Во многих случаях их сбор – весьма дорогостоящий и трудоемкий – играет решающую роль в этом процессе, что я постараюсь продемонстрировать в главе 7.) Возможно, я несколько приукрасил своих героев в CSI: Regression Analysis, но это отнюдь не снижает актуальности решаемых ими вопросов. Существует научная литература о террористах и террористах-смертниках – теме, которую было бы очень трудно изучать на живых примерах, используя добровольцев в качестве подопытных кроликов. Одну из таких книг, What Makes a Terrorist («Как человек становится террористом»), написал мой преподаватель статистики в магистратуре. Материал книги основан на данных, собранных по результатам террористических актов в разных странах. Вот один из важных выводов, сделанных ее автором, экономистом Принстонского университета Аланом Крюгером: «Террористы отнюдь не всегда оказываются выходцами из беднейших слоев населения или малообразованными людьми, наоборот, обычно они принадлежат к среднему классу; уровень их образования также достаточно высок»{7}.