Литмир - Электронная Библиотека

Следующая фраза может огорчить тех, кто хочет, чтобы в мире было больше определенности: все, что мы знаем «по опыту», — не более чем выборка. Ведь на своем опыте мы испытываем не все, а только кое-что, а затем делаем обобщение. Все, что нам доступно, — лишь мимолетные образы по большей части невидимого нами мира, по которым мы и судим о том, что не можем наблюдать. Но люди уверены в выводах, которые делают на основе изучения ограниченных выборок, потому что опыт подсказывает: выборки работают! (Конечно, этот вывод сделан на основе таких же ограниченных наблюдений.)

Иногда полезные выводы обо всей обследуемой совокупности можно сделать лишь по нескольким образцам. Если мы отбираем их, чтобы установить состав однородного объекта, например делаем анализ крови на ДНК или определяем октановое число бензина, то достаточно одного образца крови или одной партии бензина. Но если элементы генеральной совокупности разнородны, как, например, рыбы в озере по размеру или затраты времени разных специалистов на ремонт компьютеров, то выборка должна быть больше — иногда существенно, хотя все же не настолько, как думают многие.

Как изучение нескольких элементов может рассказать о всей генеральной совокупности? Можно ли, отобрав 12 жителей города и спросив, как часто они ходят в кино или доверяют ли мэру, узнать что-либо о тех, кто не был опрошен? Да, можно. И такая малая выборка порой дает на удивление много информации, хотя отчасти это зависит и от того, как проведено исследование. Если мы просто опросим своих друзей или всех мужчин — клиентов парикмахерской, то данная группа, вероятно, не будет репрезентативной для всего населения и наши общие выводы окажутся ошибочными. Необходим метод, гарантирующий нас от систематического выделения однотипных выборок.

Решением этой проблемы является проведение действительно случайной выборки из интересующей нас генеральной совокупности. Осуществляя выбор случайным образом, мы обязательно получим погрешность, но погрешность, подчиняющуюся законам вероятности. Тогда можно рассчитать, например, вероятность того, что случайно выбрали демократов, проводя опрос в районе, где на самом деле преобладают республиканцы. И чем больше людей мы отберем таким случайным образом, тем меньше вероятность нерепрезентативности группы.

Если вам доводилось читать отчеты об опросах общественного мнения или научные статьи, авторы которых проводили выборку, значит, вы уже встречались с понятием «статистическая значимость». Статистическая значимость просто говорит: вы наблюдаете нечто реальное, а не произошедшее по чистой случайности. Насколько крупной должна быть выборка, чтобы получить статистически значимый результат? Достаточно ли нам опросить 1000 потребителей? Будет ли результат статистически значимым, если выборочно проверить сварку на шасси 50 автомашин или испытать действие нового лекарства на 100 пациентах?

Мне не раз доводилось слышать на первый взгляд авторитетные суждения по этому поводу. Кто-то утверждает, что получить статистически значимые результаты позволяет только выборка определенного размера. Однако спроси такого человека, как он определил это число, — он в лучшем случае сошлется на какое-нибудь правило из учебника по статистике, но объяснить, как оно рассчитано, скорее всего, не сможет.

Короче говоря, термином «статистическая значимость» часто злоупотребляют те, кто не вполне понимает, что он означает. Неужели эти люди действительно думают, что снижение неопределенности происходит только при выборке, достигшей этого порогового значения? Или же они считают, что экономическая стоимость информации, полученной при изучении малой выборки, всегда меньше затрат на проведение измерений? По своему опыту могу сказать: когда в любой компании проводится случайная выборка, всегда найдется «эксперт», точно знающий, что можно, а чего нельзя делать в статистике. Но я обнаружил, что процент ошибок в туманных воспоминаниях таких экспертов о статистике, которую они учили когда-то давно, на первом курсе университета, бывает намного выше ошибки при малой выборке.

Кто действительно разбирается в статистической значимости, так это Барри Нассбаум, главный статистик Службы статистической поддержки Агентства по защите окружающей среды (Statistical Support Services at the Environmental Protection Agency). Мы вместе занимались внедрением некоторых моих методов в EPA. Он отвечает на самые неожиданные вопросы, поступающие от сотрудников Агентства, связанные с проведением статистических анализов при решении проблем разных типов. Как-то он сказал мне: «Обращаясь за помощью к статистикам, люди всегда спрашивают, каким должен быть размер выборки. Это неправильный вопрос, но именно его и задают в первую очередь». Естественно, прежде всего надо выяснить, что они измеряют и зачем, и в этом с Нассбаумом нельзя не согласиться.

На самом деле небольшая выборка может рассказать намного больше, чем вы думаете. Когда исходная неопределенность высока, даже малая выборка позволяет значительно снизить ее. А если вы уже знаете тот узкий интервал значений, в котором находится интересующий вас показатель (например, новой услугой довольны 80–85 % потребителей), то уточнить эту цифру вам поможет только крупная выборка (придется опросить более 1000 человек). Но в этой книге мы говорим о том, что считается не поддающимся измерению. В таких случаях неопределенность обычно особенно высока и полезную информацию могут дать уже первые наблюдения.

Для тех, кто хотел бы освежить свои знания статистики, полученные еще на первом курсе, существуют многочисленные учебники. Повторюсь: на освещение этой тематики полностью книга не претендует. Наша задача — описать самые простые и полезные методы и рассказать то, о чем умалчивают обычные учебники по статистике или, по крайней мере, чему они не уделяют особого внимания. Ограниченность подобной литературы — вот часть проблемы измерения, с которой сталкиваются менеджеры компаний, пытаясь решить возникшие перед ними задачи. Дело в том, что специалистов по статистическому анализу вопросы практического измерения «неизмеряе-мого», похоже, не очень интересуют. Нассбаум подметил эту общую тенденцию у авторов публикаций в «Journal of American Statistical Association» (JASA): «Даже то, что авторы JASA называют „практическими приложениями“, — сплошная теория».

В этой главе мы обсудим некоторые простые способы извлечения важной информации из малой выборки. Но, в отличие от большинства работ по статистике, вначале мы постараемся обойтись без математики и лишь потом приведем кое-какие формулы, да и то немного. А когда перейдем к конкретным расчетам, покажем, что способы быстрой оценки и простые таблицы и графики нередко бывают полезнее сложных уравнений.

Все приводимые примеры можно скачать со вспомогательного сайта www.howtomeasureanything.com Воспользуйтесь возможностями этого ресурса.

СКОЛЬКО МАШИН ЕЗДИТ НЕ НА ТОМ ТОПЛИВЕ?

Государственное агентство принимает подход «просто сделай это»

В 1970-е годы некоторые действия Агентства по защите окружающей среды вызвали негативную реакцию общественности. В 1975 г. начался выпуск автомобилей с каталитическими конвертерами, позволяющими использовать неэтилированный, то есть не содержащий тетраэтилсвинец, бензин. Но этилированный бензин был гораздо дешевле, и водители предпочитали использовать именно его в машинах, оборудованных новыми конвертерами. Известный всем сегодня устанавливаемый на горловину бензобака рестриктор был рекомендован Агентством специально для того, чтобы люди не заправляли новые автомашины этилированным бензином (на заправках такой бензин поступал из пистолетов большего диаметра). Однако водитель мог просто снять этот рестриктор и использовать бензин, содержащий свинец. Главный статистик EPA Барри Нассбаум сказал: «Мы знали, что люди заправляли новые машины этилированным бензином, потому что когда представители Управления автомобильного транспорта (Department of Motor Vehicle, DMV) проводили проверки, они смотрели, не снят ли рестриктор». Использование свинецсодержащего топлива в новых автомобилях могло привести к еще большему загрязнению воздуха, а не к улучшению экологической обстановки, что было целью программы. Какое-то время специалисты EPA просто не знали, что им предпринять. Разве можно определить, сколько людей заправляют свои новые машины старым бензином? Но, в конце концов, они решили «просто сделать это» — понаблюдать за автозаправками. Сначала в округе случайным образом были выбраны несколько заправок. Затем, вооружившись биноклями, представители Агентства принялись следить за машинами, отмечать, каким топливом их заправляли, и сравнивать номера этих автомобилей со списком типов машин, представленным Управлением автотранспорта. Этот метод вызвал всеобщее недовольство — карикатуристы из «Atlanta Constitution» даже изобразили сотрудников EPA в виде фашистов, арестовывающих автовладельцев, пользующихся не тем бензином, хотя за людьми только следили и никого не задерживали. И все же, как сказал Нассбаум, у Агентства возникли проблемы с несколькими отделениями полиции. Правда, полицейским пришлось в конечном счете согласиться, что любой имеет право наблюдать за кем-то из-за угла. Но самое главное — специалисты EPA установили желаемое: 8 % машин, которые должны были работать на неэтилированном бензине, заправляли горючим с тетраэтилсвинцом. Несмотря на всю сложность стоящей задачи, сотрудники Агентства поняли, что простые наблюдения и выборка помогут им снизить исходную неопределенность.

37
{"b":"966525","o":1}