На первый взгляд, график иллюстрирует значительное улучшение результатов выполнения первых трех заданий и последующую стабилизацию на уровне, далеком от идеальной калибровки. Даже принимая во внимание то, что тесты 4 и 5 выполняли только отстающие, участниками семинаров по калибровке заданий на 90-процентные доверительные интервалы складывается впечатление: три-четыре часа интенсивного тренинга еще не позволяют достичь желаемого уровня.
Но взяв данные о каждом слушателе, я обнаружил, что большинство из них добились к концу тренинга большого прогресса, а средние показатели снижаются за счет нескольких отстающих. Статистически мы допускаем, что даже идеально калиброванный эксперт в своих оценках может отклоняться от цели. С учетом одной этой погрешности при тестировании семинар помогает стать идеально калиброванным оценщиком не менее 70 % его участников. Больше они не страдают ни излишней самонадеянностью, ни недостатком уверенности в себе. Если эти люди указывают 90-процентный CI, то вероятность попадания правильного ответа именно в этот интервал значений действительно составляет 90 %. Еще 20 % участников достигают заметного прогресса, но не состояния идеальной калибровки. И только 10 % слушателей, похоже, вообще не повышают свой уровень. Так что же, для одного из десятка этот тренинг проходит бесполезно? Нет, это не так. Все, на кого мы когда-либо полагались в фактических оценках, попали в две первые группы и почти все — в группу идеально калиброванных экспертов. А те, кто на первый взгляд вообще не поддался калибровке, еще до тестирования не считались хорошими специалистами в своих областях или людьми, принимающими решения. Возможно, они не были мотивированы в достаточной мере, зная, что их мнения ни на что не влияют. А, возможно, те, кто не склонен к подобным задачам, не стремятся дорасти до уровня экспертов, услугами которых пользуются для проведения оценок. В любом случае это уже вопрос дальнейших исследований.
Мы видим, что большинству занятия идут на пользу. Но свидетельствуют ли успехи на семинарах о способности оценивать шансы в реальной жизни? На этот вопрос можно ответить только утвердительно. У меня было немало возможностей наблюдать, как ведут себя хорошо калиброванные специалисты в жизненных ситуациях, но особенно мне запомнился один управляемый эксперимент. В 1997 г. меня попросили провести курс занятий по оценке вероятности будущего наступления недостоверных событий для аналитиков Giga International Group, компании, занимавшейся консалтингом в области ИТ (впоследствии поглощенной Forrester Research, Inc.). Giga первой из подобных фирм стала продавать результаты своих исследований другим компаниям — своим постоянным подписчикам. Она приняла некий метод определения вероятности событий, наступление которых прогнозировала для своих клиентов, и хотела удостовериться в его корректности.
Я обучил 16 аналитиков Giga использованию описанных выше приемов. В конце занятий я попросил их высказать свое согласие или несогласие с 20 конкретными прогнозами, касавшимися индустрии информационных технологий, и указать степень уверенности в своих оценках. Это задание они выполняли в январе 1997 г., а во всех прогнозах речь шла о событиях, которые могли произойти до 1 июня того же года (например, участники должны были указать, верно или неверно предположение, что Intel выпустит до 1 июня свой процессор Pentium 300 МГц и т. д.). В качестве контрольного эксперимента я познакомил с этими предсказаниями 16 руководителей информационных служб различных организаций. После 1 июня мы могли уже определить, какие прогнозы сбылись, а какие нет. О полученных результатах я рассказал на крупном симпозиуме Giga World (см. рис. 5.3).
![Как измерить все, что угодно [Оценка стоимости нематериального в бизнесе] - img_8](/BookBinary/966525/1776542828/img_8/0)
По горизонтали отложены указанные участниками занятий вероятности правильной оценки прогноза, по вертикали — процент сбывшихся прогнозов. Результаты идеально калиброванного эксперта представлены пунктиром. Такой специалист оказывается прав в 70 % случаев, если уверен в своих предсказаниях на 70 %; в 80 % случаев, если уверен в своих предсказаниях на 80 %, и т. д. Вы видите, что результаты аналитиков Giga (обозначенные квадратиками) в пределах допустимой погрешности были очень близки к идеальной уверенности. Сильнее всего эти результаты отклоняются от «идеальной калибровки» в нижней части шкалы, но и здесь это отклонение не превышает допустимой ошибки (в левой части графика интервал допустимой ошибки шире, а в правой он сужается до нуля). Участники оказались правыми в 65 % всех случаев, когда они указали, что уверены на 50 %. Это означает, что они знали больше, чем полагали, и что были недостаточно уверены в себе (только в этой части шкалы). Но это отклонение невелико и вполне могло объясняться случайностью. Имеется вероятность 1 % того, что не менее 44 человек из 68 угадают ответ, просто подбросив монету. В другой части шкалы это отклонение более значительно, по крайней мере статистически, если не визуально. Случайностью могло бы объясняться несколько меньшее отклонение от ожидаемого, поэтому в этой части шкалы слушатели несколько самоувереннее. Но в целом они очень хорошо калиброваны.
Для сравнения, результаты клиентов Giga (обозначенные треугольниками), не прошедших тренинга по калибровке, показали их чрезмерную самонадеянность в прогнозировании. Цифры рядом с результатами калибровки означают, например: тот или иной клиент 58 раз указывал, что уверен в правильности данного прогноза на 90 %. Однако сбылось только 60 % таких предположений. Клиенты (21 %), заявившие, что убеждены в правильности прогноза на 100 %, угадали только в 67 % случаев.
Не менее интересен тот факт, что у аналитиков Giga правильных ответов оказалось не больше (вопросы были составлены по отрасли в целом, а не по узким направлениям специализации аналитиков). Просто они проявили большую (но не чрезмерную) осторожность, указывая процент уверенности в своей оценке прогноза. Однако до участия в занятиях аналитики, отвечая на вопросы общего характера, так же плохо оценивали неопределенность, как и клиенты, оценивавшие достоверность прогнозов реальных событий. Вывод очевиден: разница в точности определяется только занятиями по калибровке способности слушателей оценивать шансы, весьма действенной в реальных жизненных ситуациях.
Хотя у некоторых участников занятий и возникали трудности с калибровкой, большинство воспринимают ее с готовностью и считают способность оценивать шансы важнейшим навыком, необходимым для проведения измерений. Пат Планкетт, менеджер по оценке эффективности информационных технологий Министерства жилищного строительства и городского развития (Department of Housing and Urban Development), пожалуй, лучше всех в американском правительстве разбирается в использовании показателей эффективности. Он знаком со многими специалистами различных учреждений, прошедшими калибровку с 2000 г. Планкетт в 2000 г. еще работал в Управлении служб общего назначения (General Service Administration, GSA), и именно он стоял за экспериментом Совета директоров по информационным технологиям при федеральном правительстве США и рекомендовал Управлению по делам ветеранов внедрить эти методы. Планкетт считает калибровку серьезным шагом вперед в решении проблемы неопределенности. Он сказал: «Калибровка открыла нам глаза. Многие, включая меня самого, обнаружили, что излишне оптимистичны, делая оценки. Калибровка делает вас другим человеком. Вы приобретаете обостренную способность оценивать степень неопределенности».
Возможно, единственный сотрудник правительственного учреждения США, повидавший больше прошедших калибровку людей, чем Планкетт, — это Арт Койнз, старший консультант по политике Агентства по защите окружающей среды, десятки специалистов которого прослушали мои семинары. Как и Планкетт, он был удивлен отношением обучаемых к калибровке: «Люди высидели до конца все занятия и поняли их ценность. Их явное желание научиться делать калиброванные оценки стало для меня большим сюрпризом — я ожидал, что они вообще откажутся отвечать на вопросы о таких неопределенных вещах».