Спустя некоторое время наш сообразительный мозг заявляет: «Эй! Я могу не только запоминать, где находится еда. Почему бы тебе в следующий раз не съесть что-нибудь вкусненькое, чтобы почувствовать себя лучше?» Мы благодарим мозг за прекрасную идею, воплощаем ее в жизнь и быстро понимаем, что мороженое или шоколад, съеденные в момент беспокойства или грусти, действительно улучшают самочувствие. Это тот же процесс обучения, но с другим триггером – чувством грусти, которое выступает эмоциональным сигналом вместо сигнала о голоде.
В юности мы видели «крутых ребят», курящих за школой, и хотели быть похожими на них, поэтому тоже начинали курить. «Вижу то, что помогает выглядеть круто. – Курю, чтобы быть крутым. – Чувствую себя хорошо. – Повторяю это снова». Триггер – поведение – вознаграждение. И каждый раз, воспроизводя эту схему поведения, мы закрепляем ее в мозге, который говорит нам: «Отлично, а теперь повтори». Мы так и поступаем, и это входит в привычку, которая превращается в замкнутый круг, называемый в психологии петлей привычки.
Позже переживания побуждают нас съесть что-нибудь сладкое или закурить. И вот, вместо того чтобы учиться выживать, мы в буквальном смысле убиваем себя этими привычками, используя те же самые механизмы функционирования мозга. Ожирение и курение стали одними из главных предотвратимых причин заболеваемости и смертности во всем мире.
Как же мы до этого дошли?
От морских слизней до сибирских хаски
Самые ранние описания петель привычек, формируемых по принципу «триггер – поведение – вознаграждение», опубликовал в конце XIX века джентльмен по имени Эдвард Торндайк[7]. Его интерес вызывали потерявшиеся собаки, которые вопреки всему снова и снова находили дорогу домой. Торндайк, считавший, что привычным объяснениям недостает научной строгости, решил разобраться в механизме обучения у животных. В статье «Интеллект животных» он поставил под сомнение выводы своих коллег: «В большинстве этих книг мы можем найти не описание психологии животных, а их восхваление» (курсив автора)[8]. Он утверждал, что его современники «ищут интеллекта и чего-то необычного, игнорируя при этом глупость и нормальное поведение». Под нормальным поведением он понимал возникновение в процессе обучения определенных ассоциаций, наблюдаемое в повседневной жизни, и не только у собак, но и у человека. Так, например, запах корицы и мандаринов ассоциируется у нас с новогодними праздниками.
Стремясь восполнить научный пробел, Торндайк наблюдал за собаками, кошками и (похоже, менее успешно) цыплятами, которых помещал в клетки различных конструкций. Клетки оснащались несложными механизмами, позволяющими открыть их изнутри, например потянув за петлю на шнуре, нажав на рычаг или встав на платформу. Если животное находило способ выйти наружу, его немедленно поощряли едой. Ученый повторял эксперимент несколько раз, фиксируя количество попыток и способ открывания дверцы, чтобы связать определенное поведение с побегом из клетки и последующим кормлением (вознаграждением). Торндайк отмечал: «После установления четкой ассоциации время, необходимое животному для побега, становилось практически неизменным и очень коротким».
Торндайк обнаружил, что животные могут усвоить простые шаблоны поведения (потянуть за шнур), чтобы получить вознаграждение (еду). Он описал механизм обучения, основанного на поощрении. Важно отметить, что своими методами ученый снизил вероятность возникновения ошибок (таких, например, как эффект наблюдателя), способных исказить результаты экспериментов. Он пришел к выводу: «Таким образом, работа, выполненная одним исследователем, может быть повторена, проверена или усовершенствована другим». Исследования Торндайка позволили перейти от публикации необъяснимых историй об удивительных собаках, которые совершили некое действие х, к констатации возможности обучать любых собак (а также кошек, птиц и слонов) выполнению действий x, y и z.
В середине XX века Б. Ф. Скиннер подтвердил наблюдения Торндайка в ходе серии экспериментов на голубях и крысах. Он исследовал реакцию на изменение одного из условий, в которых находились животные (например, цвета камеры, которая позже получила название «ящик Скиннера»[9]). Он быстро научил животное выбирать вместо черной камеры белую лишь посредством кормления его во второй и/или слабых ударов током в первой. Скиннер и другие ученые экстраполировали эти выводы, чтобы показать, что животные могут выполнять определенные действия не только ради вознаграждения, но и во избежание наказания. Поведение, характеризующееся приближением к приятному и удалением от неприятного, вскоре получило известность как положительное и отрицательное подкрепление и стало частью более широкой концепции «оперантного обусловливания».
На основе этих выводов Скиннер разработал простую модель, которую можно легко запомнить и применить в любой ситуации для объяснения каких-либо поступков: мы тянемся к стимулам, которые ассоциируются у нас с чем-то приятным (вознаграждение), и избегаем тех, с которыми возникли неприятные ассоциации (наказание). Благодаря Скиннеру теория обучения, основанного на вознаграждении, не имевшая до этого популярности в научных кругах, получила признание. Сегодня она включена в курс общей психологии, который преподается в вузах всего мира. Это настоящий научный прорыв.
Обучение, основанное на вознаграждении © Жадсон Брюер, 2014
Скиннер, которого часто провозглашают отцом этой концепции, был убежден, что она объясняет многое в поведении человека, а не только простые механизмы выживания.
В 1948 году после прочтения книги Генри Дэвида Торо «Уолден, или Жизнь в лесу» Скиннер написал роман под названием «Второй Уолден». В нем изображено утопическое общество, которое практикует обучение, основанное на вознаграждении, с целью научить людей жить в гармонии. Это философское произведение. Главный герой по имени Фрайзер (очевидный прототип которого сам Скиннер), используя сократические приемы, рассказывает небольшой группе гостей с различными взглядами про Второй Уолден. Он стремится убедить их, что с естественной способностью человека к обучению на основе поощрения можно победить глупость.
Члены этой выдуманной общины используют «поведенческую инженерию» (то есть обучение, основанное на вознаграждении), чтобы формировать у человека нужный тип поведения начиная с его рождения. Например, маленьким детям показывают преимущества сотрудничества по сравнению с соперничеством, чтобы к моменту ситуации выбора у них уже выработалась правильная реакция. Таким образом, все члены общины предпочитают наиболее эффективное и гармоничное поведение на благо как индивида, так и общины в целом. Условия социальной гармонии в романе «Второй Уолден» были заимствованы из научного исследования социальных норм и субъективных установок (индивидуальных реакций, выработанных посредством обучения, основанного на вознаграждении).
Давайте подробнее рассмотрим одно из важнейших понятий этой книги. Если говорить коротко, то чем чаще мы повторяем те или иные действия, тем больше привыкаем видеть мир определенным образом – сквозь субъективную призму наших ментальных установок, которые основаны на вознаграждениях и наказаниях, полученных в результате предыдущих действий. Простой пример: если мы едим шоколад и нам нравится его вкус, то и в дальнейшем в ситуации выбора между этой сладостью и какой-либо другой, которая нравится нам меньше, мы, скорее всего, предпочтем шоколад. Мы считаем, что «шоколад – это хорошо». У нас сформировалась установка в пользу шоколада, и она субъективна, поскольку отражает наши личные вкусы – кто-то другой может предпочитать шоколаду мороженое. Чем больше мы привыкаем к определенным взглядам, в совокупности образующим наше мировоззрение, тем скорее забываем, что они субъективны. Наши взгляды становятся чем-то большим – привычкой или даже истиной. Поскольку источником субъективных установок является основополагающий для нас процесс обучения, основанного на вознаграждении, они простираются далеко за пределы гастрономических пристрастий.