А если мы посмотрим на это с точки зрения зоопсихологии — так, как смотрел Скиннер и его последователи-бихевиористы, все окажется гораздо сложнее.
Обычно тренеры, использующие оперантную методику, для объяснения теории применения подкреплений (положительных и отрицательных) используют квадрант Скиннера, в котором все они разделены на четыре группы. О том, что это за группы и как они соотносятся с традиционными терминами, мы поговорим чуть позже. Подкрепление и наказание
Небольшое отступление. Многие считают, что оперантный метод предполагает лишь бесконтактный способ обучения, без принуждения и неприятных механических воздействий. И это так, когда мы работаем с дикими животными в неволе. Здесь главное правило: животное должно само хотеть заниматься с тренером и иметь возможность закончить взаимодействие в любой момент. Вы спросите: а как же механические воздействия, мотивация избегания, их можно использовать в оперантном обучении? Конечно можно, и то и другое применяется в зоопарках — например, электропастухи как средство предотвращения побегов. Слабый удар током не причиняет вреда, но вырабатывает устойчивое нежелание пересекать границы вольера. Что касается домашних собак, то совершенно однозначно: механикой можно пользоваться тогда, когда это необходимо.
На самом деле отрицательные подкрепления в скиннеровском понимании в оперантном методе используются наравне с прочими. Работая поводком, совершая даже очень слабые направляющие рывки или надавливая рукой на круп собаки, вы используете мотивацию избегания. Делая то, к чему ее подводит таким образом дрессировщик, собака избегает неприятных ощущений. Избежав их, она получает положительное подкрепление. Парадокс? Тогда давайте более подробно.
— Вы ничего не понимаете в дрессировке, — написала мне как-то экспрессивная читательница в социальных сетях, назовем ее И., поклонница модного направления «сплошной позитив в дрессировке», — потому что отрицательные подкрепления — это вообще не подкрепления! Это наказания! Вы наказываете животных!
— А что вы понимаете под наказанием? — спросил я.
— Вы просто мучаете животное, делаете ему больно, ничего взамен не предлагая! — уклончиво ответила И., как это принято в соцсетях.
— Как не предлагаем, — удивился я, — как раз наоборот. Причем всегда, даже если механически прерываем нежелательное действие, то потом компенсируем его выполнением другой команды с полновесным положительным подкреплением. Это один из основных принципов системной дрессировки. Подав сигнал на прекращение действия, воздействовав на собаку механически, мы потом даем команду на совершение действия, за выполнение которой обязательно положительно подкрепляем.
— Нет, наказание — это вроде удара током, как у собаки Павлова. Просто болезненное воздействие на нее! Она избегает боли! Это не дрессировка! — вынесла читательница И. приговор.
Я попытался, насколько мог, объяснить свою позицию, написав, что системная дрессировка основана на преобладании у собаки в процессе обучения положительных эмоций. Но не уверен, что добился результата, учитывая почти религиозную уверенность в своей правоте последователей подобных «гуманистических» течений. С верой спорить бесполезно. И я думаю, что у читательницы, не в обиду ей будет сказано, в голове сварилась некая каша из понятий и дрессировочного контекста, в котором они употребляются. Справедливости ради надо заметить, что термин «наказание» представители разных течений воспринимают по-разному — во многом из-за калькированного перевода термина с английского.
Еще со времен советской школы дрессировки большинство инструкторов на дрессировочных площадках и тренеров собак наказанием называют именно наказание, так сказать, физически выраженный «ай-яй-яй», который применяется к собаке отсроченно во времени, после того как она набедокурила. Такое отсроченное воздействие, то есть наказание, отличается от отрицательного подкрепления (или воздействия) прежде всего тем, что никакого нового поведения не формирует. По сути, это просто выброс адреналина, так сказать, месть тренера собаке. Классика плохого воспитания — отсроченное наказание щенка за сделанную лужу, разгром квартиры, поедание тапочек и так далее.
Любое подкрепление работает на формирование навыка тогда, когда применяется последовательно. А наказание в виде мести — разовое воздействие. Отчасти этим объясняется его слабая эффективность. И все же главная причина в его отсроченности.
Есть данные о том, что животные способны связывать отсроченное наказание с совершенным ими действием, за которое «прилетело». Исследования, выявившие у крыс и приматов такую способность, касались избегания пищи, вызвавшей ранее отравление. Относительно собак таких данных у меня пока нет. Поэтому в практике обучения собак мы считаем наказание (в терминах системной дрессировки отсроченное отрицательное воздействие) бессмысленным и во многом вредным. Ведь чем дальше по времени воздействие отстоит от нежелательного действия собаки, тем оно менее эффективно. Потому что собака (как и другие животные) не может точно связать свое неправильное поведение с его последствиями. Они, эти последствия, пришли позже — но за что? Типичный пример — порча питомцем бытовых предметов. Отучить собаку от этой привычки невероятно сложно, и, как правило, наказания ни к чему не приводят.
…Но вообще, как говорит мой друг и коллега по первой научной специальности и работе, психолингвист по образованию, известный исследователь коммуникации дельфинов Александр Агафонов, в психологии есть 200 теорий, и все они правильные. Это утверждение верно и применительно к современным теориям, изучающим когнитивные способности животных. Все они — не более чем взгляды под разными углами на один и тот же процесс. Тот же классик современной этологии Франс де Вааль камня на камне не оставляет от теории Скиннера (что, с моей точки зрения, некоторый перебор)…
Однако разбор современных взглядов и течений в поведенческой науке лучше оставить теоретикам. Что касается тренеров, то в их практике главное — следовать логике, понимать смысл методики и правильно ее использовать, а не спорить с учеными по теоретическим вопросам, что просто нелепо. Впрочем, последнее — любимое занятие ряда тренеров, независимо от уровня образования. Еще немного о терминах и понятиях
Итак, с воздействиями на собаку (подкреплениями) в системной и классической досаафовской дрессировке все понятно: есть воздействия со знаком плюс, а есть со знаком минус. Их чередование составляет суть контрастного метода, идея которого была сформулирована Скиннером.
В системной дрессировке есть еще такой прием, который вообще не предполагает никаких прямых воздействий на собаку — игнорирование. По сути, это отсутствие подкрепляющей реакции тренера на действия собаки, что делает их нерезультативными. Классический прием, который используют тренеры дельфинов, когда те расшалятся, — повернуться к животным спиной. Также и неподкрепление действия собаки своим поведением и тем более лакомством, несмотря на кажущуюся несерьезность — тренер вроде ничего не делает, — весьма эффективно. Собаку оно очень часто ставит в тупик.
Как вы уже знаете, классический оперантный тренинг использует иной понятийный аппарат для описания подкреплений. В его основе квадрант оперантного научения, который из-за сложностей перевода все трактуют немного по-разному. Я попробую навести мосты и объяснить смысл квадранта тем, кто привык пользоваться классическими формулировками.
Формировать поведение, делать его более частым, можно двумя способами: с помощью положительных или серий отрицательных подкреплений. Прекратить нежелательное поведение в моменте или хотя бы сделать его более редким можно тоже двумя способами: прекращением положительных подкреплений или разовым отрицательным воздействием. Теперь подробнее.
Сначала о том, что формирует поведение, делает его более частым.
Положительное (позитивное) подкрепление — процесс вознаграждения за выполненное действие, правильное поведение. Подкреплять можно игрой, едой, одобрением (похвалой, поглаживанием). Положительное подкрепление, по сути, это достижение конкретного результата в моменте. Последовательное его применение в перспективе формирует правильное поведение.