Точно так же, с помощью образования условного рефлекса, можно связать с каким-нибудь сигналом (словом) и начало наказания (пример: команда «Фу»), и окончание наказания, и окончание поощрения, и даже ситуацию «ничего не происходит», в значении «следует продолжать попытки». С этим значением слова «ищи» мы столкнёмся в ближайшем будущем при изучении этапов дрессировки собаки-детектора.
Кликер-дрессировщики в своей практике избегают прямых наказаний, предпочитая им отмену поощрений или непредоставление поощрений. Они справедливо утверждают, что как только собака понимает суть метода: отказ в поощрении мотивирует её, чтобы пробовать кое-что еще, она охотно экспериментирует с новым поведением. Однако, если неправильный выбор наказан, собака, из-за страха получения нового наказания, может начать сомневаться, стоит ли предлагать другое поведение. «Игнорируйте нежелательное поведение в максимально возможной степени. Каждый раз, когда Вы укрепляете желательное поведение, это походит на добавление денег к счету в банке. Чем больше денег на счету, тем более сильны отношения с вашей собакой. Положительное наказание — даже если оно эффективно — удаляет деньги из этого счета в банке, и это ослабляет отношения.
Если Вы решились использовать физическое наказание, посмотрите на эффект. Действительно ли поведение не только временно приостанавливается, но и случается менее часто? В противном случае это не исправление поведения путём наказания — это злоупотребление властью»[4].
Остаётся сказать о том, что часто называют «расписанием подкрепления». Снова позволю себе обширную цитату, на этот раз из Stacy Braclay-Scheck «Как учатся люди и собаки»: «Расписание подкрепления определяет, как часто поведение надо подкреплять. Есть 5 видов расписания: с фиксированным интервалом (ФИ), фиксированным отношением (ФО), изменяемым интервалом (ИИ), изменяемым отношением (ИО) и произвольное (ПР).
ФИ — фиксированный интервал означает, что подкрепление дается после фиксированного интервала времени. Например, каждые 5 минут. Пример: оплата работы — через каждые 2 недели я получаю чек (т. е. условное поощрение). ИИ — изменяемый интервал означает, что подкрепление дается после варьируемого интервала времени. Иногда это 5 минут, иногда 3, иногда 7 или 1. Моя электронная почта работает в этом режиме — с изменяемым интервалом времени я получаю письма (а для меня это положительные эмоции!). ФО — фиксированное отношение означает, что поведение будет вознаграждаться один раз за N исполнений. Фиксированное отношение 1:3 означает, что каждое третье поведение будет вознаграждено. Этот вид отношения имеет тенденцию ухудшать исполнение поведения у некоторых животных и людей, так как они знают, что первые 2 попытки не будут вознаграждаться, а третья будет вознаграждена несмотря ни на что. Фиксированное отношение 1:1 означает, что каждое правильное исполнение поведения будет вознаграждено. ИО — изменяемое отношение означает, что вознаграждение будет выдаваться, основываясь на каком-то среднем количестве правильных исполнений поведения. Изменяемое отношение 1:3 означает, что в среднем одна из трех попыток будет вознаграждена. Поощряться может первая попытка, а может и третья. Это отношение часто называется изменяемое расписание подкреплений. Произвольное расписание означает, что нет никакой очевидной связи между поведением и его последствиями. По этому принципу работает Фортуна».
Канфэтку хочишь? Нэту…
(Из фильма «Не горюй»)
На этапе научения (отбора или формирования поведенческого акта) поощряться должно каждое «правильное» действие собаки. Так собака быстрее поймёт, что от неё требуется. В то же время на этапе автоматизации отобранного поведенческого акта (выработка навыка) подкреплять его выполнение лучше с изменяемым расписанием подкреплений. Закреплённый таким образом навык угашается в отсутствие подкрепления значительно медленнее, чем закреплённый при 100% подкреплении. Более того, творчески используемое изменяемое расписание подкреплений позволяет довести в процессе выработки навыка составляющий его основу поведенческий акт до совершенства, подкрепляя всё более удачные его выполнения (правда, это уже будет не совсем классическое изменяемое расписание, но собака-то об этом всё равно не узнает).
Ну, хорошо, сказал рассудительный бас.
— А что тебе хочется? Это даже как-то непостижимо. Чего может хотеться, если не хочется работать?
(Улитка на склоне. А. и Б. Стругацкие)
Прочное закрепление навыка при изменяемом расписании подкрепления можно пояснить с помощью аналогии. Если вы бросили монетку в автомат, продающий газеты, и ничего не получили взамен, вряд ли у вас возникнет желание бросить ещё одну в надежде, что на этот раз автомат сработает. Скорее вы, зная принцип работы этого автомата: газета в обмен на деньги, сочтёте его неисправным. Однако в игральный автомат вы будете бросать монету за монетой, — вы ведь и не ожидаете мгновенного результата. Так и собака будет выполнять навык раз за разом без поощрения, зная, что рано или поздно она его получит.
Говоря о подкреплении, нельзя не остановиться на одной интересной (и неожиданной) особенности интринсивного поведения. Оказывается, если животное вознаграждается за нечто, что оно делает или сделало по собственному желанию, то такое вознаграждение будет способствовать ослаблению интринсивной мотивации. И наоборот, если животное не вознаграждается за неинтересную, предпринятую им только ради вознаграждения деятельность, то интринсивная мотивация к ней может усилиться. Из этого следуют два вывода. Первый: если формируемый навык является разновидностью игрового поведения, поощрять его чем-либо «посторонним» для этого поведения (например, лакомством) не следует.
А если речь идет о работе, то я не больная, я существо нормальное, и мне удовольствия нужны, как и всем вам.
(Улитка на склоне. А. и Б. Стругацкие)
Более того: «Обнаружено, что материальное поощрение сильнее снижает показатели интринсивной мотивации, чем символическое или вербальное»[5]. (Забегая вперёд, это к вопросу о том, почему не следует подкреплять поиск пищей и лакомством). С агрессивным поведением дело обстоит аналогично.
Второй вывод: собака изначально склонна считать дрессировочный процесс и отрабатываемые навыки игрой. Если мы не будем ей в этом мешать.
4. Стимульный контроль. Итак, навык сформирован, и вот на этом-то этапе мы начинаем, как говорят некоторые дрессировщики «ставить навык на команду», то есть, вводим стимульный контроль навыка. Чаще всего в качестве стимула, разрешающего выполнение навыка (пусковая афферентация) используется команда. Предвижу недоумение читателей, имеющих опыт дрессировки: «Что, собственно говоря, мешало нам начать подавать команду значительно раньше, ещё на этапе отбора (формирования) поведенческого акта?» Ответ прост, — если навык ещё не сформирован, требуемое действие выполняется далеко не безотказно. Начиная вводить команду на этом этапе, мы фактически приучаем собаку к тому, что команда не обязательна для выполнения. Опытные дрессировщики знают, какой непоправимый вред наносит каждое невыполнение команды, чем бы оно ни было спровоцировано, и как далеко оно отбрасывает назад обучаемое животное. Поэтому мы начинаем подавать команду (вводить санкционирующий стимул) только тогда, когда навык сформирован, и можно быть уверенным в безотказности его выполнения. Связь между навыком и вводимой командой создаётся по принципу условного рефлекса: команда и соответствующее ей действие ассоциируются, будучи совмещёнными во времени.