ВЛИЯНИЕ РЕЖИМОВ ПОДКРЕПЛЕНИЯ НА УСТОЙЧИВОСТЬ ПОВЕДЕНИЯ К УГАСАНИЮ У КОТОВ

ДАРЬЯ СОЛОВЬЕВА

В данном эксперименте исследуется влияние режимов подкрепления на устойчивость поведения к угасанию. Испытуемыми были два кота, у которых было сформировано, а потом поставлено на режим подкрепления поведение «прыгать на коленки по команде». Поведение одного кота подкреплялось на постоянном режиме подкрепления. Поведение второго кота подкреплялось на режиме подкрепления с постоянной пропорцией FR 2. После этого была проведена процедура гашения поведения у обоих котов. Результаты проведенного эксперимента показали, что не наблюдалось существенных различий в длительности процесса угасания поведения на данных режимах подкрепления.

Формирование устойчивости поведения является важным направлением в прикладном анализе поведения. Программы по обучению новому поведению  направлены на то, чтобы после того, как консультант закончит работу по кейсу, поведение  происходило в естественных условиях и поддерживалось окружающей средой. Рядом исследователей было доказано, что на устойчивость поведения влияет режим подкрепления поведения.

Данный вопрос обсуждался в статье Troy J. Zarcone, Marc N. Branch, Christine E. Hughes, Henry S. Pennypacker (1997), одной из целей которой  было определить,  насколько снизится количество правильных ответов во время процедуры гашения после того, как поведение подкреплялось на постоянном или переменном режиме подкрепления. Испытуемыми  были семь голубей, поведение клевать у которых подкреплялось попеременно в постоянном режиме и режиме подкрепления с переменной пропорцией VR. Результаты показали, что в 23 из 25 случаев во время угасания было меньше ответов после того, как поведение подкреплялось в постоянном режиме, нежели после того, как поведение подкреплялось в переменном режиме. Во время процедуры гашения после режима подкрепления с переменной пропорцией в течение нескольких сеансов наблюдалась высокая частота ответов испытуемых,  и только после нескольких сессий частота поведения начинала снижаться.

В статье J.R. Millenson H.M.B. Hurwitz (1961) изучали свойства поведения крыс во время гашения, которое проводилось после того, как поведение подкреплялось в постоянном режиме.  Авторы наглядно представили, как происходит процесс угасания при постоянном режиме подкрепления поведения: график представляет собой плавную кривую на постепенное уменьшение эпизодов поведения.

В статье Nevin, Grace (2005) было проведено три эксперимента с голубями, один из которых был направлен на изучение  процесса угасания поведений, которые находились на постоянном и переменном режимах подкрепления. Изучали поведение голубей нажимать клювом на кнопку. Если кнопка загоралась белым цветом, и голубь её нажимал, то еда предоставлялась на 3 сек. с вероятностью 1,0 (т.е. поощрение предоставлялось за каждую реакцию). Если кнопка загоралась красным цветом, и голубь её нажимал, еда предоставлялась с вероятностью 0,25. После 55 учебных сессий следовало 12 сессий гашения, в период которых не предоставлялось пищевого подкрепления. Результаты исследования показали, что во время процедуры гашения вероятность ответа снижалась быстрее в тех случаях, когда поведение подкреплялось в постоянном режиме. При анализе графиков фазы гашения также стоит отметить, что график того поведения, которое поощрялось в постоянном режиме более стремительно идет вниз, и похож на ломаную кривую. Частота поведения, которое подкреплялось на переменном режиме, снижалась более постепенно, график представлял плавную кривую с постепенным снижением результатов. Также авторы отмечали, что к концу сессий фазы гашения не было четких различий в ответах при разных режимах подкрепления.

Наш эксперимент частично повторяет эксперимент Nevin, Grace (2005): он направлен на изучение влияния режимов подкрепления на устойчивость поведения к угасанию. Мы хотим проверить, будет ли отличаться устойчивость поведения к угасанию на постоянном и переменном режимах подкрепления.

ЭКСПЕРИМЕНТ

Испытуемые

В качестве испытуемых были выбраны два домашних кота, 1,5 года и 4 года (далее именуются  Испытуемый-1  и Испытуемый-2). Оба кота беспородные. Ранее испытуемые не принимали участие в других экспериментах.

На период начала эксперимента ни один кот не демонстрировал поведения прыгать на коленки по команде. Испытуемый-1 никогда не прыгал на коленки, а Испытуемый-2 прыгал на коленки без команды не более 2-3 раз в неделю. Кроме этого, до начала эксперимента испытуемые были обучены следовать только одной команде: «кис-кис». Коты бегут к своим мискам и после этого им насыпают корм.

Целевое поведение

Зависимой переменной эксперимента являлась повторяемость поведения во времени.

В качестве целевого поведения было выбрано поведение «прыгать на коленки по команде».  Рабочее определение поведения: поведение происходит при условии, что в комнате есть человек, который сидит на стуле, и кот, который не спит, сидит на полу напротив человека, взгляд кота направлен на лицо человека. После того, как человек хлопает  ладонью по колену два раза, кот в течение 1-3 сек. делает прыжок на колени человека и сидит на них в течение  3-5 сек. Эпизод начинается, когда кот оттолкнулся лапами от пола в прыжке. Эпизод заканчивается, когда кот просидел на коленях не менее 3-5 секунд.

Материалы

Эксперимент проводился  в жилой комнате площадью 20 кв. м. с закрывающейся дверью. Для эксперимента были необходимы: табурет, на котором сидел экспериментатор во время сессии, контейнер с подкреплением, место для того, чтобы расположить рядом с экспериментатором форму для записи и ручку для незамедлительной записи результатов (в данном эксперименте это был диван). Также была необходима видеокамера для ведения записи сессий.

Независимыми переменными являлись: постоянный режим подкрепления, режим подкрепления с переменной пропорцией FR 2, отмена подкрепления. Sd для поведения запрыгивать на коленки – команда «двойной хлопок по колену».

Метод наблюдения

В качестве метода наблюдения был выбран метод подсчет событий. Данный метод наблюдения был выбран потому, что зависимой переменной является повторяемость поведения во времени, а также целевое поведение имело четкое начало и конец.

Результаты фиксировались в специальную форму для наблюдения. Она представляла собой бланк, в котором проставлялась дата наблюдения. Далее таблица была разделена на две колонки: одна колонка для Испытуемого-1, а другая колонка для Испытуемого-2. Во время сессии знаком «+» отмечались эпизоды целевого поведения. В последней строке таблицы после окончания сессии подсчитывалось и записывалось общее количество эпизодов целевого поведения у каждого испытуемого за эту сессию.

Наблюдения были проведены автором статьи, который является студентом третьего модуля курса Ольги Шаповаловой по прикладному анализу поведения.

Подкрепление

В качестве подкрепления было выбрано безусловное подкрепление – еда.  Это были мясные колбаски для кошек, которые представляли собой длинные тонкие полоски около 15 см. Каждая колбаска разрезалась на мелкие кусочки шириной примерно 0,5 мм.

Основным видом принимаемой пищи для испытуемых в обычной жизни является сухой корм. До эксперимента котам  редко давали другие виды пищи (например, влажный корм или колбаски давались не чаще 2-3 раз в месяц).  При наблюдении было замечено, что каждый раз, когда человек начинал доставать пакетик с влажным кормом или колбасками, коты подбегали к нему,  начинали вставать на задние лапы, опираться лапой на ноги хозяина, мяукать и тянуть нос к руке с едой. Таким образом, мы можем сказать, что у испытуемых складываются мотивационные условия к получению данного подкрепления. В качестве подкрепления были выбраны колбаски, т.к. они удобны в использовании, колбаски были сухие, их можно было положить в руку и не испачкаться. Но была необходима подготовка перед сессией – экспериментатору необходимо было нарезать длинную колбаску на мелкие части.

В период сессии подкрепление находилось в кулаке левой руки экспериментатора (в руке были 20-25 кусочков колбаски). При постоянном режиме подкрепления сразу после того, как кот прыгал на колени в течение 1-3 сек. после команды, экспериментатор незамедлительно давал ему кусочек колбаски (перекладывал из левой руки один кусочек колбаски в правую руку, подкрепление выдавалось на ладони правой руки).

При режиме подкрепления с постоянной пропорцией FR 2, экспериментатор давал коту подкрепление  после того, как он два раза прыгнет на коленки по команде. Т.е. после команды кот прыгнул первый раз и после этого экспериментатор его снимает с коленей и опускает на пол. Экспериментатор дает еще раз команду – кот прыгает на колени и экспериментатор незамедлительно дает ему кусочек колбаски.

В ходе эксперимента были созданы условия депривации: коты не получали пищу за три часа до сессии.

МЕТОД

Фаза 1. Тренинг по обучению испытуемых «прыгать на коленки по команде» и сбор начального уровня

На период начала эксперимента ни один кот не демонстрировал поведения «прыгать на коленки по команде». Сначала был проведен тренинг по обучению котов «прыгать на колени» без команды.

Была использована методика «шейпинг», т.е. подкреплялись постепенные приближения к целевому поведению (прыгает на колени без команды). Поведение «прыгать на колени» было разделено на следующие приближения:

1 приближение – кот сидит напротив экспериментатора на расстоянии не более 30 см., взгляд кота направлен на лицо экспериментатора.

2 приближение – кот опирается двумя передними лапами на колени экспериментатора, задние лапы остаются на полу.

3 приближение – кот опирается двумя передними лапами на колени экспериментатора, задние лапы остаются на полу, тянет шею вперед  по направлению к экспериментатору.

4 приближение – кот запрыгивает на колени к экспериментатору.

Таким образом, при методике «шейпинг» при подкреплении последующего приближения предыдущее приближение было поставлено на гашение. Так, например,  экспериментатор давал подкрепление каждый раз, когда кот опирался двумя передними лапами на его колени, при этом экспериментатор не давал подкрепления за предыдущую реакцию (кот сидит напротив экспериментатора).

После того, как оба кота стали стабильно показывать поведение «прыгать на колени без команды» было решено начать работу по формированию стимульного контроля на команду «двойной хлопок по колену». Сначала стимул «хлопок 2 раза» предоставлялся во время начала поведения «прыжок на колени». Затем хлопок по колену предоставлялся перед прыжком кота.

Тренинг по обучению целевому поведению проводился в течение двух недель, каждый день (по одной сессии утром и вечером, длительность сессии – 3 минуты).

Видео тренинга с Испытуемым 1:

Видео тренинга с Испытуемым 2:

После того, как у котов было сформировано поведение «прыгать на коленки по команде», был собран начальный уровень  (фаза А – на графике). Начальный уровень длился  три сессии, каждая сессия длилась по 3 минуты.

Фаза 2. Фаза работы с поведением

В период этой фазы сессии проводились пять раз в неделю (пн, вт, чт, пт, сб), по одной сессии в день. Каждая сессия длилась 3 минуты. Сессии проводились по вечерам, в 19.00 (по времени г. Екатеринбурга).

Сессии проводились в жилой комнате площадью 20 кв. м. Для создания условия депривации котам не давали еду за три часа до сессии (это время было вычислено в ходе прямого наблюдения). За 5 минут до начала сессии из комнаты выносили котов, если они там присутствовали, и закрывали дверь в комнату.

Около  одной из стен находился длинный диван, возле которого был поставлен табурет. На диване лежала форма для записи результатов, ручка и телефон с таймером, предварительно заведенным на 3 минуты. На журнальный стол напротив дивана была установлена видеокамера для записи сессии. Подкрепление находилось в прозрачном контейнере, который был поставлен на полку рядом с диваном. Экспериментатор открывал контейнер и насыпал подкрепление в левую руку.

Когда все эти действия были сделаны, экспериментатор выходил из комнаты, брал Испытуемого-1 на руки и заносил его в комнату, где проводился эксперимент. Экспериментатор закрывал за собой дверь и ставил кота на пол возле табурета.

После этого экспериментатор нажимал на кнопку камеры и садился на табурет. Далее он ждал пока кот подойдёт к нему, и затем нажимал кнопку таймера. Сначала поведение обоих котов подкреплялось в постоянном режиме. После того, как кот садился напротив экспериментатора и направлял свой взгляд на него, экспериментатор давал команду (хлопал по колену правой рукой два раза).  Если после команды кот в течение 1-3 сек. прыгал на колени, то экспериментатор незамедлительно давал ему подкрепление – один кусочек колбаски. Пока кот сидел на коленях экспериментатора и ел колбаску, экспериментатор отмечал знаком «+» эпизод поведения в форме для наблюдения. После того, как кот проглатывал колбаску, экспериментатор брал его двумя руками за туловище под передними лапами и опускал на пол. После этого снова была дана команда и так продолжалось до того момента, пока не звонил сигнал таймера, сигнализирующий об окончании сессии.

После окончания сессии с Испытуемым-1 экспериментатор брал его на руки и уносил в другую комнату. После этого экспериментатор брал на руки Испытуемого-2, заносил его в комнату для эксперимента и проводил с ним те же самые действия, что и с Испытуемым-1.

Поведение Испытуемого-2 подкреплялось в постоянном режиме всю фазу работы.  Поведение Испытуемого-1 первые две сессии подкреплялось в постоянном режиме. Начиная с третьей сессии поведение Испытуемого-1 начало подкрепляться в режиме подкрепления с постоянной пропорцией FR 2: подкрепление выдавалось за каждый второй эпизод поведения. Т.е. после того как кот прыгал на коленки после первой команды, экспериментатор брал кота под передние лапы и опускал на пол. После этого еще раз давалась команда, и если кот в течение 1-3 сек. совершал прыжок на коленки, то экспериментатор незамедлительно давал ему подкрепление.

Фаза 3. Отмена подкреплений

Для того, чтобы проверить гипотезу, была введена третья фаза эксперимента. Начиная с 27-й сессии, было отменено подкрепление. Это означало, что после того, как испытуемые прыгали на коленки по команде, экспериментатор не давал им подкрепления. Целью этой фазы было отследить, на каком режиме подкрепления поведение будет более устойчиво к угасанию. Длительность и условия проведения сессии остались теми же, за исключением того, что на этом этапе после целевого поведения не следовало подкрепления.

Проверка на надежность

Во время сессий велась видеозапись.  После того как была проведена сессия – запись просматривалась специально обученным человеком. Этот человек прошел тренинг по проведению наблюдения за поведением по видео. Обучающий тренинг проводил экспериментатор, студент сертифицированного курса прикладного анализа поведения. Специально обученный человек подсчитывал количество эпизодов поведения и записывал полученные данные о количестве эпизодов поведения в точно такую же форму, которая  была у экспериментатора. Далее проводилось сравнение этих форм. Надежность по зависимой переменной составила 100%.

Мы считаем, что наш эксперимент далек от получения обобщенного вывода, потому что данные, полученные в ходе нашего эксперимента, не подтверждают гипотезу полностью. Наряду с этим ранее другими исследователями были проведены эксперименты, в которых было доказано влияние режимов подкрепления на устойчивость поведения к угасанию. Для того, чтобы сделать обобщенный вывод, нужно внести в методику проведения нашего эксперимента соответствующие изменения и провести прямое и систематическое его повторение.

Дизайн

Для данного эксперимента был выбран реверсивный дизайн. Этот дизайн позволяет проверить эффективность используемой методики путем возвращения на фазу фона. В нашем случае фаза фона до начала фазы работы и возврат на фазу фона различны по условиям. Подтверждением  эффективности нашей методики будет изменение зависимой переменной (снижение количества эпизодов поведения) в ходе возврата на фазу фона.

РЕЗУЛЬТАТЫ

Частота эпизодов целевого поведения Испытуемого-1 на разных фазах эксперимента представлена на графике 1.

График 1. Частота проявления эпизодов поведения у Испытуемого-1 в режиме постоянного подкрепления на фазе А,  режиме подкрепления с постоянной пропорцией FR 2 на фазе Б, и отмене подкреплений (повторная фаза А)

Испытуемый 1 – на фазе начального уровня (фаза А) данные нестабильны.  На фазе работы (Фаза Б) график нестабилен. Графики фаз А и Б не разделенные. На повторной фазе фона (отмена подкреплений) отмечается резкий спад графика вниз. Графики Фаз Б и повторной фазы А разделенные.

Частота эпизодов целевого поведения  испытуемого-2 на разных фазах эксперимента представлена на графике 2.

График 2. Частота проявления эпизодов поведения у Испытуемого -2 при постоянном режиме подкрепления на фазе А и Б, и при отмене подкреплений (повторная фаза А)

Испытуемый 2 – На фазе начального уровня  (фаза А) данные нестабильны.  На фазе работы (Фаза Б)  первая половина графика нестабильна: сначала график постепенно идет вверх, затем наблюдаются скачки данных. Ко второй половине  фазы Б график выравнивается, результаты становятся ниже, чем в первой половине графика, но они более стабильны и составляют примерно 16 эпизодов. Графики на фазах А и Б разделенные. Наблюдается достаточно резкое снижение количества эпизодов поведения – график стремительно идет вниз. Графики фазы «Б» и повторной фазы «А» разделенные.

Данный тип дизайна говорит нам о том, что наша методика влияет на поведение тем, что возвращаясь на фазу на повторную фазу А (отмена подкреплений), наблюдается резкое снижение количества эпизодов поведения.

ОБСУЖДЕНИЕ

Фаза фона (с 1 по 3 сессию):

На данной фазе наблюдается нестабильность графика. Мы предполагаем, что на этой фазе продолжает идти процесс распознавания.

Фаза работы (с 4 по 26 сессию):

Испытуемый 1

В первые две сессии фазы Б поведение Испытуемого-1 подкреплялось в постоянном режиме, т.е. подкреплялся каждый эпизод поведения. Начиная с третьей сессии поведение Испытуемого-1 стали подкреплять в режиме с постоянной пропорцией FR-2 , т.е. поведение встречало своё подкрепление после каждого второго эпизода. На всем протяжении фазы Б график имел скачкообразный характер. На наш взгляд, это могло произойти по двум причинам. Во-первых, на фазе работы было проведено мало сессий, где поведение подкреплялось в постоянном режиме, произошел слишком быстрый переход от постоянного режима подкрепления к переменному. Возможно было бы лучше, если бы поведение подкреплялось в постоянном режиме до того момента, пока график был бы стабилен. Во-вторых, мы предполагаем, что нестабильность графика может быть связана с несформированностью абсолютного стимульного контроля на команду «двойной хлопок по колену». У Испытуемого-1 наблюдалось увеличение латентного периода между командой и поведением. Ввиду этого во время сессий проводилось дифференцированное подкрепление целевого поведения, т.е. подкреплялся только тот прыжок, который был совершен в теч. 1-3 сек. (согласно рабочему определению поведения).

Испытуемый 2

В первой трети графика фазы Б наблюдается быстрое увеличение количества эпизодов поведения. На наш взгляд, в этот период происходил процесс распознавания, в ходе которого повышалась  частота эпизодов целевого поведения. Вторая треть графика имеет скачкообразный характер. В этот момент было обнаружено, что у кота не установлен абсолютный стимульный контроль на команды «двойной хлопок по колену». Было замечено, что Испытуемый-2 запрыгивал на кленки не только после того, как экспериментатор два раза хлопал по колену, но и в тот момент, когда рука экспериментатора поднималась над коленом, либо экспериментатор начинал двигать руку по направлению к колену. Ввиду этого было принято решение внутри сессий проводить методику дифференцированного подкрепления. Т.е. прыжок по команде подкреплялся в случае того, если он происходил после двойного хлопка рукой по колену, и не подкреплялся, если рука экспериментатора находилась над коленом, либо двигалась по направлению к колену. На наш взгляд, использование дифференцированного подкрепления во время сессии послужило причиной снижения количества эпизодов  к концу фазы работы. Но стоит отметить, что график стал более стабильным и находился на уровне примерно 16 реакций за сессию, не наблюдалось сильных скачков. Также к концу фазы Б у испытуемого-2 был установлен абсолютный стимульный контроль на команду «двойной хлопок по колену».

Фаза отмены подкреплений (с 27 по 32 сессию):

Опираясь на данные графиков, у обоих испытуемых угасание поведения произошло  в течение четырех сессий. У обоих испытуемых графики стремительно идут вниз. Стоит отметить, что у Испытуемого-1 (поведение подкреплялось в режиме подкрепления с постоянной пропорцией FR 2) наблюдается более плавное снижение количества эпизодов поведения (11, 7, 2, 0), чем у Испытуемого-2 (11, 7, 6, 0), поведение которого подкреплялось в постоянном режиме. Похожие различия плавности изменения кривых на графиках были получены ранее в исследовании John A. Nevin, Randolph Grace (2005).

Таким  образом, опираясь на полученные данные, мы не можем полностью подтвердить нашу гипотезу. Мы считаем, что необходимо провести ряд изменений в эксперименте, чтобы повысить вероятность подтверждения гипотезы.

Мы считаем, что данные результаты эксперимента можно использовать для работы с другими котами или представителями других видов животных. Также мы считаем, что стоит внести ряд изменений в методику проведения эксперимента

Во-первых, нужно изменить фазу работы у Испытуемого-1. На фазе Б было проведено только две сессии, где поведение подкреплялось в постоянном режиме. Необходимо увеличить количество сессий, в которые поведение будет подкрепляться в постоянном режиме, и достичь стабильных результатов на графике, и только потом переходить на режим подкрепления с постоянной пропорцией FR 2. На наш взгляд, это бы повлияло на скорость распознавания режима FR-2. Также для более ярких различий между режимами подкрепления можно было бы выбрать немного большее число для режима подкрепления с переменной пропорцией (например, FR-3 или FR-4).

Во-вторых, мы считаем, что необходимо было полностью установить стимульный контроль на команду до начала фазы работы.

В-третьих, на наш взгляд, ограничения эксперимента во времени также повлияли на его результаты. В эксперимент можно было бы добавить несколько фаз, где можно было бы сравнить влияние на поведение других переменных режимов подкрепления во время процедуры гашения.

Данный эксперимент показался нам полезным для понимания того, как формируется поведение. Кроме того, проведение экспериментов с животными может давать более ясную картину того, как действуют законы поведения, т.к. у животных (в отличие от человека) отсутствуют вербальные операнты, которые могут оказывать дополнительное влияние на зависимые переменные без нашего контроля.

ЛИТЕРАТУРА

John A. Nevin, Randolph Grace «Resistance  to exrinction in the steady  state and transition» Journal of Experimental Psychology Animal Behavior Processes. 2005 Apr; 31(2): 199-212.

J.R. Millenson, H.M.B. Hurwitz «Some temporal and sequential properties of behavior during conditioning and extinction» J Exp Anal Behav. 1961, Apr.; 4(2) : 97-106

Troy J. Zarcone, Marc N. Branch, Christine E. Hughes, Henry S. Pennypacker  «Key pecking during extinction after intermittent or continuous reinforcement as a function of the number of reinforcers delivered during training» J Exp anal behav. 1997, 67, 91-108 Number 1 (Janyary)

Джон О. Купер, Тимоти Э. Хэрон, Уильям Л. Хьюард «Прикладной анализ поведения». Пер. с англ. – М.: Практика, 2016. – 864 с.