1. 简单百科
  2. 响片训练

响片训练

响片训练是一种训练动物的方式,它使用制约增强的方法来“表示”(标记)动物当下正在做的行为是正确的。响片训练原本用在不适合传统服从训练的动物身上,如海豚和鸽子。由于动物训练者使用这个小型会发出声音被称作“响片”的东西来做训练,所以尽管它使用的是操作制约的方式,但人们还是使用“响片训练”这个名词,响片训练也成功的运用在马只训练和绵羊身上。

历史

B·F·斯金纳是第一位定义和描述操作制约原理的学者,而斯金纳的两位学生玛蕊安·卜利廉同凯勒·卜利廉夫妇两人观察出将之应用在动物训练的可能性,并发展出如今为人们所熟知的正增强方式和塑型法。

其发展开始于二次大战的鸽子计划,卜利廉夫妇开办了一间公司名为“动物行为企业”。他们在海军和公开展览中举办了第一次海上哺乳动物训练计划,并首创鸟儿自由飞翔秀,举办商业动物展览,其内容包括乳猪竞赛和鸡只玩圈叉游戏等,可说是一整个“IQ动物园”。

1965年凯勒过世后,玛蕊安嫁给首位参予研究海军海豚科学专家贝里·鲍伯。在海洋中,海豚可以找到离训练者好几哩以外的目标物。带着相机的猫可以沿着城市行走进入建筑物,载着相机借由雷射光导向的渡鸦或其他鸟类可以飞到某座某摩天楼的特定窗户并且照摄里面的人。普通海鸥——大自然的海洋搜寻专家,可以找到并且回报救生艇和远离岸边的游泳者。

优点

训练动物的挑战之一,就是要跟动物沟通如何让它们准确地知道所发生的行为正是训练者尝试要去加强的。举一个简单的例子,训练狗儿退后,正当狗儿要往后移动的同时训练者马上就要让狗儿知道它目前所做的事是正确的。然而,以往传统的口头鼓励方式“乖狗儿!”会花掉太多时间,在称赞的同时狗儿可能已经继续其他的行为了。而当狗儿了解它正在被奖励时,这行为可能又重复了一次或甚至是坐下和搔痒。另外,不精准的时间点和训练者音调所传达的讯息也会让实际接受的信号意思因而有所不同。在同一段训练时间当中,训练者的声音、发音、音调、音量和重音可能都会有所改变,这会使训练进度减慢,因为动物必须要去理解某些变化(例如训练者的音量或是热忱)是不重要的,而某些变化却是需要去注意的(例如“好乖”或“不对”)。制约加强法可以解决这些问题,它使用的可以是任何一种动物可以察觉的信号,只要这信号是简短(避免不准确的时间点)而且是一致的(避免动物对信号的变换产生混淆)。通常都是用响片或是信号器这种压下和放掉时会发出“喀喀”的小型金属片来训练狗或马,至于海豚,在制约加强法当中通常是使用口哨。然而并非都是使用声音来操作制约加强法,我们使用手电筒快速闪光来取代响片训练金鱼,使用会震动的项圈来训练耳聋的狗儿。

响片训练当中有几点常见的问题,依赖使用响片给狗儿信号便是其中之一,响片主要是使用在教导新的行为,或是给予稳定的音调奖励,等过了这个阶段以后响片便不需要了(或是不用依赖)。有时候狗儿发生期望中的行为时响片正好不在手边,这时候仍然可以用其他的“喀喀”声来代替,尽管奖励效果不如响片,但当下发生的行为仍然还是需要被标记。

另一个会遇到的问题是,当团体上课时狗儿会无法辨别哪一个响片发出来的声音是属于它的,然而每年有上百个响片团体课程在举办,这证明了此忧虑是多余的。在某些情况当中响片音量可能不够大声,例如狗儿离开操作者去做狩猎或拾回动作,也有些狗儿对于声音敏感或是害怕响片。针对这类状况可以转换标记工具来解决问题,像是操作者在做远距离训练时可以使用口哨来代替,对声音敏感的狗儿可以使用圆珠笔盖或是订书机取代。同样地,当响片训练已经进行后,也可以使用这技巧来解决很多上述提到的问题。

使用

响片训练第一步是让狗儿知道响片声音代表它们将会得到奖励。为了这么做,训练者会先将响片“充电”或是“装满料”。当训练者按下响片后,立即地或同时地给予动物奖励,这奖励通常是少见的、美味的零食,大小必须是可以小到可以一口立即吃掉。(有些训练者会用动物最喜爱的玩具来代替零食,然而这个作法会干扰要对动物这加强物保持高度兴趣的主要目的。)在每段训练时间内最多重复二十次。有些动物比较快知道这个联结,例如狗儿,通常在可以在一段训练时间内约五到十次的重复就会知道响片和奖励的联结。在训练进行当中,可以借由测试等待狗儿的注意力在其他地方时按下响片得知它们是否将响片和奖励做连结,若狗儿立即看训练者并期待奖励代表狗儿已经知道。之后便可以使用响片来标记训练者期望发生的行为。在动物发生期望中的行为同时训练者按下响片并立即给予奖励。响片训练重点在于训练者时间点的掌握,若按下响片的时间稍微太早或太迟都可能会加强到按下当时正在发生的行为。另一重点是如何制造机会让动物可以频繁地赢得奖励,通常专业的狗儿训练者按下响片和给予奖励的频率为两到三秒一次。最后就算是要完成的目标很简单也必须要把它切割成更小范围,或是从最容易达到标准开始慢慢往前推进。

当狗儿要学习如何去碰触特定目标物时,大部分一开始期望的行为都是从鼻子碰触开始,像是用鼻子碰触一小片塑胶,而这训练可以转换成实用的任务或是有趣的把戏,像是开关灯或是想到户外的时候摇铃当。

训练鼻子碰触的方法从让狗儿用鼻子去碰触目标物开始,有些训练者使用引导法,例如将花生奶油酱轻涂在小碟子或是塑胶目标物上,而有的训练者偏爱使用雕塑法,也就是将目标物放在容易碰触的地方,像是手握著放在训练者和狗儿中间,当狗儿一往目标物靠近或真正碰触就给予奖励。

当狗儿可以不断地碰触目标物后,训练者就可以将奖励食物去除并变换目标物位置。最后训练者可以将此行为转换成摇铃当,举例来说,把铃铛放在目标物前面,每次狗儿都必须要先碰触铃铛才会碰触到目标物,这时候奖励每次碰触到铃铛的行为。当狗儿可以确实碰触铃当后,训练者加入开门的动作来当作奖励狗儿每次碰触铃当的行为。

训练马儿的标的物法:对马儿来说,通常不用先将响片“充电”或是“装满料”,因为对马儿来说最好的方法就是清楚的标记让马儿不要期待“尚未获得”的零食。

训练方法

响片训练法有三种方式:一种是诱导法(Magnet),一种是捕捉法(Capture),另一种是塑造法(Shaping)。诱导法较为快速但是并不精确,常常会导致混淆或困惑的情况发生,捕捉法较自然儿精确,但是初期训练时间教长。塑造法其实是将欲训练的行为或动作分解成许多相近的步骤再一一以捕捉法训练并连贯相近的步骤来连成我们欲训练的行为或动作。

诱导法(Magnet):利用零食诱导狗狗产生训练者期望的行为或动作一但狗狗做对了,按下响片,并随之给予零食奖励。

捕捉法(Capture):完全不使用零食、手势或声音…等提示,细微地观察狗狗的行为或动作,一但狗狗发生训练者期望的行为或动作时,立刻按下响片并随之给予零食奖励。

塑造法(Shaping):完全不使用零食或手势等提示,细微地观察狗狗的行为或动作,一但狗狗开始「朝向」训练者期望的行为或动作反应时,立刻按下响片并随之给予零食奖励。也可以说是将训练者期望的行为或动作分解步骤,各步骤都以捕捉法来训练,逐渐连成训练者期望的行为或动作。

相关奖励

为了区分出响片训练,以下描述四处通常会发生误解的地方:

获得行为和奖\励时机的差异,两项重大差异则是给予零食的方式及狗儿不出现行为时的训练者反应

零食给予的方式

利用行为标定讯号(例如响片)的一大好处就是能够改变零食给予的方式,它比其他训练方法更能有效增进训练成效及加快进展。

利用诱导法时,狗儿在达成诱导姿势或依讯号出现姿势时获得零食,例如诱导狗儿趴下就以趴姿获赏。训练等待不动时,狗儿必须留在原地才能获赏,如果它在获赏前移动了就不给赏。

响片训练时,既然响片已标定成功的当下,使行为终结,狗儿不必保持姿势或位置也会获赏,响片训练者可针对每个行为选择最有效率的零食给予方式,藉以加速学习,下列一些例子显示行为标定讯号出现之后如何运\用零食增进并加速训练:

使行为回到起点:例如训练趴下时,当狗儿趴下,训练者按下响片,接着把零食递到它得站起来才吃得到的地方或丢到不远处,让它起身去取,狗儿吃下零食后即可再度趴下,如果喂到狗儿嘴里让它保持不动姿势,你将多出一个必须让它改变姿势才能再度出现行为的步骤;诱导奖\励法通常会利用来回诱导两个姿势解决这个问题,例如诱导站起来再诱导趴下去。

定位奖\励:响片训练者当然也会在原地奖\励,例如训练长时间行为(例如等待不动或休息)时,响片声标定时间已结束,训练者可能就地奖\励狗儿,减少重新调整姿势的必要性。训练位置相关的行为(例如:脚侧随行)时,直接在定位给予奖\励狠有效,但并不是非这样做不可。如果狗儿在响片声后离开位置,它仍然可获赏,因为响片本来就代表终结行为。

影响整体反应:给予零食的方式有助提高活泼度或使过於激动的狗儿冷静下来,例如,按响片后定位喂食或减少多馀的喂食动作可导致较冷静的反应,从另一方面来看,把零食滚到地上让狗儿追着它跑可能会提高兴奋度。.

要的是动态行为:当想训练的行为是退后或远离的动作,给予零食的方式可以让狗儿回到起点,这时不同於定位予赏的是,训练者在狗儿尚在动作进行当中即按下响片,不会等到它完成整个动作,例如当它往后退,响片告诉它动作没有错,在它回到训练者面前领赏后即能够再度出现动作,增强动态动作时若不利用标定讯号将狠困难。

增加距离:响片训练者狠快便能远离狗儿,例如训练狗儿走向标的物或训练远距离讯号反应,由於狗儿成功出现行为时零食不必即时出现眼前,训练者也不必在它眼前。诱导式训练时,零食必须刻意放在标的物上某处(通常设计起来不容易),或者训练者只能一点一点地,慢慢拉长离开的距离。

时间:若使用行为标定讯号,增强物不必立刻在行为发生后出现,举例来说,如果奖\励是到屋外玩耍,在响片标定行为之后,人走到门口、打开门再让狗儿出门时可能已经过一段时间。有了这个行为标定讯号的好处,响片训练者可利用狠多活动作为奖\励,但诱导式训练者多半无法这麼做。

不出现动作

讲座示范上,第一次看见从未受训的狗儿或幼犬接受响片训练的人总是不可思议地发出惊叹,目睹从未受训的狗儿没有听过响片,在几分钟之内即能开心冲到被子上趴下,看来真是神奇,它迅速使狗儿出现一连串看似复杂的行为,首次见识的人不得不对这种魔力印象深刻,他们是看到了,也相信它有可能──只要训练者经验老道,但是要他们产生信任,相信这种不作任何指引、不用暴力或肢体、也不作任何控制的作法对自家的狗真会有用?这对任何初入门的响片训练者都是狠大的问号,对於来看诱导背景、习惯狗儿出现机械化自动反应的人尤其困难,虽然自动反应并非「学习」,即时的成就感对於诱导者具有高度增强作用。

刚开始时,很不容易相信响片这一套会管用──人们必须有耐性,让响片进行沟通。人类的天生倾向是减轻学习压力──减少狗儿当下的混淆或可能出现的混淆,急着帮忙狗儿是人们最隐而不见的习性,尤其是诱导式跨域训练者──狗儿看来困惑时就帮它,狗儿挫折时也帮它,狗儿无助也拯救它。当训练者丧失对於训练方法的自信时,诱导法可以填补空缺。

於是当狗儿不提供某项行为(无论是何项行为),训练者拿出零食作诱导,让它知道该做什麼,然后再试看看,情况又一样,狗儿没法出现行为;零食再度出现,再度诱导它出现行为。训练者误以为这麼做就能让它懂,它是懂得某件事,但是并不是训练者希望的那件事:狗儿学习到什麼都不要做,直到训练者拿出零食,然后跟着零食动就能得赏,结果『没反应的行为受到增强』(或可称为习得无助)。

狗儿不动的反应并不是意识下的抉择,它没有坐在那儿想着:「我知道该做什麼,但是我不会这麼做。」其实是因为它没有反应的等待行为带来了好的后果。

更糟的是,训练者误以为问题是狗儿只是需要多几次示范,诱导几次之后就决心试图塑形行为或等待它行为出现,所以他试着和狗儿比耐心──看看是否能等到它出现行为,可是狗儿不会这麼做,毕竟它已学会没反应才会获赏──只要等着跟随诱导就好。当训练者等得久一些,但终究仍掏出零食诱导,这麼做只会拉长狗儿等待零食出现的时间,不但增强等待行为,而且也使这个等待的行为受到随机增强,变得更不易消失。

无论是否给予讯号,如果狗儿不出现动作之后人们无法克制想诱导的冲动,可能会一路每况愈下,最后到了训练者所谓的『顽固』地步:「我家狗拒绝服从我,他知道我要什麼,但是它就是不干。」如果狗儿知道我们要什麼,也知道它照做会获得狠高报酬,但它仍拒绝这麼做?诱导时它完全会乐意配合,所以既然它不愿出现行为,它一定是『故意上』训练者?我们真能相信狗会这麼做?当然不是,答案是训练者训练了这种持之以恒的等待行为。

我十分同情落入这种陷阱的训练者──毕竟,我们都只是想帮帮狗儿,但是暂缓的作法是错的,这种帮助它的作法会消除让它自己去发现、去学习的能力,而这种能力对狗儿或训练者有太大的好处了!

好消息是,只要训练者意识到自己无意的行为,并且去除自己想去帮它的冲动──花些时间比耐性,撑得比它久,训练就会往前迈一大步,而且看见狗儿脑子灯泡亮了的顿悟时刻,这种刺激和兴奋也值得耐心等待。

参考资料

宠物界都这么卷了!北大女博士做宠物健身师:带宠物来健身的主人99%都是女生.今日头条.2023-12-20

千亿级宠物市场兴起 扩大新职业“蓄水池”-新闻频道-淮南新闻网.淮南新闻网.2023-12-20