操作制約

由刺激引起的行為改變的過程與方法
(重定向自操作条件反射

操作制約(英語:operant conditioning)是一种由刺激引起的行为改变的過程與方法,又稱為工具性条件反射(instrumental conditioning)或工具学习。操作制約与古典制約(classic conditioning)有所不同,操作制約的行為是個體「主動」改變環境的行為,當行為得到獎勵或懲罰時出現刺激,反過來控制這種行為;而古典制約則是使個體被動接受刺激並產生反應的作用。

20世紀對動物學習的研究由這兩種學習的分析主導[1],它們仍然是行為分析的核心。

桑代克的效果律

 
動物困在這個Puzzle Box,牠必須學懂如何打開閂來開門。

操作性条件反射的第一位研究者是愛德華·桑代克(1874-1949),桑代克观察他的猫试图逃出他所設計的迷箱(puzzle box)的行为[2]。第一次猫花了很长时间才從箱子裡逃出。有了经验之后,无效的行為出現頻率逐渐减少,而成功的行為出現頻率則逐渐增加,此外猫成功逃出迷箱所用的时间也越来越少。在桑代克效果律中解释,成功的行為产生滿足的结果,而這種結果經由经验被“印入”(stamped in),使得成功行為的出现增加。失敗的行為則产生厭惡结果,因而被剔除(stamped out),造成失敗行為的出现频率減少。簡單的說,某些結果能夠增強行为,而某些结果能夠减弱行为。透過繪製逃脫與試驗的曲線,他也畫出了知名動物學習曲線[3]

通过卓有成效的研究,桑代克总结了“试误说”的三大定律:

  1. 效果律[4]:392:试误学习的过程中,如果其他条件相等,在学习情境作特定的反应之后能够获得满意的结果时,则其联结就会增強;而得到烦恼的结果时,其联结就会削弱。
  2. 练习律:在试误学习的过程中,任何刺激与反应的联结,一旦练习运用,其联结的力量就逐渐增大;如果不运用,则联结的力量会逐渐减小。
  3. 准备律:在试误学习的过程中,当刺激与反应之间的联结,事前有一种准备状态时,实现则感到满意,否则感到烦恼;反之,当此联结不准备实现时,实现则感到烦恼。

应该说明的是,虽然“尝试一错误”学习模式是从动物实验中抽象概括出来的,但它对于人类学习来说,仍有很大的借鉴意义。

斯金纳

伯尔赫斯·弗雷德里克·斯金纳(1904-1990)被称为操作性条件反射之父,他的作品在相关主题中被频繁引用。他1938年的著作《有机体的行为:一种实验分析》(The Behavior of Organisms: An Experimental Analysis)[5],开启了他对操作性条件反射及其在人类和动物行为中应用的终身研究。斯金纳跟随恩斯特·马赫的观点,拒绝了桑代克提到的不可观察的心理状态,如满足,并在可观察行为及其同样可观察的后果的基础上进行分析。[6]

斯金纳认为,经典条件反射过于简单化,无法用来描述像人类行为一样复杂的东西。他认为,操作性条件反射能更好地描述人类行为,因为它检验了有意的行为的原因和影响。

为了实施他的实证研究法,斯金纳发明了操作性条件反射室(operant conditioning chamber),或“斯金纳箱”,将鸽子和大鼠等受试者在隔离在内,并令其接受精密控制的刺激。与桑代克的谜箱不同,这种设计允许受试者做出一两个简单、可重复的反应,这种反应的比率成为斯金纳的主要行为测量。[7]另一项发明,累积记录器,能产生图形记录,从中可以估计出其反应比率。这些记录是斯金纳和他的同事用来探讨各种强化程序反应比率的主要数据。[8]强化时间表可以定义为“根据某些明确规则向生物体提供强化的任何程序”。[9]反过来,时间表的影响成为了斯金纳发展他对操作性条件反射的基本发现。 他还利用了许多不太正式的人类和动物行为观察。[10]

斯金纳的许多著作都致力于将操作性条件反射应用于人类行为。[11]1948年,他出版了《桃源二村英语Walden Two》,这是一个围绕他的条件反射原则组织的一个和平、快乐、高效生产的社区的想象。[12]1957年, 斯金纳出版了《言语行为英语Verbal Behavior (book)[13],将操作性条件反射的原则扩展到语言,这种人类行为的形式在以前一直是由语言学家等人以完全不同的方式分析的。斯金纳定义了新的功能关系,如“mands”和“tacts”来捕捉语言的一些实质,但他没有引入任何新的原则,而是将言语行为视为和其他行为一样的,由其结果控制的行为,其中结果包括听众的反应。

概念與方法

操作制約
增強
增加行為
懲罰
減少行為
正向增強
行為做出後
提供想要的東西
負向增強
行為做出後
移除不想要的東西
正向懲罰
行為做出後
提供不想要的東西
負向懲罰
行為做出後
移除想要的東西

改變行為:增強、懲罰與消弱

斯金纳(1904-1990)以桑代克的理論作為基础,建立了關於增強、惩罚與消弱的详细的操作制約理论,並發明了operant conditioning chamber英语operant conditioning chamber,一個實驗箱來高度控制目標動物的學習行為。增強(reinforcement)和惩罚(punishment)兩種刺激是操作制約的核心思想,另外消弱(extinction)指的是没有產生作用的刺激。增強懲罰或是消弱不但能夠使用在實驗室中,也能夠用來形容包括人類以外其他動物的自然環境。

操作制約與固定行為型態

斯金納所建構的操作制約理論,與諾貝爾獎得主康拉德·勞倫茲所提出的固定行為型態(fixed action patterns,FAPs)或本能行為有所對比。這些斯金納所說的行為,存在外在的操作制約變數,在進行行為的廣泛深入分析時是需要仔細思考的。

在狗的訓練中,利用覓食的慾望來對工作犬和偵查犬等進行訓練。這種來自於狩獵本能的固定行為型態的刺激,是產生非常困難但一致的行為的鑰匙刺激,且在大多數的例子裡,並不包括操作、古典或其他制約[來源請求]。在固定行為型態的演化塑造過程中,這些型態在長久的時間由於生存機制而維持穩定,也就是操作制約。

根據操作制約的規律,任何一個在一段時間內一致回饋的行為,將會在間歇性的對反應增強,並導致更穩定的反應速率,且對消弱有較大的抵抗力的行為更快的被消除。因此,以一隻偵查犬來說,任何對尋找指令作出的正確的行為,必須總是被以玩具或球的回饋來對反應作初始的獲取。之後則是衰減的過程,增強會被"減小",也就是並非每次的反應都被增強,使狗進入間歇性增強的行程,使牠對沒有增強的情況有更強的抵抗力。

然而,有些訓練者現在只利用狩獵慾望來訓練寵物狗,並發現效果狗對訓練的反應比只根據斯金納的操作制約更好[來源請求]。顯示本能在遊戲時的支配[14]

消弱-誘導變異

消弱發生時,在不間斷的執行動作之後,會導致欲消除行為確實的減少,但在短期內對象可能會產生消弱突然爆發(extinction burst),這種情形經常發生在消弱剛開始的時候。消弱突然爆發會使行為的出現頻率在短時間內暫時性的增加,之後欲消除的行為會開始減少。

舉例而言,某實驗中利用食物增強一隻鴿子敲啄按鈕的行為,每當牠敲啄按鈕,將會出現一些能吃的種子作為增強物,因此鴿子飢餓時,便會敲琢按鈕以獲得食物。然而當某一次敲啄按鈕之後食物不再出現,這隻鴿子將會再試著敲啄一次按鈕,若是食物仍未出現,牠將會一次、一次又一次的敲啄...。當這種瘋狂的行為依然無效的時候,鴿子就會減少敲啄的頻率。這種消弱突然爆發(extinction burst)行為擁有演化上的優勢,因為在自然界中,動物的行為並非絕對的附帶增強刺激,一次失敗之後,牠們有可能在多試一次之後確實得到增強。因此這些動物比起其他輕易放棄的動物更有生存優勢

消弱-誘導變異(Extinction-induced variability)扮演類似的角色。當消弱開始,改變的並非只有行為的頻率增加,行為的改變也會反映在反應形(response topography、反應的型式)上。對象會一步一步的稍微改變他們的表現,這些改變可以包括特殊的動作、力道的大小、和行為作用時間的小小改變等等。成功的行為變化將會被保留,失敗的行為變化則會漸漸減少。在常態分佈中,水平線方向表示某行為可能的變異,垂直線方向表示某狀態下的行為出現頻率。當一個行為出現在分佈圖的中央(出現頻率最高)時,表示在此動物的經驗中,這種行為變異最能有效的產生增強刺激。

回避学习

回避训练属于一种负向增強的安排。對象經由所厭惡的刺激而終結或阻止某些反應。

代表性實驗

Solomon和 Wynne使用Shuttle Box來實驗[15]。Shuttle Box是[16][17]一個實驗箱子分成兩個房間,其中一間地面會通電,目標要學會離開 (shuttling) 原本房間來避免電擊

迴避學習的双因子理論

這個理論來自於對辨別迴避學習的解釋,並假設有兩種過程發生。辨別迴避學習 (discriminated avoidance learning) - 新的刺激(如光線或聲音)出現之後,發生某個令人厭惡的刺激如驚嚇或電擊,兩者類似古典制約中的制約刺激(CS)和非制約刺激(US)。當動物表現操作反應時,各個帶有CS的US被移除。在第一次試驗(稱作逃脫試驗)中,動物會經常經驗到CS和US,表現出操作行為以終結令人厭惡的US。同時動物將學習到在CS發生的時候表現某些行為能夠使US的出現被阻止。例如Miller一個黑白雙房間實驗箱中,老鼠學懂要按制及推輪子來開啟白房間的門來逃脫至黑房間[18],這種學習被稱為辨別迴避學習。

  • 恐懼的古典制約(classical conditioning of fear) - 在第一個訓練的試驗中,生物個體經歷了制約刺激(CS)和厭惡的非制約刺激(US)。理論假設古典制約透過CS與US的同時出現參與這個試驗,因為對於US自然而然的厭惡,使得CS能夠引起制約情緒反應(conditioned emotional reaction、CER),也就是恐懼。在古典制約中,CS附帶厭惡的US出現使得生物個體進行的行為被中斷。
  • 產生操作反應並得到減少恐懼的增強(reinforcement of the operant response by fear-reduction) - 由於第一個過程,CS代表了厭惡的US,透過引起恐懼使本身變成一個厭惡的刺激,生物個體產生操作反應以減少這種不愉快的情緒。生物個體學習到在CS出現時進行某個反應能夠終結CS帶來的厭惡的內部反應。一個重要的觀點在於"迴避"並無法完全的描述生物個體的行為,他們不是"避開"厭惡的US;而是逃離由CS所造成的厭惡的內在狀態。

一個有關訓練動物的操作制約訓練觀點是使用塑型(shaping),增強近似成功的行為,就像連鎖一樣。

迴避學習的單因子理論

  • 自由-操作迴避學習 (free-operant avoidance learning)- 在這種實驗類型裡,沒有不連續的刺激被當成厭惡刺激的發生訊號使用。也就是說,厭惡刺激(如驚嚇)的表現與明確的警告刺激分開。
  • safety signal hypothesis,目標不只逃避驚嚇,而是去追求安全訊號。安全訊號亦可壓抑驚嚇,從而增強新的行為,如逃走。
  • Species-Specific Defense Reactions (SSDRs),指動物天生的逃脫反應。
  • 認知理論,來解釋預期如何影響逃脫反應[19]

兩種重要的時間間隔決定迴避學習的速率,

  • 驚嚇-驚嚇-間隔(S-S-interval),這是成功表現驚嚇的經過時間(除非操作反應表現)
  • 反應-驚嚇-間隔(R-S-interval),這是操作反應在沒有驚嚇被傳遞前的的時間長度。也就是動物在沒有驚嚇的狀態下表現操作反應的時間。

習得性失助

因為持續不能離開該環境,而目標降低學習其他方法的能力。影響因素有[20]

  • 動機原因,不想再學新的方法逃脫
  • 想法原因,即使學其他方法也不一定能逃脫而不如不學
  • 情感原因,該環境實在太痛苦
  • 控制原因,目標能否有方法去終止該痛苦刺激物
  • 預測原因,目標能否有方法得知痛苦刺激物來的事機

避免習得性無助,可以透過:

  • immunization,如果一開始目標能控制痛苦刺激物,之後較不受不能控制的事情所影響。在教育上,McKean建議老師可以一開始給一些較易完成的功課,學生們就有更多自信心去繼續課程[21]
  • Learned optimism英语Learned optimism[22]

神經科學與操作制約的關係

羅斯提·理查生(Rusty Richardson)和馬龍·德倫(Mahlon deLong)首先找出關於制約刺激反應的神經元[23][24]。他們發現將乙醯膽鹼釋放到大腦皮質基底核神經元,能夠在制約刺激或是制約刺激消失的回饋之後被短暫活化。這些神經元在正向和負向增強時被活化,並且在一些皮質區域產生突触可塑性[25]

證據並顯示多巴胺(dopamine)也同時被活化。多巴胺通道只有正向回饋,非造成厭惡的增強,且在額葉皮質區域有較高的濃度。有所不同的膽鹼(cholinergic)投射(projections)則在後葉,如視覺皮質區,也有作用濃度。

延伸閱讀

  • 斯金纳(1938). 生物個體的行为:实验分析. Acton, MA: Copley.
  • 斯金纳(1953). 科学和人类行为纽约. Macmillan.
  • 斯金纳(1957). Verbal行为Englewood Cliffs, NJ: Prentice Hall.
  • 桑代克(1901).动物智力:动物联结过程实验研究,Psychological Review Monograph Supplement, 2, 1-109.
  • Keller and Marian Breland (1961), "生物個體的不当行为" 美国心理学家.

参见

参考文献

  1. ^ Jenkins, H. M. "Animal Learning and Behavior Theory" Ch. 5 in Hearst, E. "The First Century of Experimental Psychology" Hillsdale N. J., Earlbaum, 1979
  2. ^ Thorndike, E. L. (1901). Animal intelligence: An experimental study of the associative processes in animals. Psychological Review Monograph Supplement, 2, 1-109.
  3. ^ Haring, Marilyn J. Child Behavior Therapy: Principles, Procedures, and Empirical BasisChild Behavior Therapy: Principles, Procedures, and Empirical Basis, RossAlan O.McGraw-Hill, New York, 1981. Behavioral Disorders. 1982-11, 8 (1): 73–74. ISSN 0198-7429. doi:10.1177/019874298200800109. 
  4. ^ PSYCHOLOGY: A STUDY OF MENTAL LIFE. www.gutenberg.org. [2019-03-25]. (原始内容存档于2018-08-10). 
  5. ^ Skinner, B. F. "The Behavior of Organisms: An Experimental Analysis", 1938 New York: Appleton-Century-Crofts
  6. ^ Skinner, B. F. Are theories of learning necessary?. Psychological Review. 1950, 57 (4): 193–216. PMID 15440996. doi:10.1037/h0054367. 
  7. ^ Schacter, Daniel L., Daniel T. Gilbert, and Daniel M. Wegner. "B. F. Skinner: The role of reinforcement and Punishment", subsection in: Psychology; Second Edition. New York: Worth, Incorporated, 2011, 278–288.
  8. ^ Ferster, C. B. & Skinner, B. F. "Schedules of Reinforcement", 1957 New York: Appleton-Century-Crofts
  9. ^ Staddon, J. E. R; D. T Cerutti. Operant Conditioning. Annual Review of Psychology. February 2003, 54 (1): 115–144. PMC 1473025 . PMID 12415075. doi:10.1146/annurev.psych.54.101601.145124. 
  10. ^ Mecca Chiesa (2004) Radical Behaviorism: The philosophy and the science
  11. ^ Skinner, B. F. "Science and Human Behavior", 1953. New York: MacMillan
  12. ^ Skinner, B.F. (1948). Walden Two. Indianapolis: Hackett
  13. ^ Skinner, B. F. "Verbal Behavior", 1957. New York: Appleton-Century-Crofts
  14. ^ Breland, Keller & Breland, Marian (1961), The Misbehavior of Organisms, American Psychologist
  15. ^ Solomon, Richard L.; Wynne, Lyman C. Traumatic avoidance learning: Acquisition in normal dogs.. Psychological Monographs: General and Applied. 1953, 67 (4): 1–19. ISSN 0096-9753. doi:10.1037/h0093649. 
  16. ^ Stark, H.; Rothe, T.; Wagner, T.; Scheich, H. Learning a new behavioral strategy in the shuttle-box increases prefrontal dopamine. Neuroscience. 2004, 126 (1): 21–29 [2019-03-22]. ISSN 0306-4522. PMID 15145070. doi:10.1016/j.neuroscience.2004.02.026. (原始内容存档于2019-03-23). 
  17. ^ Shuttle Box. www.harvardapparatus.co.uk. [2019-03-22]. (原始内容存档于2019-03-22). 
  18. ^ Miller, Neal E. Studies of fear as an acquirable drive: I. Fear as motivation and fear-reduction as reinforcement in the learning of new responses.. Journal of Experimental Psychology: General. 1992, 121 (1): 6–11. ISSN 1939-2222. doi:10.1037/0096-3445.121.1.6. 
  19. ^ 1924-1998., McGuigan, F. J. (Frank Joseph),. A cognitive theory of avoidance learning.. Contemporary approaches to conditioning and learning,. Washington,: V.H. Winston; distributed by Halsted Press, Division of Wiley, New York. 1973: xii, 321–xii, 321. ISBN 0470584289. OCLC 601181. 
  20. ^ Campbell, Byron A; Church, Russell M. Punishment and aversive behavior. New York: Appleton Century Crofts. 1969 [2021-09-03]. OCLC 911990675. (原始内容存档于2021-09-03) (英语). 
  21. ^ McKean. Academic helplessness: Applying learned helplessness theory to undergraduates who give up when faced with academic setbacks.. ollege Student Journal,. 1994, 4 (28): 456–462 [2019-03-22]. (原始内容存档于2019-03-22). 
  22. ^ Seligman, Martin E. P.; Rashid, Tayyab; Parks, Acacia C. Positive psychotherapy.. American Psychologist. 2006-11, 61 (8): 774–788. ISSN 1935-990X. doi:10.1037/0003-066X.61.8.774 (英语). 
  23. ^ [J. Neurophysiol. 34:414-27, 1971]
  24. ^ [Advances Exp. Medicine Biol. 295:233-53 1991]
  25. ^ [PNAS 93:11219-24 1996, Science 279:1714-8 1998]

外部链接