- 2022年度
題目 | A gradual temporal shift of dopamine responses mirrors the progression of temporal difference error in machine learning
|
講師 | 天羽 龍之介先生 ハーバード大学 分子細胞生物学部 脳科学センター リサーチアソシエート |
日時 | 令和4年8月9日(火) 17:00-18:30 |
場所 | 環境医学研究所 南館大会議室 |
要旨 |
中脳ドーパミン神経の活動は機械学習で使われる教師信号(temporal difference [TD] 誤差)と類似することが90年代にSchultzらによって提唱されました。
このアルゴリズムからは重要な特徴 ―報酬とそれに先立つ合図をリンクさせる試行を繰り返した際に、TD誤差のタイミングが合図に向かって徐々に移行する―が予測されます。
しかし、これまでドーパミン神経ではこの特徴が見られず、TD誤差仮説への批判の主な要因とされてきました。
本研究ではこの予測と一致した徐々に移行する活動を、ドーパミンの放出及びドーパミン神経(軸索/細胞体)の活動から観察することに成功しました。
この発見はTD学習理論とドーパミン神経活動の間にあった長年の溝を埋め、脳がどのように報酬と時間的に離れた合図をリンクさせるかを理解する基盤となります。 参考文献 1. A gradual temporal shift of dopamine responses mirrors the progression of temporal difference error in machine learning. Amo R, Matias S, Yamanaka A, Tanaka KF, Uchida N and Watabe-Uchida M. Nat Neurosci. 2022 (Accepted) **以下のpreprintもご参照ください A gradual backward shift of dopamine responses during associative learning. Amo R, Yamanaka A, Tanaka KF, Uchida N and Watabe-Uchida M. bioRxiv. 2020 2. A neural substrate of prediction and reward. Schultz W, Dayan P, Montague PR. Science. 1997 Mar 14;275(5306):1593-9. 3. Dopamine signals as temporal difference errors: recent advances. Starkweather CK, Uchida N. Curr Opin Neurobiol. 2021 Apr;67:95-105. 4. Dopamine cells respond to predicted events during classical conditioning: evidence for eligibility traces in the reward-learning network. Pan WX, Schmidt R, Wickens JR, Hyland BI. J Neurosci. 2005 Jun 29;25(26):6235-42 (医学系大学院 基盤医学特論を兼ねています) Lecture in English. |