2022年7月27日特征
研究在基于多巴胺的奖励学习与机器学习之间取得了新的联系
过去的神经科学和心理学研究反复证明了奖励在人类和其他动物如何获得促进其生存的行为方面的关键作用。多巴胺能神经元,在哺乳动物中枢神经系统中产生多巴胺的神经元,在哺乳动物中基于奖励的学习是很大程度上负责的。
研究发现,当哺乳动物获得意外奖励时,这些神经元通过所谓的阶段激发立即做出反应。这是一个短而强的激发时期,在快速适应脑受体(即,体性受体)。
当动物开始在奖励与特定刺激或提示之间建立关联时,多巴胺神经元调整了对相关奖励的反应。这可能是旨在支持关联学习的进化机制。
近年来,计算机科学家一直在试图人为地复制哺乳动物中奖励学习的神经基础,以创建有效的机器学习模型复杂的任务。著名的机器学习方法,复制了多巴胺能神经元是所谓的时间差异(TD)学习算法。
哈佛大学,名古屋大学和凯奥大学医学院的研究人员最近进行了一项研究,探讨了TD学习计算方法的一个方面,该方面可能与人类基于奖励学习的方式有关。他们的论文发表在自然神经科学,可以为大脑如何在时间分离的线索和奖励之间建立关联(即不是连续的,因此不接一个地经历的提示和奖励之间的联系)。
TD学习算法是一种不需要模型的强化学习方法,而是可以学习基于连续时间步骤发生的环境的变化来做出预测。与其他机器学习方法相反,TD方法可以在揭示最终预测之前几次调整其估计。
在过去的几年中,几项研究突出了TD学习算法和大脑中奖励学习多巴胺神经元之间的相似性。尽管如此,在神经科学研究中很少考虑该算法功能的特定方面。
“先前的研究未能观察到该算法的关键预测:当代理商会随着时间的推移分开的提示和奖励时,多巴胺信号的时机应在奖励时期到奖励时间逐渐向后移动在多次试验中提示,“ Ryunosuke Amo,Sara Matias,Akihiro Yamanaka,Kenji F. Tanaka,Naoshige Uchida和Mitsuko Watabe-uchida在论文中写道。“我们证明,这种逐渐转移既发生在多巴胺能细胞活性的水平上,又发生在小鼠腹侧纹状体中的多巴胺释放。”
在他们的论文中,Amo和他的同事们考虑了他们对未经训练的小鼠进行的实验结果,这些小鼠正在学习将气味线索与水奖励相关联。当动物开始将特定气味与接收水相关联时,它们表现出舔行的行为,表明他们只有闻到相关的气味后,他们期望收到水。
在他们的实验中,研究人员向小鼠介绍了奖励前的气味和在不同时间范围内的奖励。换句话说,他们改变了小鼠暴露于气味的那一刻和收到水奖励的那一刻之间的时间。
他们发现,当奖励延迟时(即,它比以前经历的时间晚给老鼠)时,多巴胺神经元一开始并不活跃,但随着时间的流逝,变得更加活跃。这表明,正如在TD学习方法中观察到的那样,大脑中多巴胺反应的时机可能会转移,而小鼠首次学习气味和奖励之间的关联。
该团队还进行了进一步的实验,以测试这一转变是否也发生在已经经过训练的动物中,以建立这些气味 - 奖励联想并在反向任务(即提示和奖励的任务逆转)中进行。他们观察到在延迟期间动物多巴胺信号的暂时变化,这与动物首次学习联想时所显示的相似,但速度更快。
总体而言,Amo和他的同事聚集的发现强调了发生的时机的落后转变多巴胺在不同的关联学习实验中,小鼠大脑的活性。这种观察到的时间变化极大地类似于TD学习方法的基础机制。
将来,这支研究人员团队收集的发现可能为研究的新研究铺平了道路,该研究研究了哺乳动物大脑中的奖励学习与TD增强学习方法之间的潜在相似性。这可能有助于提高对大脑奖励学习的当前理解,同时也有可能激发TD学习算法的进一步发展。
研究人员在论文中写道:“我们的结果建立了多巴胺能活动与TD学习算法之间的长期联系,从而提供了有关大脑如何及时分离的线索和奖励的基本见解。”
进一步探索
©2022科学欧宝app网彩X网络