来自DeepMind、大学学院和哈佛大学的一组研究人员发现,将学习技术应用于人工智能系统的经验和教训可能有助于解释奖励路径在大脑中的工作方式。在《自然》期刊上发表的论文中,该小组描述了计算机中的分布式强化学习与小鼠大脑中的多巴胺处理的比较,以及他们从中学到了什么。
之前的研究表明,大脑中产生的多巴胺与奖励过程有关——当有好事发生时产生,它的表达会带来愉悦感。一些研究还表明,大脑中对多巴胺的存在做出反应的神经元都以相同的方式做出反应——事件可以使人或小鼠感觉良好或不好。其他研究表明,神经元反应更多的是一种梯度。在这项新工作中,研究人员发现了支持后一种理论的证据。
分布式强化学习是一种基于强化的机器学习。在设计《星际争霸2》或《围棋》等游戏时经常用到。它会跟踪好动作和坏动作的关系,学会减少坏动作的数量,发挥更多的性能。然而,这样的系统不会平等地对待所有好的和坏的行为——每个行为在被记录时都被加权,并且权重是在做出未来行为选择时使用的计算的一部分。
研究人员指出,人类似乎使用类似的策略来提高自己的游戏水平。伦敦的研究人员怀疑,人工智能系统和大脑处理奖励的方式之间的相似之处可能也是相似的。为了确定他们是否正确,他们在老鼠身上做了实验。他们植入了一种能够将单一多巴胺神经元反应植入大脑的装置。然后,这些老鼠被训练去完成一项任务,在这项任务中,它们会得到想要的奖励。
小鼠的神经元反应表明,它们并不都像先前理论预测的那样做出相同的反应。相反,它们以一种可靠而不同的方式做出反应——正如该团队所预测的那样,这表明老鼠体验到的快乐更多的是一种梯度。