玩电子游戏的神经网络展示了关于人类大脑的什么
当你开车的时候,你的大脑会接收大量的视觉信息,并利用这些信息来做出驾驶决策,比如什么时候刹车或变道。大脑需要确定在你的视野中哪些信息是做出这些决定所必需的。例如,另一辆车的位置非常重要,但天空中的云或那辆车的颜色并不会真正影响你驾驶的方式。
这是在复杂的自然环境中做出决策的一个日常例子。在这种有大量感官数据和需要快速做出决定的情况下,大脑在做什么?为了研究这个问题和相关问题,研究人员可以使用我们日常生活中的模拟实验:电子游戏。
加州理工学院的一项新研究比较了人们玩经典雅达利电子游戏和玩复杂电子游戏的大脑扫描结果人工智能(AI)网络被训练来玩同样的游戏。在研究生洛根·克罗斯的带领下,研究人员将训练过的人工智能的行为与人类的行为进行了比较,发现人工智能中人工“神经元”的活动看起来非常相似人类的大脑.这意味着AI代理可能会像人脑一样解决这些决策任务,使其成为研究人脑如何将高维视觉输入映射到复杂环境中的行动的良好模型。
这项研究是在心理学教授John O’doherty的实验室进行的。一篇描述这项研究的论文发表在该杂志上神经元12月15日。O'Doherty是加州理工学院天桥和Chrissy Chen神经科学研究所的附属教员。
“人工智能和神经科学之间的相互作用是双向的,”O'Doherty说。“如果我们能发现人工智能算法与大脑有多相似,这有助于我们更好地理解大脑如何解决这类难题,但相反,如果我们能理解大脑为什么以及如何比人工智能更有效地解决这些游戏,这可能有助于指导未来更智能、更像人类的人工智能算法的开发。”
在决策神经科学领域,这是检验方法神经活动在大脑中产生决策,许多研究使用简单的任务来检查人类如何做出决策。例如,一名研究参与者可能被要求玩两种不同回报的老虎机。在实验过程中,参与者将了解哪个老虎机赚的钱更多,并相应地调整他们的行为。解决这些任务的一般学习框架被称为强化学习,因为决策产生的奖励结果会强化行为。
然而,单独的强化学习框架并不能充分描述更大和更复杂任务中的决策。2015年,谷歌旗下的人工智能公司DeepMind开发了一种复杂的人工智能算法,称为深度Q网络(Deep Q Network, DQN),可以学会以人类或超人的水平玩数十款雅达利电子游戏。
DQN结合了经典的强化学习框架和另一个最近的进步,称为卷积神经网络。卷积神经网络作为一个感知系统,学习检测雅达利像素空间(游戏屏幕)中的视觉特征,这些特征预测奖励(得分)。这使得DQN能够通过观察游戏中的像素来学习在给定的情况下采取哪些行动。重要的是,游戏规则并没有编程到DQN代理中;它必须通过尝试和错误来学习如何玩游戏,因为当智能体得分时(以及导致得分的行动),好的决策会得到积极的强化。
在这项研究中,DQN在雅达利电子游戏《Pong》、《太空入侵者》和《Enduro》(一款赛车游戏)上进行了训练,然后它的人造神经元被用来预测人类参与者在玩游戏时的行为和大脑活动,这些神经元来自功能性磁共振成像脑部扫描。特别是,研究人员发现,大脑中两个与感知和视觉有关的区域的活动,即背侧视觉通路和前视通道后顶叶皮层,可以使用DQN特征建模。
在所有的游戏中,DQN必须学会如何从大量的视觉输入中挑选出相关的特征,就像人类一样。它必须在所谓的状态空间中格式化这些相关信息,这是一种紧凑的方式来表示当前游戏状态中正在发生的事情。例如,在《Pong》中,研究人员发现DQN中的状态空间编码了球和球拍的空间位置;它忽略了背景颜色和屏幕顶部的游戏分数等功能。这与人类大脑在背侧视觉通路中表现游戏的方式非常相似,背侧视觉通路是大脑中识别物体在空间中的位置,从而指导与这些物体相关的行动的部分。
在游戏《Enduro》中,玩家尽可能快地驾驶汽车,并试图避开其他汽车。在开车的过程中,天空的颜色会随着白天和夜晚的变化而变化。玩游戏的人很容易忽略这些参数,因为它们与实际游戏无关,就像我们开车时忽略天空中的云一样。但是人工智能网络必须知道天空的颜色变化对驾驶没有影响。
研究人员发现,DQN中忽略了这些不相关的视觉特征的特征,更好地解释了在玩游戏的志愿者的后顶叶皮层中看到的大脑活动模式,后顶叶皮层是大脑中连接知觉和运动的部分。在《太空入侵者》中也发现了类似的结果。
虽然研究人员发现了DQN和人脑之间的相似之处,但两者并不完全相同。
克罗斯说:“DQN需要连续玩几天才能学会玩这些游戏,但人类可以在几分钟内学会。”“为什么人类大脑在驾驶汽车时很容易弄清楚相关特征,而人工智能却很难?”回答这个问题对人工智能研究人员来说是一个巨大的挑战。这对人工智能来说很难,因为随着背景颜色的变化,它的视觉输入会发生巨大变化,因为它只是“看到”像素空间中的数字。DQN需要进行大量的训练,才能了解在像素空间中存在巨大差异的两种情况实际上在概念上是相似的,就你应该做什么而言。”
另一方面,克罗斯补充说,人类的大脑在其发展过程中一直在学习为日常任务挑选出最重要的信息。他说:“特别是背部视觉通路,这是我们主要感兴趣的区域,能够快速定位物体,而不依赖于它们的颜色。”“此外,大脑以某种方式编码了物理学的常识性概念以及物体通常是如何移动的,这使得人类只需很少的训练就能很好地完成各种各样的任务。所有这些都需要DQN从头开始学习。”
近年来,其他研究发现了大脑和深度神经网络之间的相似之处,但这些研究大多集中在物体识别上,而不是主动决策。这项研究引入了一个新的框架,用于研究复杂决策任务中的行为和大脑活动,这些任务可能比以前在该领域使用的任务更能代表日常生活。
这篇论文的标题是“使用深度强化学习来揭示如何大脑编码高维环境中的抽象状态空间表示。”
进一步探索
用户评论