人工智能揭示了大脑如何处理语言
在过去的几年中,人工智能模型的语言变得非常擅长某些任务。最值得注意的是,他们擅长预测下一个单词在一个字符串的文本;这种技术帮助搜索引擎和短信应用预测下一个单词你要的类型。
最新一代的预测语言模型似乎也了解底层语言的意义。这些模型不仅可以预测接下来的话,但似乎还执行任务,需要某种程度的真正理解,如问答、文档总结,完成故事。
这样的模型被设计为特定的函数优化性能预测文本,没有试图模仿怎么人类的大脑执行这个任务或理解语言。但麻省理工学院的神经科学家的一项最新研究表明这些模型的底层功能类似于人类大脑的语言处理中心的功能。
计算机模型,执行在其他类型的语言任务不显示这种相似性,人类的大脑,提供证据表明,人类的大脑可以使用下去预测语言处理。
“更好的模型是预测下一个单词,更适合人类的大脑,”南希•坎维舍表示,沃尔特·a . Rosenblith认知神经科学教授,麻省理工学院的一个成员麦戈文脑研究所和中心的大脑,思想,和机器(CBMM),这项新研究的作者之一。“令人惊奇的模型符合很好,而且非常间接表明,也许人类语言系统所做的是预测接下来会发生什么。”
约书亚Tenenbaum麻省理工学院计算认知科学教授,CBMM和麻省理工学院人工智能实验室的一员(权力);和埃维莉娜Fedorenko,弗雷德里克·a·卡罗尔·j·米德尔顿的职业发展神经科学副教授和麦戈文研究所的一员,这项研究的资深作者,发表在本周美国国家科学院院刊》上。马丁•Schrimpf CBMM的麻省理工学院研究生工作,是论文的第一作者。
做预测
新的、高性能下去预测模型属于一类模型深层神经网络。这些网络包含计算“节点”,形成不同强度的连接,和层相互之间传递信息的方式规定。
在过去的十年中,科学家们利用深神经网络创建模型的视觉识别对象以及灵长类动物大脑。麻省理工学院的研究也表明,底层视觉物体识别模型的函数与组织匹配的灵长类动物视觉皮层,尽管这些计算机模型并没有专门模仿大脑。
在新的研究中,麻省理工学院的研究小组利用类似的方法来比较人类的大脑与语言处理模型语言处理中心。研究人员分析了43个不同的语言模型,包括几个优化下去预测。这些包括模型称为GPT-3(生成Pre-trained变压器3),给出一个提示,可以生成文本类似人类的产生。其他模型被设计用来执行不同的语言任务,如填写一个空白的一个句子中去。
为每个模型提出了一连串的话说,研究人员测量了活动的节点组成的网络。他们将这些模式进行比较,人类大脑的活动,以执行三个语言任务的主题:听故事,阅读句子一次,阅读句子哪一个单词是显示一次。这些人工数据集包括核磁共振(fMRI)数据和颅内electrocorticographic测量人们对癫痫进行脑部手术。
他们发现表现最佳的预测模型下去活动模式与人脑相似。活动在这些模型也高度相关措施,人类行为的措施,例如人们可以多快读课文。
“我们发现模型,预测神经反应也往往最好的预测人类行为反应,形式的阅读时间。然后这两个解释的模型下去性能预测。这个三角形真正连接在一起的一切,”Schrimpf说。
改变游戏规则
预测模型的一个关键计算的特性,如GPT-3向前一个元素称为单向预测变压器。这种变压器能够预测接下来会是什么,根据以往的序列。这个变压器的一个重要特征就是它可以很长,并以此为根据做出推测前上下文(成百上千的单词),不仅最后几句话。
科学家们还没有发现任何大脑回路或学习机制,对应于这种类型的处理,特南鲍姆说。然而,新的研究结果与假设一致,以前提出的预测是在语言处理的一个关键功能,他说。
“语言处理的挑战之一是实时的,”他说。“语言的时候,你必须跟上它,并能够理解它。”
研究人员现在计划构建变体的语言处理模型,看小结构的变化如何影响他们的性能和能力以适应人类神经数据。
“对我来说,这个结果是一个重大转折,“Fedorenko说。“这是完全改变我的研究计划,因为我不会预测,在我的有生之年,我们会对这些计算显式模型捕获足够的关于大脑的,这样我们可以利用他们在理解大脑是如何工作的。”
研究人员还计划把这些高性能的语言模型和一些计算机模型特南鲍姆的实验室之前开发的,可以执行其他任务,比如构建感知物理世界的表征。
“如果我们能够了解这些语言模型,如何连接到模型做更像感知和思考,然后,可以给予我们更多的大脑工作原理的综合模型,”特南鲍姆说。“这可能带我们走向更好的人工智能模型,以及给我们更多的更好的模型大脑工作和一般智力如何出现,比我们过去。”
艾丹•空白博士论文的其他作者。“16和研究生葛丽泰Tuckute,船底座考夫,和Eghbal Hosseini。
进一步探索