GPT-4 等人工智能系统现在可以学习和使用人类语言,但它们从海量的语言输入中学习,远比儿童在学习如何理解和说语言时接受的要多。最好的人工智能系统训练的文本数量达到数万亿字数,而儿童每年只能收到数百万字数的文本。
由于存在巨大的数据差距,研究人员一直怀疑人工智能的最新进展能否告诉我们很多有关人类学习和发展的信息。展示联系的理想测试将涉及训练人工智能模型,不是基于来自网络的大量数据,而是仅基于单个孩子收到的输入。那么模型能够学到什么?
纽约大学的一组研究人员进行了这个精确的实验。他们通过一个孩子的眼睛和耳朵,使用孩子六个月大到两岁生日期间的头戴摄像头视频记录来训练多模式人工智能系统。他们检查了人工智能模型是否可以学习儿童日常经历中存在的单词和概念。
他们的研究结果发表在最新一期的《科学》杂志上,表明该模型或神经网络实际上可以利用孩子经历的有限片段来学习大量的单词和概念。也就是说,视频只捕捉了孩子大约 1% 的清醒时间,但这对于真正的语言学习来说已经足够了。
在这段 视频中,研究人员更详细地描述了他们的工作。
纽约大学数据科学中心和该研究中心的研究科学家 Wai Keen Vong 表示:“我们首次证明,接受来自单个孩子的发展现实输入训练的神经网络可以学会将单词与其视觉对应项联系起来。”论文第一作者。“我们的结果表明,最新的算法进步与孩子的自然体验相结合,有可能重塑我们对早期语言和概念习得的理解。”
“通过使用人工智能模型来研究儿童面临的真正的语言学习问题,我们可以解决关于儿童学习单词需要哪些成分的经典争论——他们是否需要特定于语言的偏见、先天知识,或者只是联想学习来开始学习, ”纽约大学数据科学中心和心理学系助理教授、该论文的资深作者 Brenden Lake 补充道。“看来我们仅仅通过学习就能得到比通常想象的更多的东西。”
Vong、Lake 和他们的纽约大学同事 Wentao Wang 和 Emin Orhan,从 6 个月开始到 25 个月,每周分析通过第一人称视频捕获的孩子的学习过程(通过轻型头戴式摄像机),使用超过60小时的镜头。这段视频包含大约 25 万个单词实例(即所传达的单词数量,其中许多是重复的),这些单词实例与孩子在说出这些单词时所看到的视频帧相关联,并且包括各种不同的活动发展,包括进餐、读书和孩子玩耍。
然后,纽约大学的研究人员训练了一个具有两个独立模块的多模态神经网络:一个模块接收单个视频帧(视觉编码器),另一个模块接收转录的儿童定向语音(语言编码器)。这两个编码器使用一种称为对比学习的算法进行组合和训练,该算法旨在学习有用的输入特征及其跨模式关联。例如,当父母针对孩子说一些话时,所使用的某些词语可能指的是孩子可以看到的东西,这意味着理解是通过链接视觉和语言线索来灌输的。
“这为模型提供了一条线索,告诉我们哪些单词应该与哪些对象相关联,”Vong 解释道。“结合这些线索,对比学习能够逐渐确定哪些单词属于哪些视觉效果,并捕捉孩子学习的第一个单词。”
训练模型后,研究人员使用与测量婴儿单词学习相同的评估方法对其进行了测试——向模型提供目标单词和一系列四个不同的图像选项,并要求它选择与目标单词匹配的图像。他们的结果表明,该模型能够学习孩子日常经历中存在的大量单词和概念。此外,对于模型学到的一些单词,它可以将它们概括为与训练中看到的非常不同的视觉实例,这反映了在实验室测试儿童时也看到的概括的一个方面。