人工智能研究公司OpenAI的程序员最近教了一群智能人工智能(机器人)玩捉迷藏游戏。这并不是因为他们在乎谁赢:目标是观察隐藏者和寻找者之间的竞争如何驱动机器人寻找和使用数字工具。现实生活中玩过游戏的人都很熟悉这个想法。这是一场缩小规模的军备竞赛。当你的对手采取有效策略时,你必须放弃之前的做法,寻找更好的新方案。从象棋到《星际争霸2》,这是统治游戏的规则。这也是一种适应,似乎给了它一种进化优势。
捉迷藏也是如此。即使AI特工没有收到如何玩的明确指令,他们也很快学会了奔跑和追逐。经过数亿次的游戏,他们学会了操纵环境为自己所用。例如,隐藏者学会了建造迷你堡垒并在里面设置路障。作为回应,探索者学会了如何缩放带有斜坡的墙壁并找到隐藏的盒子。
根据OpenAI团队的说法,这些动作显示了AI智能体如何学习如何将周围的事物用作工具。这很重要,不是因为AI需要更好地隐藏和发现,而是因为它提出了一种方法来构建可以解决开放现实问题的AI。
我们没想到会发生[拳击冲浪],但这样做真的很令人兴奋。
艾的鲍文贝克
计算机科学家、视频游戏公司Unity Technologies的AI副总裁丹尼兰格(Danny Lange)表示,“这是一种令人印象深刻的工具使用,工具的使用对于AI系统来说是不可思议的。”找项目。这些系统找到了快速使用工具的方法。想象一下当他们可以使用很多工具或者创造工具的时候。他们会发明梯子吗?"
进一步推论:他们能发明出现实世界中有用的东西吗?最近的研究探索了教AI智能体使用工具的方法,但在大多数方法中,工具使用本身就是目标。捉迷藏实验是不同的:奖励与隐藏和搜索有关,工具的使用一直在发生和发展。
因为游戏是开放的,AI智能体甚至开始以程序员从未想过的方式使用工具。他们预测代理人会隐藏或追逐,并建立堡垒。但是经过足够的竞争,比如说,找球手学会了移动箱子,即使他爬上了箱子。这让他们可以在OpenAI团队的“箱子冲浪”中滑行。虽然算法没有明确禁止在箱子上攀爬,但研究人员从未见过。这种策略具有双重优势,将移动性与灵活盯着墙壁的能力结合起来,并显示出比人类程序员想象的更具创新性的工具用法。