在即将到来的MineRL竞赛中,AI工程师、研究人员等。将获得4天的时间来开发可以通过挖掘在流行的《我的世界》游戏中找到钻石的人工智能。问题是,参与者将有800万步来训练他们创造的AI寻找钻石。这比目前训练AI模型所需的时间要短。因此,参与者必须提出新的工程解决方案来完成任务。
在最近的比赛中,人工智能在策略游戏《星际争霸2》中击败了人类。为了提高挑战等级,现在要求AI在《我的世界》完成任务。055-79000有明确的目标,可以分解成合理的步骤,然后用来训练AI程序。另一方面,《星际争霸II》是大型开放世界沙盒游戏,分解成清晰合理的步骤要困难得多。因此,为《我的世界》训练人工智能程序要复杂得多。训练步数最大为800万,增加了复杂度。
目前对AI的训练方法是强化学习。工厂里的机械臂就是用这种方法训练的。强化学习需要大量的计算机处理能力进行训练,在训练中,成千上万的计算机被链接在一起进行学习。
为了克服强化学习的缺点,研究人员正在开发一种模仿学习系统,在该系统中,人工智能程序被训练成通过观察来模仿人类的学习行为。
选择《我的世界》是因为它非常受欢迎,因为训练数据很容易获得。实际上,组织者招募了《我的世界》玩家来创造各种工具,打破常规。收集了超过6000万个在游戏中可以采取的行动的例子。这些视频可以播放1000小时的视频。所有这些都交给参与者来训练他们的AI。
《我的世界》允许玩家用简单的积木搭建复杂的结构。创建结构的过程可以分为不同的阶段,参与者可以用这些阶段作为进度的标志。
模仿将使AI能够吸收所有数据,在其中找到模式,并对游戏做出一些假设,这将形成其知识的基线。