机器人领域已经向前迈了一步,接着又向前迈了一步。最近,一个名叫彩虹Dash的机器人自学了走路。这台四足机器只需要几个小时就能学会前后行走,并在这个过程中左右旋转。
来自谷歌、加州大学伯克利分校和佐治亚理工学院的研究人员在ArXiv印前服务器上发表了一篇论文,描述了一种统计AI技术,即深度强化学习,他们用这种技术产生了这种成就。这很重要,原因有很多。
大多数强化学习部署都是在计算机模拟环境中进行的。然而,彩虹Dash使用这项技术来学习在真实的物理环境中行走。
此外,它可以在没有特殊教学机制的情况下运行,例如人工指令或标记的训练数据。最终,彩虹Dash成功地在许多表面上行走,包括柔软的泡沫床垫和带有明显槽口的门垫。
机器人使用的深度强化学习技术包括机器学习,即代理与环境交互,通过试错进行学习。大多数强化学习用例涉及计算机游戏,其中数字代理学习如何获胜。
这种形式的机器学习明显不同于传统的监督或无监督学习,在传统的监督或无监督学习中,机器学习模型需要经过标记的训练数据来学习。强化学习结合了强化学习和深度学习。传统机器学习的规模随着强大的计算能力而大大扩展。尽管研究团队将彩虹Dash的学习能力归功于自身,但人为干预在实现这一目标的过程中仍然发挥了重要作用。研究人员必须创建机器人可以学习行走的边界,以防止机器人离开该区域。
他们还必须设计特定的算法来防止机器人摔倒,其中一些算法侧重于限制机器人的运动。为了防止坠落伤害等事故,通常在数字环境下进行机器人强化学习,然后将算法转移到物理机器人上,以保持其安全性。
在彩虹冲刺胜利大约一年后,研究人员初步找到了如何让机器人在物理环境中学习,而不是在虚拟的周围环境中学习。
与谷歌毫无关系的斯坦福大学助理教授切尔西芬恩(Chelsea Finn)表示,“从(学习)过程中疏散人员确实很难。通过允许机器人独立学习,机器人将更接近能够学习我们在现实世界中的生活。”