很多文章的报道都是由微观而宏观,今日小编讲给大家带来的关于Google使用人体模型挑战赛视频了解深度感知的资讯也不例外,希翼可以在一定的程度上开阔你们的视野!y有对Google使用人体模型挑战赛视频了解深度感知这篇文章感兴趣的小伙伴可以一起来看看
Google AI Research发表了一篇论文,描述了他们从二维图像进行深度感知的工作。研究人员使用从“人体模型挑战”的YouTube视频创建的训练数据集,训练了一个神经网络,该神经网络可以从移动的人的视频(由移动的摄像机拍摄)中重建深度信息。
计算机视觉中的常见问题是从二维图像重建三维信息。此过程的输出是“深度图”,其中原始2D图像RGB像素值覆盖有一组值,这些值表示从摄像机到代表像素的光所发生的点的距离。它具有许多现实世界的应用程序,包括增强现实(AR)或机器人导航。
一类称为RGB-D传感器的传感器,例如Kinect可以直接将深度数据与2D RGB图像一起输出。通常仅通过RGB三角测量就可以仅由RGB图像数据构建深度图,可以使用多个摄像机(类似于基于多只眼睛的自然视觉系统),也可以使用单个移动摄像机。
单个移动摄像机方法通过使用延续帧之间的视差来工作,但是当场景中的对象也在移动时,效果不佳。对于许多应用程序,尤其是移动电话上的AR,必须使用单个摄像机进行准确的深度重建。
尤其是Google的研究人员对利用包括人在内的许多移动物体的图像进行深度重建感兴趣。这些场景更具挑战性,因为人体不仅会移动:它们身体的各个部分都相对移动,有效地改变相机图像中人的形状以及每个身体部位的相对深度。
为了解决机器学习中的这一问题,研究人员需要使用移动摄像机拍摄的包含人的视频大数据集。华盛顿大学的一个团队使用视频游戏创建的数据集将足球比赛的2D视频转换为3D,但这限制了他们的系统只能在足球比赛中使用。
进入人体模型挑战赛(MC),这是一个网络模因,当摄影者在现场拍摄视频时,人们以固定的姿势假装人体模型。由于摄像机正在移动,并且场景的其余部分是静态的,因此视差方法可以轻松地以各种姿势重建准确的人物深度图。研究人员处理了大约2,000个YouTube MC视频,以生成“ 4,690个序列的数据集,总共有170,000多个有效图像深度对”。
给定此数据集,团队进一步对其进行了处理,以创建对深度神经网络(DNN)的输入。对于给定的帧,比较前一帧的视差,以获得初始深度图。输入帧也使用检测人类的视觉系统进行了细分。这创建了一个人类面具,用于清除发现人类的区域中的初始深度图。学习系统的目标是从MC视频计算得出的输入图像的已知深度图。DNN学习了如何猎取输入图像,初始深度图和人类蒙版,并输出“精确的”深度图,在其中填充了人类的深度值。
谷歌建议该技术可能有多种应用,包括“可感知3D的视频效果(例如合成散焦)”。Reddit上的评论者建议使用一种手机应用程序,将深度转换为声音,“以帮助盲人导航”。