首页 手机 > 正文

这项技术可以让AI更容易理解视频

来自麻省理工学院和IBM的团队开发了一种算法,可以准确识别视频中的动作,同时消耗以前所需的少量处理能力,从而使改变将AI应用于大量视频的经济性成为可能。这种方法采用了用于处理静态图像的人工智能方法,从而为它提供了一个经过时间的粗略概念。

这项工作朝着让人工智能识别视频中发生的事情迈出了一步,可能有助于驯服现在产生的大量信息。仅在YouTube上,2019年5月每分钟就有超过500小时的视频被上传。

该公司希望利用AI自动生成视频的详细描述,以便用户可以找到未评论的剪辑。当然,他们会根据视频中的内容来销售广告。也许当有人开始直播比赛时,他们会立即显示网球场。脸书和谷歌也希望利用人工智能自动发现和过滤非法或恶意内容,尽管这可能证明猫和老鼠在玩游戏。在不显著增加人工智能碳足迹的情况下完成这一切将是一个挑战。

科技公司喜欢炫耀他们对AI的使用,但用于分析视频的仍然不多。YouTube、脸书和抖音使用机器学习算法来分类和推荐剪辑,但它们似乎主要依赖于与视频相关的元数据,如描述、标签以及上传时间和位置。大家都在研究分析视频内容的方法,但是这些方法需要更多的计算机功能。

麻省理工学院助理教授宋寒说,“对视频的理解是如此重要。”“但是计算量太高了。”

AI算法消耗的能量也在以惊人的速度增加。根据一些估计,尖端人工智能实验的计算机容量大约每三个半月翻一番。7月,艾伦人工智能研究所的研究人员呼吁他们发布关于其算法能效的详细信息,以帮助解决这一迫在眉睫的环境问题。

这一点尤其重要,因为公司使用人工智能来分析视频。近年来,图像识别取得了巨大的进步,这在很大程度上得益于深度学习(一种从复杂数据中提取意义的统计技术)。深度学习算法可以基于图像中显示的像素来检测对象。

但是深度学习不擅长解释视频。除非将视频帧与之前和之后的视频帧进行比较,否则分析视频帧不会显示正在发生什么。例如,开门的人可能正在开门或关门。尽管脸书的研究人员在2015年开发了一种具有时变特征的深度学习版本,但这种方法相对笨拙。

根据韩的估计,训练深度学习算法将视频解释为静止图像可能需要50倍的数据和8倍的处理能力。

韩和两位同事开发了一个名为“时间转换模块”的解决方案。传统的用于视频识别的深度学习算法可以一次对多个视频帧执行3D操作(称为卷积)。韩的方法使用更有效的2D算法,这是更常用于静态图像。时移模块提供了一种方式来捕捉一帧中的像素与下一帧中的像素之间的关系,而无需执行完整的3D操作。当2D算法依次处理每一帧,同时合并来自相邻帧的信息时,它可以实现事物随时间展开的感觉,从而可以检测到显示的动作。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。