在 即将举行的2020年欧洲计算机视觉欧洲会议上接受的一项 研究中,麻省理工学院和麻省理工学院的IBM Watson AI Lab研究人员描述了一种AI系统— Foley Music —可以从演奏乐器的音乐家的无声视频中产生“合理的”音乐。他们说它可以在各种各样的音乐表演上工作,并且在产生令人愉悦的音乐方面胜过“几个”现有系统。
Foley Music从视频帧中提取人体的2D关键点(总共25个点)和手指(21个点)作为中间视觉表示,用于建模身体和手部动作。对于音乐,系统采用MIDI表示形式,对每个音符的时间和响度进行编码。
给定关键点和MIDI事件(通常约有500个),“图形转换器”模块学习映射功能以将运动与音乐相关联,捕获长期关系以产生手风琴,低音,低音管,大提琴,吉他,钢琴,大号,四弦琴和小提琴夹。