识音辩物-通过声音来预测物体的外观及运动

卡内基梅隆大学的研究人员在一项新的研究中声称,声音可以用来预测物体的外观及其运动。研究人员创建了一个“声音动作视觉”数据集和一系列AI算法,以研究音频,视觉和运动之间的相互作用。结果表明,从声音中可以用来预测物体在受到力作用时移动的位置。

尽管视觉是感知的基础,但声音却同样重要。它可以捕获通常通过视觉无法察觉的丰富信息,例如干树叶的质地或香槟酒瓶内的压力。但是很少有系统和算法利用声音作为建立物理理解的工具。这激励了卡内基梅隆大学的研究,该研究试图探索声音与动作之间的协同作用,并发现其中可做出什么样的推断。

研究人员首先通过建立一个机器人 Til-Bot来创建声音动作视觉数据集,该机器人将包括螺丝起子,剪刀,网球,立方体和夹子在内的物体沿任意方向倾斜放在托盘上。物体撞击石膏托盘的薄壁并产生声音,这些声音将被逐一添加到语料库中。

安装在30×30厘米托盘上的四个麦克风(每侧各一个)记录音频,而高架摄像机则捕获RGB和深度信息。Tilt-Bot将每个物体移动了一个小时,并且每次对象与托盘接触时,机器人都会创建一个包含声音、RGB和深度的数据集,并记录物体与墙壁碰撞时的位置。

利用碰撞中的录音,该团队使用了一种方法,使他们能够将录音视为图像。这允许模型捕获来自单个音频通道的时间相关性(即,一个麦克风的录音)以及多个音频通道之间的相关性(来自多个麦克风的录音)。

然后,研究人员利用语料库(其中包含来自60多个物体和托盘之间15,000次碰撞的声音)来训练模型以从音频中识别物体。在第二个更具挑战性的练习中,他们训练了一个模型来预测对看不见的物体执行了哪些操作。第三,他们训练了一种前向预测模型,以在物体被机械臂推动后推断物体的位置。

上图:正向模型预测在此处显示为图像对。左边的图像是交互之前的观察结果,而右边的图像是交互之后的观察结果。基于交互之前的对象地面真相位置(显示为绿色点),对象的音频嵌入和机器人采取的动作(显示为红色箭头),经过训练的正向模型可以预测将来的对象位置(显示为红色)点)。

研究人员称,物体识别模型学会了从声音中预测正确的物体的时间为79.2%,只有在生成的声音太柔和时才会失败。同时,动作预测模型在一组30个以前看不见的物体上实现了0.027的均方误差,比仅使用来自摄像机的图像训练的模型要好42%。而且,前向预测模型在预测物体可能移动的位置时更为准确。

研究人员写道:“在某些领域,例如正向模型学习,我们证明了声音实际上提供的信息多于仅从视觉信息获得的信息。” “我们将公开发布Tilt-Bot的数据集,以此来激发声效领域的未来工作,希望将在机器人技术中找到广泛应用。”

演示视频:https://www.youtube.com/watch?v=CLubmYsZsPM

论文:https://roboticsconference.org/program/papers/2/

相关文章

Leave a Comment