人类利用对物质世界的隐式理解来预测物体的运动,并推断它们之间的相互作用。举个例子,如果你看到三个显示倾倒的罐子的画面,第一个画面是罐子整齐地堆叠在一起,第二个画面是手指放在堆放好的罐子的底部,第三个画面是罐子倾倒了,那么,你很有可能会认为这个手指是造成罐子倾倒的原因。
机器人努力实现这些逻辑上的飞跃。但在麻省理工学院计算机科学与人工智能实验室的一篇论文中,研究人员描述了一个称为时间关系网络(TRN)的系统--它基本上学习了物体是如何随时间变化的。
这个团队并不是第一个这样做的人,有很多公司都在研究工智能辅助时空建模,百度和谷歌也不例外。但麻省理工学院的团队声称较之以前的方法,他们的方法在既有准确性,又有效率。
感兴趣的话,可以点进链接查看跟踪物体的动图
这篇论文的主要作者Bolei Zhou告诉《麻省理工学院新闻》:“我们建立了一个人工智能系统来识别物体的变形,而不是物体的外观。这个系统不会检查所有的帧,而是拾取关键帧,使用帧的时间关系来识别正在发生的事情。这提高了系统的效率,使其准确实时地运行。”
研究人员在三个数据集的基础上训练了卷积神经网络--一类非常擅长分析视觉图像的机器学习模型:TwentyBN的Something-Something,包含174个动作类别中的2万多个
视频;Jester包含具有27个手势的15万个
视频;卡内基梅隆大学的Charades,包括157个分类活动的1万个视频。
然后,他们将网络与视频文件结合,通过按组排序帧进行处理,并设定屏幕上的物体与学习活动相匹配的概率,比如例如撕开一张纸或举手。
那么,这是怎么做到的?由于信息量有限,这个模型设法达到了Jester数据集的95%准确率,并且在预测活动方面优于现有的模型。那怎么办?在处理了25%的视频帧后,这个模型超越了基线,甚至设法区分了“假装打开书”和“打开书本”等行为。
在未来的研究中,这个团队打算通过实现物体识别和添加“直观物理”来改进模型的复杂性--即,理解物体在真实世界中所具有的属性。
Zhou说:“因为我们知道这些视频中的很多物理知识,我们可以训练模块来学习这些物理定律,并用它来识别新的视频。我们还开放所有源代码和模型。对人工智能来说,活动理解是一块令人兴奋的发展领域。”