近日,me
ta AI发布了一项新的研究成果:基于开放知识的机器人框架OK-Robot。代码即将开源。
OK-Robot是一个开放知识机器人系统,它集成了各种在公开数据上训练的学习模型,在现实环境中挑选和丢弃物体。
在实验中,OK-Robot无需预训练,在10个真实家庭环境中测试表现出色,为机器人在家庭环境中的实际
应用带来了新的可能。
项目网站:mahi cs.nyu.edu
论文链接:https://arxiv.org/pdf/2401.12202.pdf
近年来,视觉、语言和机器人技术等领域取得了显著进展:能够基于语言查询识别物体的视觉模型,能够有效控制移动系统的导航系统,以及可以处理各种物体的抓取模型,但机器人技术的通用应用仍然落后。
因此,团队采用了一种系统优先的方法开发了一个新的基于开放知识的机器人框架——OK-Robot。在这里,开放知识指的是在大型的、公开可用的数据集上训练的学习模型。
通过将用于物体检测的视觉语言模型(VLM)、用于运动的导航基元和用于对象操作的抓取基元相结合,OK-Robot无需任何培训即可为拾取和放下操作提供集成解决方案。
为了评估其性能,团队在10个真实世界的家庭环境中运行OK-Robot。结果表明,OK-Robot在开放式拾取和丢弃任务中取得了58.5%的成功率,代表了开放词汇移动操作(OVMM)的新水平,其性能几乎是先前工作的1.8倍。而在更干净、整洁的环境中,OK-Robot的性能提高到82%。然而,从OK-Robot获得的最重要的见解是,在将VLM等开放式知识系统与机器人模块相结合时,细微的细节起着关键作用。
通过实验,他们得出了以下结论:
预先训练的视觉语言模型对开放词汇导航非常有效:当前的开放词汇视觉语言模型,如CLIP或OWL-ViT,在现实世界中识别任意对象方面性能出色,并能以零样本的方式导航、找到这些物体。
预先训练好的抓取模型可直接应用于移动操控:与VLM类似,根据大量数据预先训练的特殊机器人模型可以直接应用于家庭中的开放词汇抓取。这些机器人模型不需要任何额外的训练或微调。
组件如何组合至关重要:给定预先训练的模型,可以使用一个简单的状态机模型与不进行训练的情况组合。使用启发式方法来抵消机器人的物理限制,在现实世界中成功率更高。
这两年,机器人做家务已屡见不鲜。从会炒菜的Mobile ALOHA、李飞飞的NOIR系统,再到做咖啡的Figure 01,虽然还不完善,但这些机器人技术的出现和进步使我们看到了机器人在家用市场的超级可能。
这种家用机器人为什么还没有走进千家万户呢?首先,它们做起事情来并不够灵活,做不到下楼梯、开酒瓶等工作。另外,家庭房屋建筑样式繁琐,它们没有足够的智力去知道该怎么收拾。更现实的问题是,这种家用机器人往往价格不菲。
可能在我们看来,机器人做家务比在工厂里简单很多,但是,机器人毕竟只是机器,工厂里的机械动作并不麻烦,琐碎的家务才是最大的挑战。制造一辆汽车对它来说可能不是大事,但简简单单铺个床它却做不了。因此我们说,在人性化的角度上,机器人永远追不上人。
但是,随着技术的进步,家用机器人的普及是一件必然的事情,或许未来有一天,我们能够享受到这种人性化的来自机器人的家政服务。