Google近日发布了全新的移动端3D识别方案Objectron,该方案可在2D图像中发现物体并通过AI模型估算其位置、方向和尺寸。Google表示,Objectron对
机器人技术、自动驾驶汽车、图像检索和AR技术影响深远,例如,其可以帮助工厂车间的机器人实时规避障碍。
目前,跟踪3D对象是一个棘手的问题,尤其是在处理有限的计算资源时。由于缺乏数据以及物体的外观和形状的多样性,当仅有的可用图像为2D时,情况会变得更糟。
为此,Objectron研发团队开发了一种
图片标记工具,该工具可以通过分屏视角显示2D
视频帧,支持标记者使用分屏视图显示2D
视频帧来标记对象的3D边界框(即矩形边框)。这些3D边界框将叠加在点云数据、摄像头画面和识别到的平面上。
标记者在3D视图中标记3D边界框后,可以在2D视频帧中进行验证,而对于静态图像,标记者只需在单个帧中标记目标对象即可。标记工具还使用AR session数据中的实际摄像头信息来确定该物体在所有帧中的位置。
为了补充现实世界中的数据以提高AI模型预测的准确性,Google研发团队开发了一种引擎,将虚拟对象放置到包含AR会话数据的场景中,这样就可以使用摄像机图像检测到的平面区以及预测的光线,来生成与场景匹配的光照在物理中的位置,从而产生高质量的合成数据。在验证测试中,综合数据的准确性提高了约10%。