热搜： 机器人发那科机器人工业开云电竞官网下载app 上海机器 ABB机器人展会自动化广州

首页 > 专题 > 行业专题

图普科技工程师：Mask R-CNN的理论创新会带来怎样的可能性？

日期：2017-04-01 来源：雷锋网作者：LLY 评论：0

标签：

　　Facebook 实验室出炉的新论文《Mask R-CNN》，第一作者何恺明带领团队提出了一种名为「Mask R-CNN」的目标实例分割框架。研究显示，该框架相比传统的操作方法更佳简单灵活。

　　如果对物体识别和分割技术有所了解的读者们，可能对这个流程并不陌生。传统的物体识别和图像语义分割技术目前集中于运用 Fast/Faster R－CNN 和全卷积网络（FCN）框架等方法，上述概念的优点非常明显：

　　1. 直观

　　2. 训练和推断速度快

　　3. 灵活性和鲁棒性好

　　不过在此前文章中提及的一样，目标分割的难点在于涉及两个任务：

　　1. 用物体识别技术识别物体，并用边界框表示出物体边界；

　　2. 用语义分割给像素分类，但不区分不同的对象实例。

　　「本篇论文的创新点在于作者在 Faster R-CNN 的基础上，只增加了一条对计算资源要求很小的分支，就把原来只用在物体检测任务上的技术应用到物体分割技术上。」

　　图普科技工程师：Mask R-CNN的理论创新会带来怎样的可能性？

　　Mask R-CNN 框架

　　Mask R-CNN 作为 Faster R-CNN 的扩展形式，主要的任务流程如下：

　　1. 首先检测出图片中可能存在物体的区间，得到多个候选框；

　　2. 用一条子神经网络分支预测：

　　每个框内的物体类别

　　物体在候选框里的矩形范围（横坐标纵坐标，宽，高）

　　3. 用另外一条神经网络分支对每个候选框预测候选框中哪些像素是属于该物体的。

　　那么，这样的改进能够起到怎样的作用呢？好处自然非常明显。

　　首先是适用性强。Mask R-CNN 的框架非常通用灵活，只需要经过少量修改，便能够推广到很多的任务上。

　　其次是更好地利用不同任务的监督数据。图普科技工程师表示，「以前是检测任务只能利用检测的数据，分割任务只能利用到分割的数据，现在 Mask R-CNN 能同时用上检测，分割等数据，同时训练检测，分割等任务，」AI 科技评论从论文的实验中了解到，任务都能达到业界标杆的效果。

　　在论文中，Mask R-CNN 在 COCO 数据集上表现良好，具体实验结果可以参考AI科技评论的此前文章。那么它是否能延展到更大的范围呢？图普科技工程师对此则一分为二地看待，他认为短期内在个人领域还无法看到直接应用，不过在云端厂商和科研工作上，由于它良好的表现性能和实用性，的确可以在很多地方获得大规模应用。

　　既然是 Facebook 研究院提出的新成果，根据图普科技工程师的设想，可能会有以下三个方向：

　　首先是图片自动打标签的功能。基于 Facebook 的社交属性，它识别人脸的能力已经越来越强，但「读懂图片」的能力还在不断探索中。Mask R-CNN 兼具物体识别并用语义分割给像素分类的能力，的确很有可能先在自家的社交网络上获得大范围应用。

　　其次是 AR 技术。比如说，在镜头中的沙发上显示一个 3D 虚拟美女，那么如何判断沙发的位置和角度，并据此调整美女的坐姿，如果要做到「毫无违和感」，同样需要对图像的边界进行界定。

　　还有一点是 VR 技术。「在游戏领域，可以采用 Mask R-CNN 精确捕捉人的动作，让玩家在能在虚拟世界自由扮演角色。」

　　虽然现在讨论应用还有些早，不过 AI 科技评论依然期待 FAIR 在未来能有更多的理论创新，并能够早日应用于我们的生活当中。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多>相关专题

0 条相关评论

推荐图文

机器人竞选市长，是时	每日新闻迎来大批裁员
售价近3万元的鼓掌机	“来自星星”的机器人

推荐专题

点击排行

731台湾福裕FSG--12 16 20 ADIII全自动平面磨床