要想发展服务机器人,就要让机器人获得人的能力,重点是解决机器人视觉系统。因为视觉对人很重要,人类获得讯息90% 以上是依靠眼睛的,那么对于机器人,获得信息来说,也是非常重要。
在过去的一年中,围绕着AI(人工智能)的嗡嗡声,一直在非常强劲的增长。我们还从来没有如此接近的观察到这个技术的好处。2016年,将会看到新式的AI(人工智能)的供电设备,因为我们对于人工智能,所面临的最困难的挑战之一,已经取得了进展:让我们的设备,能够了解它们所看到的。
12月3日,谷歌发布了其云视觉API,来执行这些任务,如:识别人脸、标志和文字,探测物体并了解其环境的
应用。一些客户都对这些功能感到非常兴奋,在市场上其它企业也正在寻找类似的一种服务,为使其适应其业务模式。
为什么一个机器人需要去看呢? Vision(视觉)在我们的生活中,是非常有意义的,而且也是主要媒介之一。为了使机器人能够与人类进行相处,以及提供给我们所需要的服务等。当务之急就是它们可以观察,并且能够根据自己视觉所观察到的东西,来引导自己的行为。这可能是一个小摄像头的形式,可以帮助盲人去“看”和感受环绕他们周围的世界。或者是一个家庭监控系统,该系统能够正确识别一群流浪猫之间的差异,或者移动树枝,和一个防盗的形式。
在我们的日常生活中,由于设备逐渐成为我们不可分割的一部分,我们已经看到如果没有足够的视觉能力,越来越多的应用程序将走向失败,其中包括空中无人机碰撞和机器人吸尘器“吃”了它们本不应该吃的东西。
机器人视觉,作为AI(人工智能)一个快速增长的分支,目的是能够给机器人与我们自己相当的视觉,在过去几年中,由于研究人员运用专门的神经网络,以帮助机器人识别和理解来自现实世界的图像,机器人视觉已经取得了巨大的进步。2012年是一个开始的起点,虽然电脑现在能够做一切,从在互联网中识别猫,到能够在一组照片中,识别特定的面孔,但仍然有很长的路要走。今天,我们看到机器视觉能够离开数据中心,并适用于一切从自主无人机到机器人身上,可以整理我们的食物。
为了更好的了解机器人视觉,一个常见的类比,机器人视觉与人类自己的视觉,就好比天空中飞行的鸟类与飞机。两者最终都将依赖于基础物理学(如伯努利原理),来帮助它们飞入到高空中,但是,这并不意味着飞机将要扇动它的翅膀进行飞翔。只是因为人与机器可能会看到同样的东西,并且对这些图像进行解释的方式,甚至可能有一定的共性,最后的结果仍然可能是具有很大的不同。
虽然基本的图像分类已经变得更加容易,但是,当它涉及到从抽象的场景中提取意义和信息时,机器人就面临着一系列新的问题。错觉就是一个很好的例子,机器人视觉仍然还有很长的路要走。
每个人可能都熟悉两个剪影彼此面对,所产生经典的错觉。当一个人看着这个图像时,他们不限于只看到抽象的形状。他们的大脑中插入更多的背景,使他们能够识别图像的多个部分,看到两副面孔或一个花瓶,其实所有的都来自相同的图像。
当我们通过一个分类,就能够管理这些相同的图像(你可以在互联网上找到一些免费的),我们很快就意识到,对于一台机器来说,要理解这些复杂的东西,这是多么困难的。一个基本的分类,并没有看到两副面孔或一个花瓶,而是看到另外的一些东西,像一把斧头、钩子、防弹背心,甚至是一把木吉他。虽然该系统是公认的不确定性,在这些图像中,实际上任何东西都有可能产生,它显示了多么大的挑战性,人类尚且看不太懂,更不要说是机器人了。
如果我们看到一些更复杂的东西,这个问题甚至会变得更加困难,比如Beverly Doolittle(富康杜利特尔)的一幅画,虽然看到这个图的每个人,可能不能够发现,其实每个人的脸都在这块画布上,他们几乎立即看到,比映入他们眼帘更多的
图片。
为了理解为什么这是如此大的挑战,你需要考虑,为什么视觉是如此的复杂。就像这些图像一样,世界其实是一个非常混乱的地方。浏览世界,并没有像构建一个算法,然后通过数据进行分析这么简单,它要求我们需要根据实际的情况,我们能够采取相应的行动经验,并且需要进行深入的理解。
机器人和无人驾驶飞机面对这些无数的障碍,可能是超出常规的,并且找出如何克服这些挑战的方法,是那些希望能够实现人工智能革命的人,需要解决的一大问题。
随着连续采用这些技术,如神经网络和专用机器视觉硬件,我们正在迅速缩小人类和机器视觉之间的差距。在将来的某一天,我们甚至开始看到机器人的视觉能力,可能会超越我们自己,使它们能够完成许多复杂的任务,并且我们的社会将会完全自主运作。