作为多伦多大学教授,Geoffrey Hinton于2012年10月将AI领域的发展推向了新的轨道。在两名研究生的帮助下,Hinton展示了一种不太流行的技术——人工神经网络。Hinton已经在这个领域研究积累了数十年,人工神经网络使得机器能够理解图像的能力有了巨大飞跃。
如今,人工神经网络已经可以转录我们的演讲、识别我们的宠物,并帮助我们与“网络巨魔”作斗争。但Hinton现在却对这种他帮助推出的技术发起挑战,他说:“我认为我们研究计算机视觉的方式是错误的。虽然它现在比其他任何东西都管用,但这并不意味着它是正确的。”
Hinton现在分享了他的另一个“旧想法”,这可能会改变电脑“观看”的方式,并重塑AI。计算机视觉非常重要,对于无人驾驶汽车或充当医生的软件来说更是如此。上周,Hinton发表了两篇研究论文,阐述了他已经研究了近40年的一个想法。他说:“在很长一段时间里,这对我来说都是一种直觉感觉,只是效果不太好。现在,我们终于取得了进展。”
Hinton的新方法被称为“胶囊网络”(capsule networks),它是神经网络的变体,目的是让机器更好地通过图像或视频来了解世界。Hinton在第一篇论文中称,Capsule网络的准确性可与此前标准测试中的最好成绩相媲美,即软件学会如何识别手写数字。在第二种情况下,Capsule网络几乎将之前最好测试的错误率降低了一半,这种测试挑战软件从不同角度识别卡车和汽车等玩具的难度。Hinton始终在与谷歌派驻在多伦多的两名同事共同研究他的新技术。
Capsule网络旨在弥补当今机器学习系统的缺陷,这些缺陷限制了它们的有效性。谷歌和其他公司今天使用的图像识别软件需要大量的示例照片来学习,包括如何在各种情况下可靠地识别对象。这是因为该软件并不擅长将其对新场景知识进行泛化,例如从新的视角观看相同的对象时,准确地将其识别出来。举例来说,教电脑从多个角度识别一只猫,可能需要成千上万张不同角度的照片。而人类孩童不需要如此明确和广泛的训练,就可以学会识别一只家养宠物。
Hinton的想法是缩小最好AI系统和普通幼儿之间的认知鸿沟,以便在计算机视觉软件中建立更多的知识。Capsule(少量粗糙的虚拟神经元)被设计用来追踪物体的不同部位,比如猫的鼻子和耳朵,以及它们在空间中的相对位置。由许多Capsule组成的网络可以利用这种方式来加强理解,明白从不同视角看到的物品依然是此前相同的对象。
Hinton已经形成了他的“直觉”,他在1979年认为视觉系统需要这样一种内在的几何意义,当时他试图弄清楚人类是如何使用心理意象的。Hinton在2011年首次提出了Capsule网络的初步设计,并于上周公布了更全面的设计,这是该领域研究人员长期以来所期待的。纽约大学图像识别教授Kyunghyun Cho表示:“每个人都在等待它,并期待着杰夫的下一个伟大飞跃。”
现在就说Hinton取得了“大跃进”还为时过早,他自己也知道这一点。这位经验丰富的AI专家的直觉已经得到了证据支持,他解释说Capsule网络仍然需要大量图像支持,并且当前的系统与现有图像识别软件相比速度更慢。但Hinton非常乐观,他自信可以解决这些缺点。该领域的其他人也对他的长期成熟想法抱有很大希望。
图像识别初创公司Twenty Billion Neurons联合创始人、蒙特利尔大学教授罗兰·梅尼塞维奇(Roland Memisevic)说,与当前系统相比,Hinton的基本设计应该能够从数据中提取出更多信息。如果能够在更大范围证明这一点,那将会对医疗保健等领域有所帮助。在这些领域,用于培训AI系统的图像数据远比互联网上的自拍照更少。
从某些方面来说,Capsule网络与AI研究最近的趋势有所不同。最近对神经网络成功的一种解释是,人类应该把尽可能少的知识编码到AI软件中,然后让它们自己从头开始计算。纽约大学心理学教授加里·马库斯(Gary Marcus)去年曾向叫车服务公司Uber出售了一家AI初创公司,他说,Hinton的最新研究代表了一种新的可能。马库斯认为,AI研究人员应该做更多的事情来模拟大脑的内在机制,来学习像视觉和语言这样的关键技能。他说:“现在还不知道这个特定的架构会走多远,但看着Hinton打破这个领域的惯例,感觉非常棒!”