社交巨人Facebook上周公布了多项人工智能计划。公司的人工智能实验室负责人Yann LeCun介绍了这些技术能做哪些工作。
问:你现在面临的最大挑战是什么?
Yann LeCun:最大的挑战是无监督学习:机器具备的一种仅仅通过观察世界就能获取常识的能力。但我们目前还没有拥有这种算法。
问:人工智能研究者为何会要关心常识和无监督学习?
Yann LeCun:因为人类和动物使用的最多的就是这种学习方式。我们几乎所有的学习方式都是无监督的。我们通过观察和亲身体验来了解这个世界的运作方式,而并不需要其他人我们每一件事物的名称。因此,我们如何才能赋予机器那种像人类和动物一样的无监督学习方式?
问:上周,Facebook发布了一套能够读懂照片中发生的事情并回答简单问题的系统。它是通过开发者添加的标签来训练的吗?
Yann LeCun:它将人工注释以及人工生成的问题和答案整合在了一起。
图片要么已经包含了图片中所有物体的列表或是对于对图片本身的各种描述。从这些列表和描述中,我们能够产生出关于图片中物体的问题和答案,然后当你询问问题时,再用答案就训练这个系统。这就是它全部的训练原理。
问:你们的人工智能系统是否会被一些特定类型的问题所困扰?
Yann LeCun:是的,如果你的问题都是一些概念性的东西,那这个系统的表现就不会很好。系统是被通过一些特定类型的问题来训练的,比如说(图片中)物体的存在与否、不同物体之间的关系,等等,但还有很多事情这个系统无法完成,它还不够完美。
问:这个系统可以被用于Facebook或者Instagram上来自动为图片加上标题?
Yann LeCun:为图片加标题需要的方法与这个有些细微差异,但它们是相似的。当然,这对于那些视力受损的Facebook用户非常有用。或者说,当你在开车时收到你朋友发来的图片,这时你不要低头看手机,而只需要问一句“照片中有什么?”系统马上就会告诉你这张照片的类型,是户外还是室内,是否有落日等其他什么东西。然后系统会将它在照片中发现的东西做成一个列表给你,但这些都不成语句,只是一个多个单词组成的列表。
问:系统能知道这些物体之间的关系吗?
Yann LeCun:可以,我们一直在实验室研发的下一代产品更像是“散文”(指能形成连贯语句,而非单纯的词汇列表)。
问:这些人工神经网络还有什么其他潜在
应用吗?
Yann LeCun:它可以用在生物和基因领域,将会产生很多有趣的成果。例如,多伦多大学的Brendan Frey已经展示了,你可以训练一个深度学习系统去模拟读取DNA和合成蛋白质的生化机理。通过这种方式,你就能弄清楚一些基因改变和某些特定疾病之间的关联。这种关联很复杂,可能涉及不止一种基因突变,而是很多突变的集合。而拥有了这样的技术则会有力地推进医疗行业的发展。
问:是否有些问题是深度学习或者你使用的卷积神经网络所无法解决的?
Yann LeCun:如今虽然还有很多事情我们无法做到,但是对于日新月异的科技发展,谁又能说的准呢?比如,如果你在10年前问我,“我们可以将卷积神经网络或者深度学习用于人脸识别吗?”我当时的回复可能是,这根本就不可行。但后来它们在这方面表现的非常出色。
问:当时你为何认为神经网络无法做到那一点(人脸识别)?
Yann LeCun:当时的神经网络在识别普通类别方面非常擅长。比如说它知道这是一辆车,但它并不知道这个一辆什么车,或者它位于哪个位置。或者说有一把椅子,但这把椅子可以是任何一种形态,而那种神经网络只擅长把椅子和汽车的关键特征提取出来,以判断出这是一把椅子或者一辆车,完全不关心某些特定实例和它所在的位置。
但对于识别鸟的类别、狗的品种、植物种类和人脸,你就需要可以应对更加细密纹理的识别能力,你可能识别出几百万种类别,但不同类别之间的差异非常细微。所以,我当时可能会认为深度学习并非解决这类问题的最佳方法,或许其他方法会更加适合,但我错了。我低估了我手中技术的实力。虽然今天有很多事情认为很难做到,但一旦出现突破,就会完成的很好。
问:在Facebook近期公布的一项实验中,工程师将《指环王》中的一段话给到了计算机,然后让他去回答关于这个故事的几个问题。从这个例子中能够代表“Facebook为机器设计的新一代智能测试”吗?
Yann LeCun:它使用相同的技术作为它的基础。研发团队已经提出了一系列机器应该回答的问题。有个故事,请回答有关故事的问题。其中一些问题只是简单的事实。如果我说“Ari拿起了他的手机。”然后问“Ari的手机在哪里?”该系统会说“它在Ari的手里。”
但是如果故事里人们是如何移动的又该如何呢?我可以问“这两个人在同一个地方吗?”然后如果你想回答这个问题,你必须知道物理世界的样子。例如,如果你想回答诸如“现在屋里有多少人?”这样的问题,你必须记住一共有多少人进入了屋子。要想回答这些问题,你需要有推理能力。
问:在我们让机器预测未来之前,我们需要教会机器常识吗?
Yann LeCun:不,我们可以同时进行。如果我们能训练系统进行预测,它通过预测就能从本质上推断出它所看到的世界的结构。拥有这种酷炫能力的具身化能力的是一个叫“Eyescream”的东西。它是一个神经网络,你输入随机的数字,它就会输出自然的图片。你能让它画一个飞机或者教堂塔以及训练过的事物,它就能产生令人满意的图片。
因此能生产图片是完成拼图的重要一块,因为如果你想预测
视频中接下来会发生什么,你必须首先拥有一个能生产图片的模型。
问:模型能预测什么样的事情?
如果你让系统看一段
视频并问“下一帧会发生什么?”这并不复杂。有几件事会发生,但是移动的物体还是会在原方向上移动。但是如果你问下一秒会发生什么,就有可能发生很多事情而无法预测,因此系统将会努力做出好的预测。这是我们所面临的问题,而且我们还不知道怎么解决。
如果你在看希区柯克的
电影(以悬疑着称)然后我问“十五分钟后将会发生什么?”你必须指出谁是凶手。完全解决这个问题需要了解世界和人性的方方面面。这就是其有趣之处。
问:从现在起五年,深度学习将如何改变我们的生活?
我们在探索的一件事是人类的个人管家。数码管家。这还没有一个名字,但是在Facebook,它叫M项目。M的形象就像科幻电影《她》中数码管家的形象一样。