深度学习近年来在多个领域取得了重要突破,尽管理论上并没有解释清楚深度学习的机制,但已在大量领域取得了巨大成功。在图像分类方面,微软研究团队指出他们的系统在ImageNet 2012分类数据集中的错误率降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。这个数据包含约120万张训练图像、5万张测试图像,分为1000个不同的类别。在人脸识别领域,香港中文大学教授汤晓鸥、王晓刚及其研究团队研发的DeepID在LFW数据库上获得了99.15%的识别率。LFW是人脸识别领域使用最广泛的测试基准。实验表明,仅仅给出人脸中心区域,人肉眼在LFW上的识别率为97.52%。
在一些实际
应用场景中,业界已经充分展现了深度学习在人脸识别领域取得的成就,比如在2015年IT和通信产业盛会GeBIT上,马云向德国总理默克尔与中国副总理马凯,演示了蚂蚁金服的Smile to Pay 扫脸技术,为嘉宾从淘宝网上购买了1948年汉诺威纪念邮票。
更不可思议的是,基于深度学习模型的人工智能能够自学成才成为游戏高手。2013年11月,DeepMind公司发表的一篇论文描述了一个单个的网络,它能够自我学习从而自动地玩一些老的电视游戏。它仅仅通过屏幕上的图像和游戏中的分数是否上升下降,从而做出选择性的动作。正因为深度学习取得了如此多的成就,业界很多观点认为,由于深度学习的出现,我们距离人工智能的时代已经不遥远了。
那么到底什么是深度学习呢?深度学习的深度一词直接指明了其特点。尽管没有标准的定义,但是如果一个模型具有典型的层次化结构,且方法的效果随着层次的增加能够显著提升,那么大家都乐意把这个方法加个前缀“深度”。比如经典的神经网络,其典型的结构就是层次化,每一层有一系列的神经元构成,神经元的输入是下层神经元的输出。最底层是原始的输入信号,最顶层是输出信号,也就是所谓的特征表示。
过去并没有被赋予深度网络的说法,但随着Hinton在《科学》发表文章指出,如果把神经网络加深而不是加宽,那么这个网络会取得很好的效果。这一现象是深度学习的基本由来,大家逐渐习惯于用深度一词来刻画模型的特点。
经典的深度学习有深度卷积网络(CNN)、深度置信网络(DBN)等模型。这些模型具有很强的分层结构,能够自动地学习每层的特征。与传统的浅层模型相比,深度分层网络结构中多层次的非线性运算操作,使得深度学习具有更强的拟合能力。
尽管深度学习的应用非常成功,但是深度学习的理论进展却很小。2006年以来,Hinton、Yoshua Bengio、Yann Lecun等人的相关工作,奠定了深度学习在
机器人学习中的地位。之后,深度学习在理论上发展非常缓慢,近年来的研究成果也并没有能够很清楚地解释理论问题。当然,所谓理论问题是相对传统的一些工作而言,在传统的一些模型中,研究者们能够确定一个问题是否可解、解是否唯一、求解的过程是否收敛、什么时候能够收敛。
就目前看,深度学习的理论不能揭示这些答案,大家所知道的一些结论大多是让人比较沮丧的,比如高度非线性、非凸问题、容易过拟合等等。没有统一的理论可以指导网络分多少层、初始化参数如何设置、正则化如何更加有效等。不过可能正是这种理论上目前很难解释清楚的复杂性,使得神经网络在很多问题上都能够表现得非常优秀。
虽然我们还不能很清晰地解释机器人深度学习成功的原因,但大体上以下几个观点还是得到普遍认可。
一、模型强大的拟合能力、高密度的计算能力、海量的训练数据是深度学习获得成功的重要因素。通过大量的神经元非线性操作,深度神经网络获得了很强的拟合能力。利用GPU等高密度计算设备,网络模型能够基于海量的训练数据(百万级)在可接受的时间内(数天)完成训练。
二、深度学习的应用范围非常广泛,可以渗透到很多领域。如果我们将深度学习看成是一个具有很强拟合能力的复杂函数,那么只要你能定义好合适的目标函数(比如最小化分类错误率),有足够的训练样本和计算资源,都可以通过深度学习来解决你的问题,而且其效果往往会出乎意料的好。
三、现在很成功的各种深度模型不代表一定是未来的模型。深度模型本质上也可以看成图模型,神经元是节点,神经元之间的连接是边。现在找到的几种实际很有效的结构,比如,卷积神经网络、深度置信网络、递归神经网络(RNN),它们准确率较高,计算速度可以接受。但图模型结构本身可以非常多样,未来哪种结构更有效现在还不得而知,还需要更深层次的研究。
四、对深度学习的追捧对学术界未必是好事。目前,深度学习在一些具体问题上取得了一些出乎意料的结果,但是在理论工作上进展不大。一个好的理论能够被接受需要好的理论创新和令人信服的实验结果,目前的现状是复杂的可解释的模型,其效果往往不如深度神经网络。这导致研究人员大多转向深度学习,将很多精力放在网络调参和结构设计上,尽管在实验效果上取得了很大进展,但理论贡献却微乎其微。
五、深度学习目前仍然有计算瓶颈。目前百万级的训练数据借助GPU一般都能在几天内完成训练。实际使用时,利用GPU也可以在几十毫秒内完成预测。但对于普通移动终端,无论是内存容量还是计算能力,都远不能跟台式机或服务器的GPU比,深度学习实际上在移动终端几乎还不可用,这大大限制了深度学习的实用范围。
六、传统模型与深度学习的融合是值得研究的问题。经过几十年的努力,机器学习有很多复杂的并且理论相对完备的模型,如何将这些模型引入到深度学习是值得研究的问题,比如一种简单的方案就是将传统模型的特征替换为深度学习获得的特征,然后基于最终的损失函数进行迭代优化。