请想象以下场景——
某种人工智能助手成为了像数字支付、地图那样的基础服务。
它跨越平台。无论是PC和手机,又或是智能家电与无人汽车,它都隐身于幕后,随时准备着响应主人的“召唤”。
它跨越应用。用户无论是拍照片、玩游戏,又或是到语言不通的异国旅行、开始一轮新的健身训练,都少不了它的陪伴。
它还是跨越场景的,感官健全的。能听又能说、能看又能写,也就是说,它会极大地增强主人的能力,帮助人类更好地应对工作与生活场景中的各种挑战。
人工智能技术:爆炸倒计时?
尽管目前行业里还没有一款人工智能产品能达到这样的水平——既能对接企业的产品数据库,又能基于长期的用户数据积累,达成对主人客观情况的某种程度的了解——但我们距离类似的目标已越来越近。
预计几年之内,通过嵌入各类硬件、软件与服务中,人工智能可以收集到更多实时生成的用户数据,类似于体重、体脂、体温、心率、血氧饱和度等生理健康指标和健身项目、时长等运动指标等自身数据,以及用户饮食禁忌、消费习惯、品牌偏好等外部数据,再加上时刻灌入更新的实时企业商品及服务信息,就可以为用户提供最贴身、最吻合其需要的生活提示与消费推荐。当然,所有的用户数据都会加密存储于云端,不会有泄密的问题。
很多人认为,经过多年的积累,人工智能技术已处于爆炸式增长的前夕——也许他们的判断没错,但作为信息科技领域的从业者,我和同行们更关心的是,人工智能何以突然间从“冷宫”穿越到“朝堂”上,成为了万众瞩目的焦点?谁在为人工智能赋能?
三大动力
尽管人们很早以前就开始对有自主思维与行动能力的机器展开畅想,并在60年前(达特茅斯会议)便确立了“人工智能”(Artificial Intelligence)的概念,但经历了几十年漫长岁月的探索、挫折、重振,直到最近这几年,学术界、产业界似乎才看到将人工智能由构想转换为现实的曙光。
深度学习算法、高质量大数据与高性能计算资源,这是令人工智能技术研发骤然加速的三大动力,推动着人工智能从实验室走向人们工作与生活,也推动着相关技术孵化和裂变出越来越多的精彩应用。
首先,深度学习算法其实就是推理算法与机器学习算法的结合。典型的深度学习模型往往需要架设出层次很深的神经网络,通过强化模型的复杂度来提升机器的学习能力,而模型复杂度又需要增加模型宽度(即隐性神经元数目)与增加模型深度(即隐层数目)。
其次,研究者还必须不断提高数据规模与质量,来增强机器的学习效果。以过去几个月来名声大噪的AlphaGo为例,这个围棋程序借助对人类六至九段棋手的16000次对局分析获得了3000万个布点数据,并将这些数据用来训练其“策略网络”(Policy Network)。
其三,高性能计算资源亦不可或缺。Elo评分法(Elo Rating)是由美籍匈牙利裔物理学博士阿帕德·埃罗(Arpad Elo)创建的对决类比赛选手水平评分方法。根据Elo评分,AlphaGo采用不同硬件配置、运行于异步模式(Asyncdivonous)与分布模式(Distributed)时对应的得分如图1:
图1:AlphaGo的Elo评分,引自谷歌Deep
很显然,分布模式下,从1202个CPU、176个GPU到1920个CPU、280个GPU,计算性能的线性增长只带来了28点的评分增长,这表明,计算资源呈线性增长,评分却不可能同样呈线性增长。越往后,每一点评分的增长都需要海量计算资源的支持。
从长远来看,我不觉得同为人类的棋手能够在与机器的搏杀中重占上风——无论棋类游戏的空间与规则是多么复杂,对机器而言,只要证明了某种算法行之有效,那么,在与日俱增的大数据资源、与时俱进的计算资源的加持下,其相对于人类而言的优势只会越来越大。
大数据:岂止于大
一个有趣的问题是,有关人工神经网络与深度学习的理论探讨和实践尝试已有几十年历史,然而为什么直到今天,深度学习才显现出非凡的威力?
美国联合服务协会(USAA)数据科学部部长罗伯特·韦尔伯恩(Robert Welborn)认为,2015年是机器学习商业化进程快速发展的一年。存储市场的大范围降价及存储设备制造成本的降低是机器学习领域腾飞的关键。
而当大数据和云遇见深度学习,这一计算机科学家朝思暮想了数十载的科技终于不再是无本之木。随着深度学习技术的潜能被充分释放,弈棋程序的胜利以及我们在图像识别、语音识别等领域的连番突破也就是顺理成章的事。
大数据到底有多大?根据IDC在2014年发布的一份报告,仅在2013年,人类生成、复制与消费的数据量便达到4.4ZB,即44亿TB——可以想想,这些数据需要多少个硬盘来盛装——而到2020年,这一数值将达到40ZB,年增长率40%。
很明显,云计算、移动互联网与社交网络是大数据的三大推进器。做一组数字对比就知道:
1997年,全中国胶卷消费量约为1.2亿个,而当时的人口数是12.36亿。以每卷胶卷能拍24-36张照片计,总共约40亿张照片,相当于每年每10个中国人消费1卷胶卷,拍摄3张照片。
2015年,仅小米手机用户每天新拍摄的照片就达到1亿张,而微信用户每天上传的新照片则超过10亿张,也就是小米手机用户每一个半月、微信每四天新增的照片数量就超过1997年全中国人拍摄的照片。
由对比揭示出,过去不到20年的时间里,个人计算设备生成的数据量呈现出惊人的增长态势。而要想处理好这些激增的数据,就需要强大的云存储与计算平台。以处理小米手机每日新增照片为例,1亿张照片的云相册缩略图处理就需要2400核、2.6GHz的CPU与200TB的存储空间。
况且要让手机这种设备支持某些看起来很酷很智能的功能,比如人脸检测、根据面孔特征实现身份识别和分类编目等,若没有一流云平台在背后支持,也是不可想象的。
小米手机相册就加入了一些对用户而言相当便利和人性化的功能,例如:
用户可以从合影中找到每一张人脸并看到年龄标签。
点击“面孔”分栏,所有包含人物的照片便被归入“姓名”影集中。
选择其中一张合影,应用还能标示出画面里每个人的姓名……
上述功能对于“患有”脸盲症和健忘症的朋友来说非常有用,而且也让手机看起来很“聪明”。但其实,相关的运算过程并不是在手机硬件平台上进行,而是依托于远端的“小米云相册”——至于小米云相册,其实是由金山云做支撑。
深度学习:让机器胜过人
正是因为数据量以几何级数激增,从事机器学习、神经网络等研究工作的科学家们以前认为不可能完成的训练任务,今天才能相对容易地完成。
我自己是做研究出身的,以前专攻的方向正是视频与图像内容分析及检索、计算机视觉和信息系统。关于人脸识别,早在20年前,我和团队就获得了一项专利——记得1996年,我在硅谷的HP实验室时开始研究,1997年提出专利申请,2000年获得批准(如图2、图3)。这是一个分布式的架构,数据从客户端生成,传输至后端的系统,经过一系列处理后,再将结果推送到前端。事实上,现在学界与产业所做的人脸识别、云-端图像处理研究与20年前相比,在原理方面是相近的,只是在数据资源与算法上有了极大的改进。
图2
图3
20年来,在原理变化不大的前提之下,应用开发进展却极其迟缓,其原因在于,此前无论是人脸图像数据库的规模,还是计算能力本身,都只能用“贫瘠”来形容。
供研究的人脸图像数据库为何不足以支持任何形式的技术突破?有数字为证:1990年前后,ORL人脸库、E yale B耶鲁实验室和AR人脸库中的人脸原型样本人数少于130人,首选识别率在95%-99%的范围内;直到2007年,LFW(Labeled Face in the Wild)人脸库中也仅有5749位明星的13233张图。
在一些拥有大规模数据资产的IT领袖企业加入人脸识别研究阵营后,这种情况才得到了显著改善。2014年,Facebook的DeepFace人脸库包含了4030位样本人物的4400万张图,算法方面由多达8层网络、1.2亿训练参数的系统来支持。而谷歌的FaceNet数据库规模更大,容量为来自800万样本人物的2亿张图像,以及22层深度网络与1.4亿参数的算法系统。在此方面国内公司也不逊色,有公司已搭建出多达7000万名样本人物(每人1张证件照、1张生活照)的图像库,以30层以上深度网络、20块NVIDIA M40 GPU训练6天,取得了相当不错的成绩。
多大规模的数据才算是大数据?当数据多到可对几乎整个样本空间进行充分覆盖,从而减弱对理论与模型的依赖时,这样的数据就足够“大”了。像预测投掷硬币这种问题,样本空间为{0, 1},1000个样本就算是大数据,就足以得到置信度较高的预测。而对机器翻译、图像识别这样的课题而言,样本空间的数量级就大得太多——去年年底召开的第六届ImageNet图像识别大赛上,微软团队设计的图像识别系统击败了Google、英特尔、高通等强大对手,取得了多项第一名。据我所知,微软训练其图像识别系统是使用了152层深度网络。这提示了我们如何推进研究:传统方法是少量数据+复杂模型,到一定阶段后,系统性能便很难再提升;有了大数据之后,业界使用海量数据+简单模型也能获得比传统方法更好的结果;接下来,当海量数据与复杂模型相结合,应该可以创造出最佳的训练结果。
由上述案例也可以看出,学术界的算法与系统的实操水平与工业界的差距较大,学术界对应用性能的理解水平与工业界差距亦大——一直以来,在人脸识别领域,工业界的应用任务有两个模式:1:1也即两张人脸二选一辨认、1:N也即多张人脸N选一辨认。在各种测试条件下,企业已做到:处理1:1任务时,性能达到误报率百万分之一以下;处理1:N任务时,性能已实现在N等于千万级查询的条件下,首选命中率约90%。也正因工业界的介入,两年前,机器识别人脸的能力已超人类。类似美剧《疑犯追踪》里人脸识别的场景随时会成为现实。
在推进技术实用化、主流化方面,工业界比学术界的效率高很多,这并不难理解——不仅是因为前者的资金充裕,更重要的是,工业界在获取、储备、利用用户数据方面较之学术界优势明显,而且像Facebook、谷歌这样的巨头,可以使用几乎无限制的云计算资源来加速研发进程。
云将越来越重要
我的前同事,图灵奖获得者、数据库大师吉姆·格雷在他的大作《第四范式:数据密集型科学发现》中对科学发展的范式有着非常精辟的总结:千年以前,科学是基于简单的实践经验来描述现象。过去的几百年里,科学家们开始尝试开辟学科与理论分支,建立和使用模型来概括现象。最近的几十年,新生的计算分支以计算来模拟复杂的现象。而今则是靠大数据来探索现象。
计算资源从端向云汇集,这为算法创新和大数据应用创造了无尽的可能性——过去五年来,我们见证了云计算是如何推动消费级产品与企业级产品领域的伟大创新,见证了云计算是怎样从一个被过度炒作、被无端怀疑的概念逐步成长为整个IT产业乃至各行各业的基础平台,见证了云计算支持下的技术(如AI、VR、AR等等)爆炸与应用模式(如游戏、O2O、直播等等)革新。
今后十年,整个中国IT产业成长速度最快的,很可能会是云计算公司。回顾以往,从新生力量迅速成长为巨头的美国公司只有一家,那就是专注于云计算的AWS(如图4),其发展轨迹几乎与从事ToC业务的Facebook重合。况且,与发展更快、成熟度更高的美国市场相比,中国云计算市场仍处在从爬坡式渐增到直升式激增的进化节点上(如图5)。
图4
图5
总结一下,算法、大数据、计算资源,让科幻成真,为人工智能赋能。由这三大动力推动,人工智能会在不久的将来成为各行业领域有远见的企业的标配。根据SoftServe的一项调查,截至目前,已有60%的IT公司、48%的商业和专业服务公司、47%的金融服务公司、38%的制造业公司、29%的零售业与物流运输业公司在使用基于云平台而愈积愈多的大数据辅佐决策。大数据不再只是一个机遇,它成为了企业决胜未来的必需品。在人工智能介入后,会进一步减少对数据的人工分析、判断等干预,令企业以更低的成本实现更快更准确的决策。
我们确信,人工智能已成信息技术产业的主流与传统行业升级、转型和变革的关键。而算法、大数据、计算资源不仅构成了人工智能的坚实支点,还将成为现实中我们构建通往全新的“智能”之路的能量之源。
作者:金山集团兼金山云CEO张宏江博士