2018年被称为AI元年,在这一年,谷歌公布了第三代人工智能芯片TPU,专门对自家TensorFlow进行了优化,这块芯片比传统CPU运算快30倍,能效比高出200倍,如此惊艳表现让大量AI公司着手规划自己的芯片,AI技术的芯片化成为了当前AI产业发展的一种世界级现象。
除了谷歌,AWS,微软,苹果,百度等世界IT巨头,依图,地平线,寒武纪等本土AI独角兽也在积极研发自己的AI芯片。新近AI创业公司大多选择以算法的芯片化作为市场的切入点。AI产业也正处在从算法输出走向芯片研发的转型过程中。
目前主流的芯片架构主要分为GPU、FPGA、ASIC等技术流派,代表玩家分别为英伟达、赛灵思、谷歌。
GPU其实就是我们平时用到的显卡芯片,每块显卡当中都会有一块GPU协同电脑的CPU来进行图形加速运算,与CPU相比GPU拥有更多的算数逻辑单元ALU,这可以很方便地执行AI这种相对小型化的零散型任务,GPU拥有更多算数逻辑单元,可以形成数量可观的任务流水线,将运算进行并行处理。
谈到GPU就不得不提及计算机图形显示领域的巨人英伟达,英伟达在人工智能领域起步很早,积累扎实,从2007年以后通用计算需求下降,CPU市场企稳,在游戏市场的推动下GPU的性能和带宽不断提升,DNN的需求也在这一时间显现,英伟达的GPU恰好满足了当时AI市场需求,从此以后AI便成为了英伟达投资的一个重要市场。
英伟达在算力和开发环境方面一直处于业界领先地位,2018年英伟达上市了最新的Volta架构GPU,算力高达960 Tensor TFLOPS,其基于C语言的CUDA编程环境拥有广泛的开发者基础。与AWS的合作,让开发者能够在云端执行深度学习运算,不需要额外购买GPU设备。
无处不在的安装基础让英伟达在用户生态和采购成本方面上占绝有对优势,很多初创公司以及院校研究机构都会选择英伟达GPU作为主要平台切入市场,这也使得英伟达生态扩张很快,市场占有率不断走强,根据最新公布的数字,英伟达在AI芯片市场占有率已经达到了50%,绝对的NO.1。
虽然GPU运算能力很强但缺点也不少,比如在训练型运算如ADAS等
应用上表现出色,占绝对支配地位,但对于推理类运算相对FPGA较弱,此外由于内部是采用的是公版架构设计,所以GPU的晶体管数量非常庞大,要比ASIC高出十倍,这样最直接的问题就是堆料严重,导致成本高和功耗巨大,这也是英伟达GPU被诟病最多的地方。市场目前对于这些缺点还算比较能容忍,客户现阶段最关心的还是算力,毕竟节约AI训练时间更加关键。英伟达目前也拥有自己的ASIC产品Xaier专门用于ADAS,这是一款车规级的产品,虽然已经实现了量产,但规模小,价格偏贵,主要面向与L5级自动驾驶高端市场。
ASIC全称Application Specific Integrated Circuits专用集成电路,这种架构可以被理解为专门为某一项算法定制的芯片,这样的产品优点非常突出,比如由于其依据特定算法设计,不像GPU那样堆料,容易控制硬件成本,功耗自然也低,但缺点也很突出,由于没有重构能力,一旦算法发生迭代,其优化的效果就会失效,比如此前的比特大陆ASIC矿机,挖矿机制更新后性能就会变差,设备只能进行重新设计。
TPU Tensor processing unit就是ASIC类型芯片的代表,财力雄厚的谷歌不仅在软件算法上投资发力,也在定制自己的AI芯片,TPU同时也是Alpha Go的大脑。其实谷歌最早采用的也是英伟达的GPU,但后期出于多种考虑开始转向研发自家芯片,这也导致了英伟达转向与AWS进行深度合作。谷歌的商业模式一直非常具有创意,在AI上也是一样,虽然开放了底层架构TensorFlow,但在芯片业务上,选择了只租不卖,对比英伟达的芯片出售模式,谷歌似乎规划更长远,希望开发一套通用平台直接服务最终用户,当然这样的商业模式最后能不能成功暂且不论,单单是开发ASIC就非常具有战略意义,相比FPGA和GPU,ASIC无论是在功耗还是堆料成本上都要节约得多,计算效率也要高出很多。但谷歌这枚TPU从严格的意义上讲是拥有少部分可重构能力的,所以应该算是FPGA与ASIC之间的芯片,但随着谷歌算法不断的升级和完善,这部分重构能力很可能会被谷歌抹掉,将其设计成为完全独立的ASIC芯片。值得注意的是,依图也借鉴了谷歌这种商业模式,开发自研芯片,而且只供自己的服务器使用,不对外出售,亚马逊的AWS也可能是出于对功耗的顾虑,近期也在转向自家ASIC的研究。
FPGA全称FieldProgrammable Gate Array,现场可编程逻辑门阵列,可以被理解为一种半成品的ASIC,拥有极其优秀的可重构能力,其硬件加速性能比DSP更加优秀,拥有类似GPU那样多的小单元来将任务流水线并行处理掉,在推理运算方面明显优于GPU。
FPGA 的主要玩家是赛灵思,很多AI初创公司都选择赛灵思平台作为市场切入工具,如深鉴科技(已被赛灵思收购),这样的趋势下也进一步扩大了FPGA的市场占有率,让赛灵思成为了能够和英伟达分庭抗礼的另外一个生态阵营,其老对手Altera被英特尔收购后,在AIOT领域明显发力不足,在AI市场上的竞争基本不足为虑。
FPGA很好的解决了现阶段AI开发者面临的问题,在大多数初创公司都还处在寻找应用场景的阶段,FPGA给算法的迭代提供了一个比较节约的选择。利用FPGA的可重构能力,开发者可以多次改变项目的特征,实现芯片的复用。使用FPGA虽然能够省掉了流片成本,但相对来说还是较贵,而且由于其追求可重构的能力,在设计上就没能达到极致优化,功耗比ASIC要高出不少,且技术难度较大,高级开发人员较少,项目成本较高,在训练型计算中表现中低于GPU。
就像GPU一样,虽然FPGA有不少缺点,但也没办法挡住其火爆的趋势,大量AI公司选择FPGA来进行算法的开发验证以及芯片的前期定制,甚至苹果这种大公司也将FPGA嵌入到自家A12芯片中,提供AI能力。
类脑芯片完全摆脱了传统的冯诺依曼结构,把内存和CPU以及通讯元件集成在一起,DSP作为神经元,内存作为突触。这样设计的好处是,每个单元完全独立工作,根据任务量调配单元使用,运算能力惊人且功耗极低。其代表芯片是IBM的TrueNorth和Intel Loihi。
TrueNorth,可以几厘米空间里,集成4096个内核、100万个DSP和2.56亿个内存突触,能耗只有不到70毫瓦。而Loihi 拥有13万个硅“神经元”,复杂程度几乎等同老鼠的大脑。目前两款芯片还都停留在概念阶段,没有投放市场。
作为CPU时代的芯片巨头,Intel其实一直在布局AI市场,先后收购了Altera,Mobileye,Nervana,Movidius等与AI相关的公司,但似乎声音上远不如谷歌和英伟达。当然就目前情况来看,Intel似乎也并不是很上心。
一方面是在AI训练市场占有绝对领导地位,另一方面自动驾驶技术尚未成熟,市场反哺还需时日,英伟达面临的挑战是在未来持续保持GPU对FPGA和ASIC算力上的优势,但由于摩尔定律已经失效,7nm后制程升级越来越困难,英伟达若想继续保持算力的优势只能不断的堆料将产品做大,但“功耗”依旧是摆在面前的问题,显然云端市场并不买账这样的堆料方式,纷纷转向开发自己的ASIC,而终端市场则被灵活的FPGA切掉了不少份额。
国内的许多创业公司初期平台都会选择FPGA,这种芯片是公司业务从初创到成型的过渡中非常理想的一种选择,深鉴,寒武纪,地平线,比特大陆都先后使用过FPGA,商汤等视觉安防AI公司也会用到GPU+FPGA的方案,但当业务发展到一定程度后,也都会逐步转向ASIC,如近期依图发布的“求索”,未来AI芯片一定会更加定制化,这也确实是提高AI运行效率,降低成本的一个最有效的途径。
此外,由于云端市场门槛相对较高,且大厂完全把持,创业公司的主要机会将集中在边缘端,这时低功耗,面向场景开发的AI芯片将是未来主流发展方向,或者说全行业面临着一场AI升级,很多传统企业会借助多年在行业积累的优势切入进AI市场,而这时ASIC应该会有更多大展拳脚的机会。
当然从场景开发到业务的成型是一个漫长过程,目前行业还处在大量企业和Kaiyun官方网站app登录 的涌入阶段,这些企业在前期初创时基本都离不开英赛两大厂的产品,所以在很长时间里它们都不会缺乏生意。