机器学习需求将使得RISC-V芯片无处不在。
RISC-V是2010年首次推出的一种免费开源计算机指令集架构,其
应用正在呈爆发性增长,这大部分得益于人工智能(AI)和机器学习的需求推动。Semico调研公司表示,或多或少采用RISC-V技术的芯片数量将每年增长73.6%,到2027年,生产的人工智能芯片将多达约250亿个,创造2910亿美元的收入。
戴夫•迪泽尔(DaveDitzel)说,从几年前还被认为是一种“暴发户”理念到今天引人瞩目的增长,展现出人工智能的巨大变化。迪泽尔的Esperanto技术公司制造的首款高性能RISC-VAI处理器要与人工智能推荐系统中强大的图形处理器(GPU)一争高下。迪泽尔表示,在机器学习和人工智能的早期狂热阶段,人们认为通用计算机处理器架构(x86和Arm)永远追不上图形处理器和许多特定用途的加速器架构。
“我们想要证明,这些人都错了。”他说,“RISC-V似乎是一种理想的基础,解决人们想要人工智能去做的多种计算问题。”
随着该公司的首款硅片(一种1092内核人工智能处理器)送达早期合作伙伴手中,以及公司与英特尔达成重大开发协议,他也许很快就能证明自己是对的。
迪泽尔的整个职业生涯都在致力于阐明RISC-V的理论。RISC表示的是“精简指令集计算机”,根据这种理念,我们可以减少处理器执行的核心指令集,制造出尺寸小、功耗低,但性能好的处理器。1980年,IEEE会士大卫•帕特森(DavidPatterson)在一篇开创性的论文中创造了这个词,迪泽尔是他的学生,也是这篇论文的共同作者。在共同创办全美达公司之前,迪泽尔在贝尔实验室和太阳微系统公司研究RISC处理器。全美达公司将x86指令代码转换为RISC架构,制造出一款低功耗处理器,旨在与英特尔展开竞争。
创办Esperanto公司后,迪泽尔发现,RISC-V是一种只需较低功耗就可加速人工智能的方法。从基本层上来看,指令集架构越复杂,意味着需要硅片上有更多的晶体管来组成处理器,每个晶体管在关闭时都会有一点漏电流,在切换状态时也消耗电能。他说:“这就是RISC-V的诱人之处,它的指令集很简单。”
RISC-V内核的指令集只有47条指令。x86指令的实际数量难以计算,可能将近1000个。尽管Arm的指令集很小,但仍然比RISC-V的指令集大很多。迪泽尔说,简单地使用精简指令集并不能够使计算能力达到Esperanto公司的目标。“大多数RISC-V内核并没有那么小或那么节能。因此,对于我们来说,问题并不只是采用RISC-V内核并将1000个内核堆在一块芯片上。我们必须彻底重新设计CPU,使其适应这些非常严苛的约束条件。”
迪泽尔和他的同事开始研究时,RISC-V指令集缺少有效进行机器学习计算(如矩阵乘法)所需的“向量”指令。于是Esperanto公司的工程师提出了自己的解决方法。正如ET-Minion处理器内核架构体现的那样,其包含了处理8位整数向量以及32位和16位浮点向量的指令部件。
由此产生的片上系统ET-SoC-1由1088个ET-Minion内核和4个ET-Maxion内核组成,ET-Maxion可帮助管理Minion的工作。该芯片240亿个晶体管所占面积为570平方毫米,约为热门人工智能加速器英伟达A100的2/3,但这两种芯片的基本原理是截然不同的。
ET-SoC-1的设计目的是在功率受限的数据中心加速人工智能,在这些数据中心,核心主板已安装在服务器外部设备的互联总线(PCIe)插槽上。这意味着,主板只有120瓦可用功率,但它必须至少进行100万亿次运算/每秒才有意义。Esperanto在这种功率条件下可实现超过800万亿次运算。
在2021年12月的RISC-V峰会上,Esperanto公司的首席架构师贾耶什•艾耶(JayeshIyer)告诉技术专家,大多数人工智能加速器都是基于单个芯片制造的,单个芯片占用了主板的大部分功率预算。“Esperanto公司的方法是使用多个低功耗芯片,仍然满足功率预算。”他说。
执行推荐系统基准测试程序神经网络时,每个芯片的功耗为20瓦,不到A100功耗的1/10,而且其主板上有6个芯片。这种功率和性能的组合是通过降低芯片的工作电压而不牺牲性能来实现的。(通常,工作电压越高意味着芯片的时钟运行越快,可完成更多的计算。)ET-SoC-1制造工艺的标称电压为0.75伏,单个芯片将远远超过主板的功率预算。但是,如果将电压下降到约0.4伏,就可以在120瓦的主板上运行6个芯片,与高电压的单个芯片相比,推荐系统的性能提升了4倍。在这种电压下,每个ET-Minion内核仅消耗约10毫瓦。
“低压运行是Esperanto公司的ET-Minion(内核)设计的关键区别。”艾耶说。它为架构和电路的决策提供了依据,他说。例如,RISC-V整数指令的内核流水线由每个时钟周期数量最少的逻辑门组成,可在低电压条件下实现更高的时钟频率。在内核执行长张量计算时,该流水线会关闭以节约能量。
近期开发的其他人工智能处理器也开始结合RISC-V和其自身定制的机器学习加速。例如,Ceremorphic最近公开了其分层学习处理器,该处理器使用了RISC-V和Arm内核及其定制的机器学习和浮点运算单元。英特尔即将推出的MobileyeEyeQUltra的芯片将采用12个RISC-V内核和神经网络加速器,为4级自动驾驶提供智能支持。
对于嵌入式人工智能处理器公司耐能来说,采用RISC-V既是一项商业举措,也是一项技术举措。该公司一直在销售使用ArmCPU内核及其定制加速器基础架构的芯片和知识产权。不过2021年11月,耐能发布了首款基于RISC-V技术的KL530芯片,旨在采用名为视觉互感(VisionTransformer)的新型神经网络来支持自动驾驶。耐能的首席执行官刘峻诚表示,RISC-V架构让神经网络模型的预处理变得更简单,运行效率更高。不过,他说:“鉴于去年英伟达可能收购Arm,这也有望降低商业决策可能对自身造成影响的风险。”虽然英伟达的收购于今年2月终止,但这可能会把耐能先前的CPU内核架构的供应商推到竞争者手中。
未来的RISC-V处理器将能够使用达成社区共识的开源指令集来处理与机器学习有关的操作。2021年12月,管理和编纂内核指令集架构和新扩展的国际机构RISC-VInternational批准了一个仅包含100条向量指令的指令集。
该管理机构的首席技术官马克•希梅尔斯坦(MarkHimelstein)说,即使有了向量扩展,RISC-V社区的优先任务仍然是促进机器学习。大多数RISC-V机器学习扩展的开发都发生在该组织的图形特别兴趣组,该组已与机器学习组合并,“因为他们的目标是一致的。”他说。不过其他组(例如高性能和数据中心计算兴趣组)也在关注机器学习的扩展。希梅尔斯坦的工作就是确保将这些努力尽可能集中到一处。
Semico的首席分析师里奇•瓦夫日尼亚克(RichWawrzyniak)说,尽管RISC-V取得了成功,但是在新增了大量人工智能功能的许多市场中,Arm仍然是主导者,这可能还会持续5年,在CPU内核设计的总收益中,RISC-V可能占15%左右。“不是50%,也不是5%。RISC-V出现的时间不长,这样的增长速度已经相当快了。”