一、AIGC引发内容生成范式革命,云端算法向大模型多模态演进
人工智能落地
应用不断增加,AIGC引发范式革命
云端推理占比逐步提升,AI落地应用数量增加。随着数字经济、元宇宙等概念逐渐兴起,各行业对人工智能开发的需求日益提升,人工智能进入大规模落地应用的关键时期。2022年在云端部署的算力里,推理占算力已经达到了58.5%,训练占算力只有41.5%,预计到2026年,推理占到62.2%,训练占37.8%。一般来讲,应用完成推理之后就可以进行部署,而云端推理占比逐步提升说明,AI落地应用数量正在不断增加,人工智能模型将逐步进入广泛投产模式。
AIGC是人工智能成熟度的分水岭,引发范式革命。AI模型可大致分为决策式AI和生成式AI两类,决策式AI根据已有数据进行分析、判断、预测,已经被广泛应用;生成式AI学习归纳已有数据后进行演绎,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。从决策到生成,AI技术与应用迎来跨越发展。内容生产模式从专业生成内容(PGC)和用户生成内容(UGC)逐渐过渡向AIGC阶段,标志着人类第二次脑力效率的飞跃。
ChatGPT是AIGC的开山之作,成为人工智能里程碑式产品
ChatGPT是OpenAI推出的自然语言处理类(NLP)AIGC应用。Chatgpt横空出世,成为AIGC的开山之作。ChatGPT是美国OpenAI研发的聊天
机器人程序,于2022年11月30日发布,是一款人工智能技术驱动的自然语言处理工具,能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,甚至能完成撰写邮件、
视频脚本、文案、翻译、代码,写论文等任务。
ChatGPT成为人工智能技术在快速发展过程中的里程碑式产品。ChatGPT一经推出便快速获得了全球用户前所未有的广泛参与与认可,推出两个月后月活跃用户规模达到1亿人,远超过Facebook、抖音等成为了过去以来增长速度最快的消费者应用程序。ChatGPT被视为标志性人工智能生产力工具,甚至被视为第四次工业革命开始的标志。
GPT架构快速迭代,参数量与训练数据量提升带来性能飞跃
ChatGPT是基于GPT架构开发的对话AI模型,参数量与训练数据量的提升带来性能飞跃。OpenAI早在2018年就已经推出第一代生成式预训练语言模型GPT(GenerativePre-trainedTransformer),可用于生成文章、代码、机器翻译、问答等各类内容,此后GPT模型快速迭代,并且伴随着参数量的爆炸式增长,从GPT到GPT-3,参数量达到了1750亿,增长了近1500倍,预训练数据量更是从5GB提升到了45TB,2023年3月推出的多模态大模型GPT-4参数量甚至预测达到100万亿。而随着参数量和预训练数据量的提升,模型的性能实现了飞跃式提升。
GPT-3.5采用海量参数预训练,大模型成为AI发展新范式
ChatGPT是基于GPT-3.5微调得到的大型语言模型。GPT-3.5采用深度学习transformer模型,对大规模数据进行预训练,相比于一般的语言模型,参数量大幅提升至1750亿,所需要的算力呈指数级增长。根据OpenAI,GPT-3.5在AzureAI超算基础设施(由V100GPU组成的高宽带集群)上进行训练,总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640个整日)。
大模型训练性能突出,各大科技厂商积极布局。预训练大模型基于“预训练+精调”等新开发范式具有良好的通用性和泛化性,可通过零样本、小样本学习获得领先效果,大幅加速人工智能大规模产业化进程。自2020年起,中国的大模型数量骤增,仅2020年到2021年,中国大模型数量就从2个增至21个,和美国量级同等,大幅领先于其他国家。可以预见,以谷歌的BERT、OpenAI的GPT和百度的文心一言为代表的大模型,未来将成为智能化升级中可大规模复用的重要基础设施。
GPT-4性能升级,多模态加速迈向通用人工智能
多模态大模型GPT-4震撼发布,性能实现大幅提升。3月15日,GPT-4正式发布,多模态大模型进化更进一步,其不仅在语言处理能力上提高,如文字输入限制提升至2.5万字,并能够生成歌词、创意文本、实现风格变化,还具备对图像的理解和分析能力,能基于
图片进行总结和回答问题。在各种专业和学术基准测试中已做到人类水平的表现,如SAT拿下700分,GRE几乎满分,模拟律师考试GPT4分数占前10%,GPT-3仅为倒数10%。GPT-4的出现标志着当前已经从语言模型突破走向多模态模型,应用前景广阔。
多模态大模型大势所趋,应用场景极大丰富。多模态大模型可整合图像、语音、文本等输入输出方式,实现对多种类型和模态数据的学习、分析及生成,有望极大丰富人机交互场景。可以看到,多模态大模型将充分发挥人工智能创造价值的潜力,赋能各行各业实现降本增效,甚至加速迈向通用人工智能的步伐。
二、硬件基础设施为发展基石,算力芯片等环节核心受益
AI要求大规模智能算力,硬件基础设施成为发展基石
以算力芯片为核心的硬件基础设施是AI发展的基石。算力芯片等硬件基础设施是处理数据“燃料”的“发动机”,只有达到一定水平的算力性能才能实现人工智能的训练和推断以及存储、传输等相关配套功能。人工智能的云端训练和推断计算主要基于AI服务器,对算力/存力/运力/散热性能要求更高,带动算力芯片、配套硬件、机箱等设施不断升级。
中国智能算力规模正在高速增长,算力芯片等硬件基础设施需求旺盛。根据IDC数据,2021年中国智能算力规模达155.2每秒百亿亿次浮点运算(EFLOPS),2022年智能算力规模将达到268.0EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4EFLOPS,2021-2026年复合增长率达52.3%。预计中国人工智能支出中硬件占比将保持最大,未来5年将一直保持65%左右的份额。看好AI大模型训练及推理需求创造的算力芯片等硬件基础设施的增量市场空间。
算力:CPU不可或缺,CPU+xPU异构方案成为大算力场景标配
CPU的性能提升已遭遇瓶颈。过去40年间,在指令集简化、核心数增加、制程微缩、架构改进等技术变革的推动下,CPU的性能已经提升接近5万倍,但不可避免的边际效应递减。在上世纪90年代,CPU性能每年提升52%,性能翻倍只需要1.5年。而从2015年之后,CPU性能每年提升只有3%,需要20年才能性能翻倍。
CPU在现代计算系统中仍不可或缺,CPU+xPU的异构方案成为大算力场景标配。CPU受制成本功耗难以匹配AI对算力需求的高速增长,CPU+AI芯片的异构方案应运而生,AI芯片类型包括GPU、FPGA和NPU等。其中,CPU是图灵完备的,可以自主运行,而GPU、FPGA等芯片都是非图灵完备的,都是作为CPU的加速器而存在,因此其他处理芯片的并行计算系统均为CPU+xPU的异构并行。
算力:GPU并行计算优势明显,充分受益于AI算力需求增长
GPU削弱控制能力,布局更多计算单元以加强算力。从计算资源占比角度看,CPU包含大量的控制单元和缓存单元,实际运算单元占比较小。GPU则使用大量的运算单元,少量的控制单元和缓存单元。GPU的架构使其能够进行规模化并行计算,尤其适合逻辑简单,运算量大的任务。
CPU+GPU是目前最流行的异构计算系统,在HPC、图形图像处理以及AI训练/推理等场景得到广泛应用。根据IDC数据,2021年中国AI芯片市场中,GPU市占率近90%。
算力:NPU在特定场景下的性能、效率优势明显,推理端应用潜力巨大
NPU在人工智能算法上具有较高的运行效率。在CPU与GPU合作时,CPU负责神经网络模型的构建和数据流的传递,GPU只是单纯的并行矩阵乘法和加法运算。在CPU与NPU合作时,CPU将编译好的神经网络模型文件和权重文件交由NPU加载,完成硬件编程,NPU为每层神经元计算结果不用输出到主内存,而是按照神经网络的连接传递到下层神经元继续计算,因此其在运算性能和功耗上都有很大的提升。
NPU为特定要求而定制,在功耗、体积方面具有优势,在推理端应用潜力巨大。NPU作为专用定制芯片ASIC的一种,是为实现特定要求而定制的芯片,芯片设计逻辑更为简单。除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动端。未来随着人工智能推理端的发展,NPU应用潜力巨大。
三、国产厂商迎来发展窗口期,建议关注各环节龙头厂商
英伟达、AMD供应受限,国产算力芯片厂商迎来窗口期
英伟达、AMD对华供应高端GPU芯片受限。美国对华半导体管制已经从最初针对某些公司扩大到对半导体整个行业的全面限制。2022年8月,英伟达被美国政府要求其停止向中国出口两款用于人工智能的顶级计算芯片,其峰值性能和芯片到芯片的I/O性能等于或大于大致相当于A100的阈值,即A100和H100两款芯片都将受到影响。AMD也同样被要求禁止将其MI100、MI200系列人工智能芯片出口到中国。当前2023年3月1日的延缓期已过,后续将无法向大陆市场出货。
国产算力芯片迎来国产替代窗口期。美国对中国半导体产业发展持续打压背景下,英伟达、AMD断供进一步激发算力芯片国产化需求。当前已经涌现出一大批国产算力芯片厂商,寒武纪、龙芯中科相继推出自研GPU,海光信息的DCU(GPGPU)也逐渐打出知名度,其他配套环节的国产化进程也正在加速推进。
寒武纪:国内人工智能芯片领军者
寒武纪专注AI领域核心处理器,思元系列智能加速卡持续迭代。寒武纪成立于2016年,致力于打造人工智能领域的核心处理器芯片。寒武纪目前已推出了思元系列智能加速卡,第三代产品思元370基于7nm制程工艺,是寒武纪首款采用chiplet技术的AI芯片,最高算力达到256TOPS(INT8)。思元370还搭载了MLU-l
ink™多芯互联技术,互联带宽相比PCIe4.0提升明显。
思元590采用全新架构,性能相比在售旗舰有大幅提升。在2022年9月1日举办的WAIC上,寒武纪陈天石博士介绍了全新一代云端智能训练芯片思元590,思元590采用MLUarch05全新架构,实测训练性能较在售旗舰产品有了大幅提升,能提供更大的内存容量和更高的内存带宽,其IO和片间互联接口也较上代实现大幅升级。
寒武纪:持续完善软件生态,强化核心竞争力
寒武纪重视自身软硬件生态建设,为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件。寒武纪的基础系统软件平台主要包括训练软件平台和推理软件平台。训练软件平台支持丰富的图形图像、语音、推荐以及训练任务,同时提供模型快速迁移方法,帮助用户快速完成现有业务模型的迁移。对于推理软件平台,寒武纪新增推理加速引擎MagicMind,在MLU、GPU、CPU训练好的算法模型上,借助MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上。
寒武纪:与产业端强强联合,促进生态融合应用
百度飞桨深度学习平台正加强与主流人工智能芯片厂商联合建设生态。百度飞桨集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,包含完整的开发、训练、推理的端到端深度学习AI模型开发工具链。其中,PaddleLite是一个可以在边缘端、移动端和部分服务器端等场景下用于AI模型部署的高性能轻量化推理引擎。典型应用场景包括:智能闸机、智能家居、自动驾驶、AR/VR手机应用等。随着在稳定性、兼容性和成熟度等方面不断升级,百度飞桨越来越重视与硬件厂商,尤其是与主流人工智能芯片厂商联合进行生态建设。
海光信息:深算系列GPGPU提供高性能算力,升级迭代稳步推进
海光DCU提供高性能算力。海光DCU也属于GPGPU的一种,其构成与CPU类似,结构逻辑相对CPU简单,但计算单元数量较多。海光DCU的主要功能模块包括计算单元、片上网络、高速缓存、各类接口控制器等。海光DCU可为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。一代DCU已实现规模化销售,二代升级规划稳步推进。深算一号DCU产品目前已实现商业化应用。2020年1月,公司启动了第二代DCU深算二号的产品研发工作,研发工作进展正常。
海光信息:类“CUDA”环境降低迁移成本,软硬件生态丰富
海光DCU兼容类“CUDA”环境,方便CUDA用户以较低代价快速迁移。海光DCU协处理器全面兼容ROCmGPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,理论上讲,市场上规模最大的GPGPU开发群体——CUDA用户可用较低代价快速迁移至ROCm平台,有利于海光DCU的市场推广。同时,由于ROCm生态由AMD提出,AMD对ROCm生态的建设与推广也将有助于开发者熟悉海光DCU。海光DCU适配性好,软硬件生态丰富。海光DCU协处理器能够较好地适配国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域,主要部署在服务器集群或数据中心。
龙芯中科:加码GPU自研,有望与CPU形成协同效益
公司自研GPU已取得实质进展,未来将持续增长在AI领域的核心竞争力。公司在上市募投项目中规划了高性能通用图形处理器芯片及系统研发项目,总投资金额10.5亿元。公司已在自研GPU上取得了实质进展。桥片7A2000已于2022年正式发布,内部集成了自研统一渲染架构的GPU核,可形成独显方案,极大减低系统成本;通用SoC芯片2K2000于2023年1月流片成功,集成了龙芯自主研发的LG120GPU核,进一步优化了图形算法和性能。公司正在研发具有高通用性、高可扩展性的GPGPU芯片产品及软硬件体系,将加速对象从单纯的图形渲染扩展到科学计算领域,提升算力密度同时降低单位算力功耗,并在此基础上有效支持视觉、语音、自然语言及传统机器学习等不同类型的人工智能算法。项目建设完成后,将与公司的CPU产品形成协同效应,进一步提升公司的核心竞争力。