热搜: 佳士科技irobot开云电竞官网下载app机器人机器人产业联盟ABB发那科机械手码垛机器人机器人展览

中国工程院院士高文:没有大算力做大模型就是天方夜谭

日期:2023-07-10 来源:凤凰科技 评论:0
标签: 算力 大模型 科技
  7月7日消息,中国工程院院士、鹏城实验室主任高文在世界人工智能大会昇腾人工智能产业高峰论坛上演讲时表示,没有大算力做大模型就是天方夜谭,这就和电力是一样的,可以省点电做出什么产品来,别人真正懂行的人听了都不信的,一定要有算力作为基础。
  “美国的算力现在指数是排第一,比我们大概多了30%的算力,那么也就代表GDP也比我们多30%,什么时候我们的算力超过了美国,咱们的GDP就可以超过美国了。”
  他表示,从现在开始,算力也是数字经济发展的一个指数,算力够,你的数字经济就能够发展好,不够就发展不好。
  以下为高文演讲全文:
  各位专家、各位领导,大家下午好!
  前面的领导都讲得很好,算力是非常重要的一件事,今天上午陈书记在讲的时候也讲到,上要抓三件大事,人工智能方面其中就有一个是算力建设,算力建设非常重要的一方面,就像电力一样。
  从现在开始,算力也是数字经济发展的一个指数,你算力够,你的数字经济就能够发展好,不够就发展不好。所以,特别是智能算力就非常关键。
  所以跟大家分享关于鹏城云脑的智算平台,再就是分享一下在这个平台上面做的鹏城脑海大模型。
  首先,我们说算力很重要,重要到什么程度呢?
  清华大学的一个2022年的咨询报告说到了,经过统计计算力指数和GDP是正相关的关系,你算力越强你的GDP就越强,最右边的图可以看到,美国的算力现在指数是排第一,比我们大概多了30%的算力,那么也就代表GDP也比我们多30%,什么时候我们的算力超过了美国,咱们的GDP就可以超过美国了。
  正是因为算力这么重要,所以发展人工智能和经济没有算力不可能,要有算力要有芯片,芯片做成机器,用这个机器训练这个模型,为了做这件事,我们在2020年深圳就做了一台机器,这台机器叫鹏城云脑II,这台机器的算力在2020年的时候是全世界做人工智能训练最强的一台机器,比当时微软、谷歌的机器都要强,相当于是4000块卡的机器,而且这台机器是4000块A100卡的机器,这台机器是用全光网络把它连起来的,节点和节点之间的延迟非常低。
  因为,有了这台机器可以做很多事,包括我们可以做科学研究,可以做产业 应用还有关键技术的研发。
  这台机器刚刚我说有4000块卡,一个是鲲鹏CPU,一个是昇腾NPU,都是华为的。
  有了这台机器以后,那么这台机器的性能行不行呢?就参加世界TOP500的超算的打榜,整个超算整个算力的打榜,同时它也有其他的赛道,我们参加的一个是IO500的赛道,你的输出和输入能力的赛道,我们从2020年10月份这台机器做出来以后,11月份就参加打榜,连续6次第一,每半年有一次打榜,全节点连续二次第一。
  所以,这台机器在做人工智能训练这件事,别人没办法和它比。这台机器的AI算力,这个是三年一次的,也参加了打榜,连续三次第一。这台机器不仅硬件强,接口能力和网络非常强,同时上面的软件也是配备得比较完备,包括怎么样做分布式计算,怎么样做命令调优、自研的调度规划等等。这台机器这么大规模的机器以前还是第一次,相当于它的四台机器,其实是四台我们的机器组成这一台了,上面有很多软件的挑战。
  可能有的专家也许听到过,有人说全世界能在1000块卡上同时训练一个模型的只有几千人,能在4000块卡上训练的不超过100个人,在10000块卡上训练模型的人数更少了,大规模的卡上一起做事,对于软件规划、资源调度挑战非常大。
  我们不仅仅是把鹏城云脑II用好,我们也承担了国家发改委的任务,用鹏城云脑II类似的华为生态的,用在昇腾AI集群,不管是100P和900P的算力结点,我们用网络把资源连起来,可以给大家提供,告诉你这里有资源可以通过网络去用。
  同时,我们还把华为生态以外的,按照发改委的要求,希望这是异构的算力网的平台,我们也选择了部分其他厂商的算力,在2022年6月这个项目验收的时候,已经聚合的智能算力到了2300P,云脑II只是1000P,这个系统已经聚集了2300P的智能算力。
  我们有了云脑II可以训练大模型了,训练大模型还是很费算力的,但是即使你可以训练大模型,现在的需求根本不够用,我们正在规划做云脑III。
  下面我说说大模型,鹏城正在做一个大模型,这个是2000亿参数,也就是200B的参数,为什么做这件事呢?
  不用再花时间了,因为有ChatGPT和类ChatGPT大模型在不停地涌现,同时因为现在很多公司都用这个东西做产业应用,去做服务。所以,现在这个模型变得很重要了,但是现在有钱的公司可以砸几个亿做这样的机器,甚至十几个亿和几十个亿,但是大多数的公司做不了。
  这个领域需求这么大,怎么办呢?
  我们鹏城实验室可以做一个底座,模型训练完开放出去,大家在这个底座说做垂直应用。按照这样的思路,我们首先有鹏城云脑II的算力,前一阶段我们积累了很多的数据,这一段时间前几个月我们通过各个渠道,包括购买拿到数据,先下面做清洗,清洗的数据很重,可能我拿到了100个数据,清洗完就剩几个了,因为有很多是重复和不规范的,这些东西拿掉就变得很小。虽然拿了很多的数据,但是真正用来做训练的数据只有1%-5%。有了这个数据我们就可以做大模型底座。
  这个大模型底座,我们就是用的生成式预训练模型,就是和GPT完全类似的底层的东西,用这个东西训练一个好的模型,希望可以开放出去。
  现在这个模型我们想着2000亿参数,200B的参数,这个训出来以后,我们希望把它给到合作伙伴那里,而且提供相应的指令微调和相应的人工增强学习的工具,甚至做一两个垂直领域,做样板作为垂直应用,怎么样用告诉大家,因为华为在这方面很有经验,我们建议谁想做垂直应用,可以到华为得到一些咨询用这个模型做他们的应用。
  有了这个东西,我们希望能够快速把这个模型做完可以推向社会,让社会在这个模型上开发中国自己的人工智能大模型应用系统。现在我们正在紧锣密鼓往前推,应该是8月底第一次所有的训练就训练完了,9月份就会把模型开放出去。
  现在训练的数据有多大呢?我们说的是喂数据,每天喂10个B,但是最重要喂一个T的数据,一个T是由几百个T清洗来的,现在数据都是中文和代码数据,现在4000多块卡的机器每天可以吃掉10个B,100天就能吃掉1000个B,就是一个T,我训练2000亿参数的模型,需要4000块卡训练100天。
  这就是算力,你如果不够大的话,做一个模型还是很辛苦的,而且我现在才训练了一个T的数据,训练两到三个T的话,还要加两到三个100天,没有大算力做大模型就是天方夜谭,当然有很多人说我可以用限速(音)等等这样那样的,但是实际上这就和电力是一样的,可以省点电做出什么产品来,别人真正懂行的人听了都不信的,一定要有算力作为基础。
  我们的算力到现在为止,怎么样把数据做好训练得快,我们有一套体系,有一个开源社区叫启智开源社区,这里面有很多的工程师做飞轮数据工程,可以使你清洗数据做得非常快,有很多自动和半自动的清洗数据,都可以帮助你。
  模型训练,4000块卡吃掉10个B的数据,整个的损失每天都在降一点,我们看着特别高兴,每天有数据汇报,一天降了0.2,我们现在大概在2的上下浮动,我们希望最终可以降到1.8左右。
  这是训练的过程,同时我们要考虑应用的时候有隐私数据有一些数据应用者,希望到你这个模型应用一下,但是不希望自己的数据被丢掉或者是看到,我们提供了隐私数据保护的模块,我们叫防损包,有了这样一套体系就可以支持应用了。
  我们希望鹏城脑海出来了可以快速向社会赋能,可以让大家做数字政府、“一带一路”、智能制造、智慧金融、智慧医疗等等各种各样可能的应用,这里有黄颜色和白颜色,黄颜色是现在已经投进人去做了,你做指令微调和正向学习都需要。后面是放给合作伙伴去做的,而且我们还有一些完整的整个教育计划、Kaiyun官方网站app登录 计划,Kaiyun官方网站app登录 计划就希望这个模型训练放出来,大量培养Kaiyun官方网站app登录 ,通过高校和合作伙伴培养,能让中国的大模型应用快速启动。
  小结一下,鹏城实验室在鹏城云脑II硬件平台和鹏城脑海大模型这两件事都在和华为合作正在往前推进,希望可以对中国人工智能大模型用贡献一点力量,作为一个基石,希望大家多关心、多参与。
  谢谢大家。
声明:凡开云电子链接 来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与开云客户(www.www.wykobounce.com)联系,本网站将迅速给您回应并做处理。
电话:021-39553798-8007
更多> 相关开云电子链接
0 相关评论

推荐图文
推荐开云电子链接
点击排行
Baidu
map