此外,郑纬民还指出了一种全新的AI推理发展新趋势——“以存换算”。他以清华大学与AI独角兽企业月之暗面共同开发的Mooncake技术框架为例,介绍了该技术基于“以存换算”思路,帮助月之暗面kimi智能助手缓解算力紧张需求的原理,从而避免服务器宕机。
“把大模型训练搬到超算上,价钱只需英伟达1/6”
郑纬民看到,在经过ChatGPT发布后全球各科技企业快速追赶后,今年大模型有两个特点:第一,基础大模型进入多模态状态,不只有文本,还有图像、视频等;第二,真的用起来了,大模型正与各行业实际的结合,比如大模型+金融,大模型+医疗、大模型+汽车、大模型+智能制造等。
“大模型真的在与国民经济GDP、跟人们的生活水平密切结合,我一直认为基础大模型我们的水平跟美国比还是差一点,但‘大模型+’这件事,我们还是有希望超过美国的。”郑纬民表示。
然而,大模型真实的应用过程中,在涉及数据获取、数据预处理、模型训练、模型微调、模型推理等五个环节在内的全生命周期中,却需要大量的算力资源。如何以更低的成本获取更加高效、更高可靠的AI大模型算力资源,成为每家企业都在思考的问题。
迫于海外高端芯片获取的困难,目前国内为满足AI大模型训练带来的海量算力需求,主要发展出的一种解决思路是:通过搭建千卡、万卡集群,通过海量芯片半导体堆叠,采购多家厂商的芯片进行异构卡联合训练,来满足自己大模型产品训练的海量算力需求。但在郑纬民看来,这种方式虽能解决算力紧缺问题,但也存在一些弊端。
首先,对于构建国产万卡系统,建成固然重要,但用好却很难。郑纬民以自己做高性能计算的亲身经历现身说法道:“建一个2000卡的系统,其中1000块用英伟达芯片,另外1000块用其他厂家的,系统建成也运转起来了,但最终发现这些芯片性能不一,有的本事小一点,有的本事大一点,一个任务下来分成2000份,还要给其中1000个芯片分小一点的任务,另外1000个分大一点的任务,这还是静态的,如果是动态的,则直接分成了2000份最小的进行处理,性能很低。”
郑纬民指出,大规模算力集群建设过程中存在木桶效应,有的计算卡能力强,有的则弱,就像整个桶装多少水最终是由短板决定的,板子再长也没有用。“所以1000个老GPU和1000个新GPU合起来,性能比2000个老GPU性能还低一点,做大规模算力集群的成本也挺大。”
在郑纬民看来,进行大规模异构卡联合训练,在静态环境下想要实现最高的性能很难,并不划算,如果再涉及异地卡,就会更难,数据从北京传到贵州,贵州做出来结果再送到上海,这中间涉及的时间成本极高。“钱少的人不需要做,钱多的人可以试试。”
郑纬民建议企业尝试采用超算来进行AI大模型训练。“我国有14亿超算系统,钱都是国家付的,有的机器还有一点富余,因为国内超算机器收费便宜,不像英伟达要把机器成本收回来还要赚钱,所以大家做大模型训练到青岛神威超算上做,六分之一的价格就够了。”郑纬民表示。
“以存换算,能够有效降低AI推理成本”
事实上,大模型真实的应用过程中,在涉及数据获取、数据预处理、模型训练、模型微调、模型推理等五个环节在内的全生命周期中,需要大量算力资源的同时,也需要有着大量的存储资源,用于存储海量计算结果。尤其在模型推理过程中,如何存得多、传得快、性价比高,成为整个行业都在共同思考的问题。
此前,郑纬民曾公开提及,“AI存储是人工智能大模型的关键基座,存储系统存在于大模型生命周期的每一环,是大模型的关键基座,通过以存强算、以存换算,先进的AI存储能够提升训练集群可用度,降低推理成本,提升用户体验。”
在与新浪科技沟通中,郑纬民分享了“以存换算”的基本原理。他指出,“大模型不管是训练还是推理,都需要很大的算力,同时也需要很多存储,用来存储大模型训练出来的海量参数,以及推理过程中产生的一些过程数据。”然而,如果整个训练或推理过程中需要存储的数据越来越多,这会导致存储器资源紧缺,最终反而又会成为大模型性能提升的“负担”。
据郑纬民介绍,为解决上述问题,清华大学想了两个办法:第一,在推理过程当中,目前主要是推理卡工作,主机CPU跟主机存储器是不用的,因此,可以想办法把主机上的存储器用到推理过程中,提升了存储器利用率,性能提升的同时,也节省了不断购买推理卡的资金成本;第二,将推理过程中产生的共性的、用户共用的内容存储起来,通过存储必要推理过程中产生的数据,当后续遇到类似问题的时候直接调用,直接省去了每次遇到类似问题时推理过程,提升了效率,同时节省了资源。
郑纬民以清华大学与月之暗面共同研发的Mooncake技术框架为例介绍指出,“通过将不同用户与Kimi对话的公共内容提炼出来,存储下来,这不仅减少了每次用户提问都要重新生成的过程,节省了许多算力卡,也减少了kimi因访问过大导致的‘访问延迟’或‘宕机’等问题。”
文 丨 新浪科技 周文猛