“东方神秘力量” 爆火国产AI大模型背后的年轻人
9 小时前 / 阅读约12分钟
来源:凤凰网
DeepSeek大模型发布之后,便如同一头年轻的野兽,冲入公众视野,搅动整个AI圈

▲图/视觉中国

2024年岁末,DeepSeek-V3大模型发布,迅速成为全球人工智能(AI)领域的焦点,刷屏科技圈,很多人化身“自来水”,在各大社交媒体、科技论坛上发帖讨论,不吝溢美之词。

在全球范围内的行业基准测试中,DeepSeek-V3达到与Llama 3(开源大模型标杆,由扎克伯格的Meta公司开发)、GPT-4o(OpenAI大模型)相当的水平,闯入了多个AI大模型排行榜单前列。聊天机器人竞技场(Chatbot Arena)最新数据显示,DeepSeek-V3位列开源模型榜第一,在全模型榜单里排名第七,也是中国模型中排名最高的。更令人诧异的是,DeepSeek-V3模型训练所消耗的算力,只有Llama的1/11。

DeepSeek-V3轰动AI圈,背后的中国公司深度求索(DeepSeek)也“浮出水面”。硅谷同行称其为“东方神秘力量”,对DeepSeek团队表现出浓厚的兴趣。而在国内,“雷军千万年薪挖角DeepSeek研究员罗福莉”的话题也上了社交平台热搜。

不管是AI圈,还是“吃瓜群众”,都在好奇,DeepSeek-V3大模型的背后,到底是一支什么样的团队?

走出校园不久的年轻人

2024年12月底,有媒体报道,雷军以千万年薪招揽一名“天才AI少女”来领导小米的AI大模型团队。这位95后“少女”名叫罗福莉,过去两年供职于DeepSeek团队,曾参与DeepSeek大模型的关键研发。

罗福莉在北京大学读计算语言学硕士期间,曾因在ACL(国际计算语言学协会)学术会议上发表多篇论文而受到关注。毕业后,她进入阿里巴巴达摩院,从事预训练语言模型相关的工作。2022年加入深度求索母公司幻方量化,之后成为DeepSeek大模型项目成员。

DeepSeek-v3的出现,让很多人以为,DeepSeek团队必然有“大牛”坐镇。但罗福莉走红却让外界发现,真正的“大牛”是那些像她一样的年轻人。

▲罗福莉 图/罗福莉个人公众号

2023年5月,DeepSeek-V2发布,相比于国内外主流大模型,大幅减少了计算量和推理显存,一问世就备受关注。做出这一突破性创新的,是年轻的高华佐和曾旺丁等人。

两人都刚从学校出来没几年。高华佐来自广东,2012年在华南师范大学附属中学就读时,曾获第29届全国中学生物理竞赛一等奖,并于次年保送至北京大学物理学院学习。曾旺丁来自湖南省新化县,2017年至2023年就读于北京邮电大学人工智能学院,硕士期间主要学习人工智能方向,导师为张洪刚,2018年曾获全国大学生数学竞赛(非数学类)二等奖。

DeepSeek大模型的另一大突破,是通过一种名为GRPO的算法,创新训练方法,大大降低了成本。其中的主角,依然是这些看似缺少经验的年轻人。

核心成员之一邵智宏此前是清华大学交互式人工智能(CoAI)课题组博士生,主要研究自然语言处理、深度学习,对构建稳健且可扩展的AI系统有着独特见解。他曾服务于微软研究院,加入DeepSeek团队之后,参与了多个重要项目的研发,包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。

GRPO算法创新的另一重要贡献者是朱琪豪。这位北京大学计算机学院2024届的博士毕业生,专注于深度代码学习研究。在校期间,他展现了惊人的学术能力,发表CCF(中国计算机学会)-A类论文16篇,获得了软件工程领域顶级会议(ESEC/FSE)杰出论文奖。他的博士论文《语言定义感知的深度代码学习技术及应用》入选了2024CCF软件工程专业委员会博士学位论文激励计划。他在DeepSeek团队最重要的工作,正是基于自己的博士论文,主导开发DeepSeek大模型的一个关键项目。

他的同学代达劢则在更早的时候加入这个团队,参与了DeepSeek大模型从V1到V3每一代的研发,已经是元老级研发人员,也在学生时代获得多项论文奖。

▲朱琪豪 图/北京大学计算机学院公众号

▲代达劢 图/北京大学计算机学院公众号

负责DeepSeek大模型训练及推理基础架构的,是同样刚毕业的工程师赵成钢。加入DeepSeek之前,他曾在英伟达公司实习。赵成钢在学生时代就取得过令人艳羡的成绩。在河北衡水中学就读时,他是信息学竞赛班成员,2016年获得全国青少年信息学奥林匹克竞赛银牌。在清华大学读大二时,他成为学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。

DeepSeek团队规模并不大,不到140人,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。

吴俣是DeepSeek后训练团队的负责人,在进入深度求索之前,只有4年工作经验。他曾在微软亚洲研究院工作,参与了小冰(AI聊天机器人)和必应百科项目。他是北京航空航天大学计算机学院2019届博士。

“我们的核心技术岗位,基本以应届和毕业一两年的人为主。”深度求索创始人梁文锋此前向媒体表示,做一件长期的事,经验其实没那么重要,相比之下基础能力、创造性和热爱等更重要。因此,在组建DeepSeek团队时,他招人的原则是“看能力,而不是看经验”。他认为,或许目前世界排名前50的顶尖AI人才还不在中国,“但我们能自己打造这样的人。”

而这些一边搞研发一边写论文的年轻人,也一次又一次带给他惊喜。

便宜的大模型

DeepSeek大模型发布之后,便如同一头年轻的野兽,冲入公众视野,搅动整个AI圈。

2024年5月,Deepseek-V2推出后,不仅一鸣惊人,还掀起了一场AI大模型价格战。这款开源模型的推理成本仅为每百万Token(词元,语言模型中用数字来表示单词的最小语义单位,一个汉字约等于两个词元)1元人民币,只有Llama 3的1/7,GPT-4 Turbo(OpenAI最新的语言模型)的1/70。

面对如此巨大的成本差,国内主流大模型不得不“忍痛”降价,包括腾讯、百度、阿里巴巴、字节跳动等公司相继更新了价格。仅仅半年之后,Deepseek-V3模型发布,输入价格降至0.5元/百万Token,又推动了新一轮的国产大模型降价潮。2024年12月,字节跳动下调旗下豆包视觉理解模型输入价格,相比行业平均水平降低85%。

DeepSeek因此有“价格屠夫”之称,也有人称之为“AI界的拼多多”,甚至DeepSeek聊天机器人也用这一称呼描述自己。

然而,与一些厂商依靠“烧钱”补贴维持低价不同,DeepSeek大模型虽然更便宜,但依然有利润。“我们只是按照自己的步调来做事,然后核算成本定价。”梁文锋称,DeepSeek不小心成了一条“鲶鱼”。

Deepseek大模型的“便宜”源于技术的突破。深度求索公布的信息显示,DeepSeek-V3模型全程训练只用了不到280万个GPU小时(图形处理器使用时间),而Meta公司的Llama 3 405B模型训练时长是3080万GPU小时。

训练效率的大幅提升,来自于DeepSeek团队在模型架构和训练方法上的创新。

2024年,高华佐和曾旺丁等人在Transformer架构(一种采用“注意力机制”的深度学习模型,2017年由谷歌推出后,成为各类AI大模型的首选架构)的基础上,用新的MLA(多头潜在注意力机制)替代了传统的多头注意力机制,压缩数据,把推理显存降至此前常用MHA架构的5%-13%;还借助自研的DeepSeekMoE结构,在保持性能的前提下,极大减少了计算量。这种架构层面的创新,在国内大模型公司中极为罕见。

与此同时,DeepSeek利用算法,把数据进行总结和分类,经过选择性处理之后,输送给大模型,提高了训练效率。而此前如OpenAI的训练方法则是“大水漫灌式”,拿海量数据喂,需消耗更多资源。这种训练方法的创新,也降低了DeepSeek的成本。

深度求索官方信息显示,DeepSeek-V3大模型训练仅耗时不到两个月,花费了557.6万美元和2048块GPU(图形处理器)。而斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI的GPT-4模型训练成本约为7800万美元,GPT-4o则为1亿美元;谷歌Gemini Ultra的计算成本为1.91亿美元。Meta于2024年7月发布的开源模型Llama3.1-405B,则消耗了1.6万块GPU用于训练。

DeepSeek-V3的出现,实现了高性能与低成本的平衡,给大模型发展提供了新的可能性。“未来或许不需要超大规模的GPU集群了。”OpenAI创始成员Andrej Karpathy表示。

也有学术专家认为不宜过高评价DeepSeek-V3的创新,因为其成功更多得益于整合前人已有的技术,缺乏底层原理的创新。

站在“巨人”的肩膀上,DeepSeek团队也乐意将自己的创新共享给更多人。DeepSeek-V3上线时,深度求索也同步开放源代码,并发布了53页论文,将模型的关键技术和训练细节全部分享给外界。

在新技术浪潮中成为创新贡献者

2023年5月,梁文锋成立了新公司“深度求索”。他对外宣布,要做“真正人类级别的人工智能”。在此之前,他是私募基金“幻方量化”的创始人。

那时候,网上已有传闻称,中国持有高性能GPU最多的机构不是人工智能公司,而是一家量化私募。据《财经》报道,2023年,中国拥有1万张以上GPU的企业不超过5家,只有幻方量化不是科技“大厂”。

这颠覆了很多人的想法。跟钱打交道的基金经理,为什么如此执着于人工智能?

1980年代,梁文锋出生于广东一座五线城市。他的父亲是一位小学老师,那个时候,常有家长跑到他家,表示“读书没用”,不想让孩子继续念书,因为觉得广东充满了赚钱的机会。但受父亲的影响,梁文锋对知识一直充满渴望。

在浙江大学攻读信息与电子工程学本科和硕士时,他对人工智能产生了浓厚的兴趣,笃信“人工智能一定会改变世界”。2008年毕业之后,他和朋友一起做量化投资,尝试通过数学模型,用计算机程序进行交易。

持续多年在量化投资领域的探索,让他对技术驱动型创新越发有了信心。2015年,他与校友徐进成立“幻方量化”。后者是浙江大学信号与信息处理博士,曾任职于华为技术有限公司上海研究所。他们买了不少GPU,打造研究室,开始尝试借助AI技术构建投资策略。这帮助幻方量化在4年时间里成长为一家管理资金规模过百亿的私募公司。

2019年,他们成立了AI公司,投资超过10亿元,先后研发了AI超级计算机“萤火一号”和“萤火二号”。其中,“萤火二号”搭载了约1万张英伟达A100显卡,算力超过72万台个人电脑。借助AI超级计算机,幻方量化管理的资产在2021年突破1000亿元。

2022年底,ChatGPT的横空出世让已经积累多年的梁文峰下定决心做通用人工智能。“我们建了一个名为深度求索的新公司,从语言大模型开始,后边也会有视觉等。”实际上,OpenAI公开论文和代码后,国内外出现了许多大模型公司。梁文峰认为,在未来20年,大厂和创业公司都有机会。

不过,直到第三代大模型发布,DeepSeek团队依然没有上线相应的应用,尚未全面考虑商业化,而且与多数国产大模型不同,他们选择了开源路线。

梁文峰向媒体透露,他和团队的目标并不是做一个应用,而是进行基础研究,只负责基础模型和前沿的创新。

在互联网时代,很多人都会有一种惯性思维,认为欧美科技圈擅长从0到1的技术创新,而中国人更习惯从1到N,在应用层面发力。“很多中国公司习惯follow(跟随)而不是创新。”梁文峰认为,过去30年,这些企业更强调赚钱,忽视了创新。

他相信中国AI不会“永远处于跟随的位置”,希望深度求索以创新贡献者的身份加入新的技术浪潮之中。“创新首先需要自信。”他说。

  • C114通信网
  • 通信人家园