当大模型的竞赛延续到2025年,原本就已经显露出融资遇冷趋势的国内AI六小虎,又被DeepSeek引发出一轮价值重估的新挑战。
但在上述压力之下,“清华帮”灵魂人物唐杰带领的智谱,第一个站出来打破了外界的部分质疑,靠的则是近期完成了一轮10亿元人民币新融资。
值得一提的亮点是,投资阵营中出现了杭州城投产业基金、上城资本的身影,而杭州恰恰是DeepSeek的“据点”。
脱胎于清华教授唐杰带领研发的Aminer项目,智谱从一开始就有浓厚的“科研味”,也是“清华帮”的典型代表。
成立于2019年的智谱,汇集了一帮清华“大牛”,CEO张鹏本硕博均毕业于清华,董事长刘德兵、总裁王绍兰同为清华校友。
一成立,智谱就拿下中科创星的天使轮投资;次年,智谱A轮融资过亿元;2022年,智谱再次拿下B轮数亿元融资;2023年,智谱再宣布获得25亿元融资,美团、蚂蚁、阿里、腾讯、小米等一众知名企业也参与其中。去年底,智谱再30亿元融资,估值达到200亿元。
仅仅是因为“清华背景”吗?或者说,“清华背景”到底意味着什么?
图源:智谱官网
在GPT-3横空出世,智谱要下是否要做千亿大模型的决策时,清楚地知道失败有可能把公司送进坟墓。唐杰在决策会上表态称,如果成功了,“那至少证明中国的大模型公司,技术能力也能达到世界级水平”。
而智谱走了当时还不甚成熟的GLM(通用语言模型)路径时,中国没有自己的预训练模型框架,要“打破西方的路径垄断”。
为何一家AI创业公司做重要决策时,定调如此宏大?
当我们梳理智谱“灵魂人物”唐杰的来时路时,发现一切还要从咖啡说起。
如果你什么都不知道,看到唐杰,可能很难将之与清华教授、人工智能专家联系起来。
1977年出生,唐杰今年也不过48岁,看起来要更年轻一些——戴副眼镜,斯文但不柔弱,说话的时候总是挂着笑。
毕竟,喜欢“铁人三项”运动的人哪里柔弱得了?全程铁人三项226公里,包含游泳3.8公里、自行车骑行180公里、跑步42.2公里。就算是短距离的比赛,也得跑游骑几十公里。在唐杰的家里,摆着不止一枚铁人三项奖牌。
比拼耐力、专注力,也比拼跨维度的能力,正是唐杰擅长的。
图注:唐杰在办公室,图源:北京大学王选计算机研究所
自从硕士时期由自动化转至计算机专业,唐杰就在这条路上没回头,最终进入清华大学读博,从事语义Web和数据挖掘等相关研究。
2006年,世界在发生巨变,互联网来势汹汹,加校友的Facebook、人人都可以传视频的YouTube、“世界广场”Twitter都站稳了脚跟,国内博客文化兴起,起点中文网已经掀起网文热潮,周鸿祎创立了奇虎,冲击金山毒霸、瑞星杀毒等收费杀毒软件。
唐杰在这一年站在了人生的岔路口前。博士毕业了,大多数同学都出国深造或者去大的互联网公司了。要出国吗?要“下海”吗?
最终,唐杰选择留在国内、留在清华。
博士还没毕业的时候,参加学校的一次活动,唐杰了解到了北大计算机文字信息处理专家王选。
而留在中国做研究的选择,也许正是受了这位前辈的影响:“王选老师的汉字激光照排是独创的中国人自己的技术,他在我国七八十年代软件、硬件条件都不如国外的情况下,一步跨越国外40年的科研积累,直接攻下了汉字激光照排这个世界难题,令我印象深刻,也备受鼓舞。”
那一年的2月,王选与世长辞。而唐杰留任清华,并且很快就开始做后来非常成功的Aminer,一个具有完全自主知识产权的科技情报挖掘系统。和Google Scholar最大的区别是,Aminer不自己建Profile,而是在自动获取上做了很多算法。
博士毕业的一年时间,唐杰给自己定的目标是除了审论文外不发文章,全部精力投入到这个系统里。
刚开始,唐杰拉来两个同门,所有程序都只是在一台电脑和自己的笔记本上运行的demo,跑了几百天,抓了第一批200万个数据,还好清华的网络比较快。当时连美工都没有,产品第一个版本的网站界面是唐杰自己画的。
其后的若干年,唐杰一直带队不断完善Aminer,团队也不断扩大。最终感到在学校里维持一个大团队太痛苦,得到系里和学校的支持,Aminer成功产业化。
2020年,唐杰带领的Aminer团队因2008年发表的论文《ArnetMiner: extraction and mining of academic social networks》,获得了ACM SIGKDD 2020时间检验应用科学奖。彼时唐杰已经发表论文200余篇,拥有专利20余项。Aminer吸引了220个国家/地区1000多万独立IP访问。
而Aminer,也成为了智谱AI的前身。
做Aminer的十数年间,唐杰和其团队吃了不少苦。刚开始唐杰手头只有2万元钱,是博士论文被评为优秀的奖金,没有机器,没有计算资源,也没有人。后来逐渐有了资源可以调用,又经历了多番试错。
唐杰后来回忆,那个时候以学术研究为主,可以在项目上用一些算法做研究。效果大大提升了,就发paper,用的人少,就撤下来。这种“沿途下蛋”的哲学,后来也在智谱AI自然而然地得到了延续。
等到Aminer规模化之后,唐杰又面临复杂的挑战,人员开销、服务器开销都特别大,科研经费和自掏腰包已经无法满足。在包括微软等的合作进来后,情况才好一些。从学术研究到将Aminer变成一个产品,唐杰边试边学。
做研究苦,做研究并且产业化更难。
在旁人眼中,唐杰是不折不扣的“工作狂”,多年来每天凌晨2点起床,大多数时间泡在实验室中,几无中断。十几年中领域研究热点潮涨潮落,他的研究中心始终是Aminer系统。
“系统研发是要耐得住寂寞的”,而“专注”是唐杰被问及做研究什么最重要时常提到的词。
唐杰曾经撰写过一篇文章《用“咖啡”的精神做学问》,这也成为了他的名言。那是他在香港科技大学做短期访问期间悟到的理,喝咖啡固然上瘾,可为什么非得戒呢?“上瘾”是人生的精彩所在,如果做研究能像喝咖啡一样上瘾,又何愁研究走不好呢?
唐杰的得意门生、后来创办月之暗面的杨植麟,也深受“咖啡主义”的影响。
如果只说“专注”,解释不了唐杰为何成为AI领域创业“清华帮”的灵魂人物之一。
OpenAI的创始故事已经广为人知:2015年,谷歌以约6亿美元的价格收购DeepMind,几个月后,由奥特曼、马斯克、布洛克曼等人的主导下,OpenAI成立了——誓要对抗谷歌,让AGI造福人类。
2018年,距离ChatGPT让OpenAI家喻户晓还有4年,北京最有活力的人工智能学术圈已经受到了来自大洋彼岸的震动。还是谷歌,其语言小组冠名的一篇论文提出了知名的预训练语言模型BERT,引发了NLP(自然语言处理)领域的变革。
一个月后,智源研究所在北京成立,前微软亚洲研究院创始人之一、刚从金山CEO位置上退休的张宏江主导了这一切。从一开始,智源就被定位为一所民间、非营利、新型科研机构。既然要科研创新,就要跳脱出传统的权力体系,让真正的理想主义升腾。
智源也成为了AI创业的“黄埔军校”。研究员就在清华东南门外。成立次年,智源推出“智源学者计划”,唐杰成为了智源学者。
2019年,Aminer单独拆分出来,成立新公司智谱AI。唐杰作为“灵魂人物”、创始人之一出任首席顾问,一直与唐杰合作的同门师兄弟张鹏成为了CTO,后来出任CEO。
而一场巨变就在眼前,唐杰很快就会挑起重任。
2020年,OpenAI发布了GPT-3,万张显卡的资源投入,Scaling Law显现。其参数规模高达 1750 亿,不仅能做语言生成,而且对语言的理解能力也有了很大的提升。
大模型时代,突然开启了。
刚开始,大家感觉到一种绝望。2020年之前,很多模型在国际上获得了关注,但远不能与GPT-3相比。“我们以前最多只能在一台V100的8张卡上做实验。”后来创办面壁智能的刘知远曾回忆,“如果不马上跟进,差距就会越来越大。”
很快,智源启动了“百人大模型计划”,项目取用清华校园和智源研究所所在的“五道口”的谐音,被命名为“悟道”,唐杰任负责人。
这是耗资巨大的“拓荒”项目,唐杰敢带队已经是魄力的展现。2021年初,悟道1.0大模型登场,唐杰调用外部资源,3个月后,悟道2.0亮相——1.75万亿参数量,超出GPT-3近10倍,创造当时的全球纪录。
这件事的意义不言而喻,而其中的风险可想而知。争议也随之出现,认为太“烧钱”。带队的唐杰,是需要顶住压力完成中国在大模型领域的拓荒的。
张宏江在接受《极客公园》采访时曾说,在悟道2.0发布之后,当智源当时的两位院长黄铁军和唐杰以及其他智源学者都说这件事值得坚持时,他才真正坚信大模型这个方向。
图源:智源研究院
悟道模型的发布,进一步推动了AI“清华帮”的壮大。黄民烈创立聆心智能(后被智谱收购)、孙茂松的博士生岂凡超创立了深言科技,刘知远创立了面壁智能,而同样师从孙茂松的朱军建立了生数科技。
最被人所知的,还是曾师从唐杰的杨植麟,在2023年创办了月之暗面。杨植麟也曾多次提到从唐杰那里学到的理念,在长文《我所理解的大学生活》中就提到:“(唐杰)一直跟我强调的一件事就是,赚多少钱不是最重要的,重要的是能不能把东西做到世界第一。我不能同意更多。”
“科研就像登山,一定要登到顶峰,不登顶就是失败。”要做就做最好的,唐杰的行事风格也许从留在国内、留在清华就已经注定。
在另一边,智谱AI也延续了这样的风格——就是要做大模型,而且目标是登顶。
智谱AI也曾同样面临抉择:要不要追OpenAI?
GPT-3发布的日子,2020年6月11日,正是智谱的1周岁生日。
15个月之后,2021年底,智谱开了一场关乎公司生死的决策会。除了CEO张鹏、工程师外,“灵魂人物”唐杰、董事长刘德兵等也都参加了。
《人物》曾描写那次决策会的场面:工程师默不作声,以示反抗。千万人民币的投入,举全公司之力、至少八九个月,这样的风险太大。
说白了,一旦失败,智谱有可能就不复存在了。
唐杰在会上表态,表的是“登顶”的决心,如果成功了:“那至少证明中国的大模型公司,技术能力也能达到世界级水平。”
很难说这是一个商业公司的“理性”发言,也许只有在高校科研背景、始终抱有理想主义的企业才会听到创始人这样的发言。更关键的是,在这一点上,公司高层之间颇有默契,张鹏、刘德兵也都支持追。最终,决策下得很平静。
决策会9个月后、GPT-3发布26个月后,智谱AI联合清华大学打造出了GLM-130B,参数规模1300亿。
追赶并没有结束,很快OpenAI的ChatGPT就推出了,而智谱在4个月后再次推出对标模型ChatGLM。次日,OpenAI又发布了GPT-4。不到一年,GLM-4也推出了。这一次,GLM对GPT的追赶从26个月缩短到10个月。
而智谱最终用自己提出的全新的GLM(通用语言模型)路径,而非最主流的GPT、BERT、T5,其原因也显得颇为宏大:为了打破西方的路径垄断。此前,中国没有自己的预训练模型框架。
甚至,唐杰在2024年第二届北京人工智能产业创新发展大会上说:“我们非常希望在这个时代解密所有OpenAI做的东西。”
“一定要登顶,不登顶就是失败。”虽然产品线对标OpenAI,但仅仅做中国的OpenAI并不能算登顶。
最终要达到的,还是AGI(通用型人工智能)。依托智谱的科研背景和早早设定的高目标,这几乎是水到渠成。张鹏在行业内有一句名言:“25亿元的融资根本不够,不管融多少、挣多少钱,都是通向AGI这条路上的盘缠。”
“选方向,要看未来,不要盲目跟风。”唐杰认为选择是努力的前提。
2019年智谱成立时,定下了实现AGI的愿景,并将AGI的发展分为五个阶段:L1预训练大模型、L2对齐与推理、L3自我学习、L4自我认知、L5意识智能。5年后,2024年7月,OpenAI也提出AGI五阶段框架,分别是L1对话式机器人、L2推理者、L3智能体、L4创新者、L5组织者。
2025年1月,由DeepSeek R1掀起了全球推理模型的讨论,正在智谱的AGI五阶段预测中。在前不久的巴黎AI峰会上,唐杰表示:“我们目前正处在L2和L3的交汇处。”
据硅星人,智谱正在训练下一代“沉思”模型,而且将2025年定义为开源年,接下来也会发布和开源各系列全新大模型。对于智谱来说,这更像是一种对最初路线的再确认。
登顶的决心也许未必能最终保证登顶的成功,智谱和一众“清华帮”“浙大帮”“交大帮”也许还有很长的路要走、很多挑战需要跨越。如何持续落地,如何应对“烧钱”难题,如何更好地商业化,这都是需要唐杰一一回答的问题。
但唐杰这群人所具有的理想主义精神、决心,以及从科研经验中生长出来的眼光,将长久地为跨越挑战提供动力,也将继续吸引人才与资金。热钱涌向“高校帮”,但不仅仅为“高校光环”。
在悟道2.0发布之后,有人问唐杰为什么他们能在这么短的时间内拿出这么多成果,唐杰笑着给出了一个简单但耐人寻味的回答:“因为我们早就开始做了呀。”
不论前路如何,也许都该祝福唐杰们,祝福咖啡主义的风持续吹向中国人工智能。
参考资料:
1、时代财经:《三个清华校友,争抢大模型一哥》
2、人物:《追OpenAI的人》
3、36氪:《对话智谱AI CEO张鹏:我们不做中国的ChatGPT|36氪专访》
4、第一新声:《20年蛰伏,低调成就一位大模型领袖》
5、机器之声:《专访唐杰:万亿参数大模型只是一个开始》
6、京报网:《争夺“AI领跑者”,北京靠什么》