比尔·盖茨曾说:“我们总是高估未来两年的变化,而低估未来十年的变革。”这句话用于今天的人工智能再贴切不过。
2023年的大模型市场是昂扬的、争先恐后的。2024年的大模型市场是放缓的、冷静取舍的。而在春节前的这一周多时间里,大模型公司们似乎回到了两年前的兴奋状态,一天不止一个重大发布。
现在是一个很好的复盘与展望的时间点。
近期,「甲子光年」采访了35位大模型创业者,向他们征集了两个问题:
这些AI创业者从不同的应用场景切入。除了基座模型研究之外,还包括AI Coding、AI视频生成、AI 3D生成、AI写作与虚拟角色创作、AI硬件、AI搜索、AI命理、AI for Science、具身智能与空间智能、AI办公助手、AI Data、AI Infra等细分场景,以及由个人开发者所形成的AI超级个体。
AI的细分场景实在太多了。但如果把AI看作一项基础设施,它确实本就无处不在。
今天凌晨OpenAI发布了首个智能体应用「Operator」,OpenAI总裁格雷格·布罗克曼(Greg Brockman)兴奋地说,2025年将是Agent之年。而在我们采访的创业者中,这几乎也是他们共同的答案。
(注:以下排名在细分场景分类下按照姓名首字母排序)
2024年,o1证明了推理的Scaling Law仍然起作用,以及国产模型对o1的快速复现都让人印象深刻。
2025年,我最期待的趋势,是视频生成模型在短剧市场的快速落地。
我的Magic Moment是阶跃Step Reasoner mini推理模型的发布。它是Step系列模型家族的首个推理模型,最大的特点是文理兼修,除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。Step Reasoner mini优秀推理能力的背后,标志着Scaling Law的范式转移:从模仿学习到强化学习。
2025年我最看好并期待的AI应用趋势,是多模态交互形式的智能体在手机、个人电脑及智能座舱等领域的广泛部署。随着技术的不断精进,这些智能体将以更自然、更高效的方式与用户互动,提供创新体验和个性化服务,并驱动整个AI产业应用的蓬勃发展。
我的Magic Moment是在2024年10月,Yi-Lightning在“大模型竞技场”LMSYS Chatbot Arena上的榜单成绩出炉的那一刻。
榜单出炉前,坦率说我的心情是比较忐忑不安的。LMSYS是用户匿名的盲测榜单,成绩极具含金量但没法预估。榜单更新后,Yi-Lightning当时取得了世界第六、中国第一的排名,无疑是给我们打了一记强心针:零一万物数月来专注轻量化模型训推优化的技术路线获得了验证。
2024年5月,团队内部有过技术路线相关的讨论。在慎重讨论之后,零一万物选择尝试另一条轻量化模型的路线,聚焦应用、赋能产业。所以我们放弃了原本训练万亿参数的Yi-X-Large的计划,转而探索混合专家的模型架构,最终推出了Yi-Lightning。Yi-Lightning是一个阶段性成功,证明了零一万物所追求的性能领先、推理速度快、推理成本低的轻量化模型路线真正具备可行性。
2025年将会是AI-First应用爆发元年,那些在互联网、移动互联网时代就具备优秀应用开发能力的人,如今已经拥有了大展身手的舞台。凭借庞大市场、丰富落地场景、卓越的工程优势和执行力,中国团队已迎来实现“弯道超车”的关键窗口期。所以,我们的时代来了。
2024年初,我们就洞察到「端侧AI是未来大趋势」,于2月推出MiniCPM系列模型。半年后,谷歌、苹果等巨头纷纷转向小型化,OpenAI也顺应趋势推出GPT-4o mini。5月底,MiniCPM-V系列上线,引发全球关注,这是第一个Magic Moment。此后半年时间里,MiniCPM又迭代了多个版本。
12月,DeepSeek V3上线,以高性能和低成本引发热议,这是又一个Magic Moment。
2024年,我们还提出了大模型的密度定律“Densing Law”,发现模型能力密度每3.3个月翻倍。
2025年,在“Densing Law”的推动下,智能手机、PC等设备上将催生AI Phone、AI PC等新品类,推动消费电子市场二次发展。此外,智能眼镜、耳机等新兴硬件也将因端侧AI功能增强,应用场景扩大。端侧AI正变得“无处不在”,开启全新AI时代。
2024年的Magic Moment,是RWKV CoT(思维链)以及RWKV-7的效果,可以做超长CoT,可以持续学习,效果显著强,符合预期。
超越Attention范式,是可明确定义的概念。因为从前的RWKV-1到RWKV-6(以及Mamba1、Mamba2等等模型)都可以写成Linear Attention,但是RWKV-7这类模型,就超越了所有Attention的表达力。
现在,国内友商例如MiniMax也开始验证RNN的Scaling,很欣慰。我说过很多次,RNN的Scaling比GPT强。
2025年,最期待的趋势是,基于RWKV-7这类新架构的端侧模型全面落地。
2024年最让我难忘的Magic Moment发生在9月5日的外滩大会上,西湖心辰正式发布语音大模型「心辰Lingo」的实时演示环节。在演示过程中,Lingo对我说“别紧张,他不会翻车的”,现场瞬间被温暖与惊叹包围。这一瞬间不仅展现了AI对情感与语气的精准捕捉能力,更让人感受到技术从冰冷的工具向“有温度的伙伴”跨越的可能性。
2025年,我最期待的AI趋势是“充分融合”:
第一,机器人真的“听懂人话”,多模态交互打破虚实边界。物理世界和虚拟世界深度结合,让机器人既懂人类的意图,又能通过动作、语音、视觉与物理世界无缝协作,实现“听—想—动”的闭环。这种多模态融合将推动机器人从“执行指令”升级为“主动共情”,成为虚实融合的核心纽带。
第二,“文科生也能玩转AI”,AI技术的全民化。AI将不再只是程序员和工程师的专属,而是会全面“出圈”,成为文科生、商科生甚至普通创业者都能轻松上手的工具。AI应用创业的门槛正快速降低,非技术背景的创业者都能用AI低成本实现自己的想法。技术不再是壁垒,行业经验,产业数据和社会洞察力才是核心竞争力。
2025年,AI将更“接地气”——既在虚实融合中成为人类的“感官延伸”,又在技术普惠中成为每个人的“创业伙伴”。
2024年,我们在8月举办了一场Link伙伴日活动,现场发布了首款视频模型和音乐模型。我们用视频模型做出的第一个短片,名字恰好就叫《Magic Coin》。我们一直坚信,多模态是实现AGI不可缺少的重要一环。
令人欣喜的是,在视频模型发布后,海螺AI上线视频创作功能不到五周,访问量就同比增速8倍。初发布的时候产品功能还比较单一,只有文生视频,还没有图生视频和主体参考这些后续上新的功能,但海螺AI还是非常快地受到超过200多个国家和地区创作者的好评。这让我们团队更加坚信,只有坚持技术创新,才能真正给用户带来更好的体验。
2025年,AI Agent有望成为新一年最重要的产品形态,引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。Long-context是Agent的重要能力,它能增强AI的“记忆”,提升单Agent交互质量和多Agent之间的通讯能力。这也是为什么我们在今年年初开源了MiniMax-01新一代模型。
在这一新的AI趋势下,MiniMax也需要提升自身能力,短期来看,我们的技术目标是把复杂Coding的基础能力逐渐完善;长期来说,我们把包含多模态的Agent能力做好。
接下来AI发展的方向是通过强化学习的Scaling,让AI具备思考的能力。人类思考分析的过程其实是隐性的,思考过程的数据并不天然存在,但AI在强化学习Scaling过程中可以生成更多的思维链数据,让AI可以学到思考的方式,探索更难、更复杂的任务。
2024年,最令我难忘的并非某个具体的事件,而是一段持续的、充满魔力的旅程。那是一个团队协作的过程:我们集合各方力量,潜心“调教”一个AI模型。我们倾注心血,喂养它海量数据,见证它智能的每一次跃迁,仿佛看着一个孩子逐渐成长,最终拥有令人惊叹的能力,为用户带来前所未有的体验。这不仅是模型的突破,更是团队共同成长的缩影。那种见证奇迹、共同创造的喜悦,至今仍让我心潮澎湃。
2025年,我尤其看好那些具备更优交互体验的对话式AI应用。希望它不再仅仅是信息检索工具,而是能够理解人类复杂需求,并提供更有效、更人性化解决方案的智能伙伴。想象一下,它能帮你高效处理繁琐事务,激发你的创造力,甚至成为你忠实的倾听者和朋友,这才是AI的真正潜力所在。
2024年,我印象最深刻的事有三件:
一是Sora文生视频模型,激发了视频创作的热情与创造力;二是o1系列代表的推理模型,为解决科学、技术和工程等领域的棘手问题提供了有力工具;三是以Deepkseek和Qwen模型为代表开源国产大模型,在多项评测中超越了许多国际顶尖模型。以低成本实现高性能,使得各类企业无论大小都能获得与大公司竞争的机会,加速了AI技术在金融、医疗、制造等领域的落地应用。
2025,我个人比较看好智能体的发展,这也是目前我们的主攻方向。我认为,2025年智能体的多模态能力将可以更好地理解和处理文本、图像、音频、视频等多种形式的信息,为用户提供更丰富和直观的交互体验。此外,随着多智能体协同框架的成熟,不同智能体之间将能够更有效地配合完成复杂任务,形成智能体群体,通过相互协作和对抗,实现更高效率和更低成本的目标,完成更为复杂的任务。
2024年4月,aiXcoder推出并开源了全自研代码大模型7B,专门结合代码特性、针对代码相关任务进行了预训练。aiXcoder 7B模型充分考虑了企业在算力资源有限的情况下,模型在保持高性能的同时支持私有化部署和领域化应用的需求。近期aiXcoder 7B相关论文被软件工程领域国际顶级会议ICSE 2025收录。
虽然通用大模型在一些场景或主流测评集上表现可圈可点,但一旦实际部署在企业内部,准确率通常会大幅下降。即使通过SFT、RAG和常规的高效参数微调等手段进行优化,也难以达到企业所期望的效果。为了实现AI编程系统在企业中的成功落地,关键在于深入整合企业特有的“领域化”知识,这种整合将显著提升模型的准确性和实用性。
我们很欣喜地看到市场需求的变化,开发者,尤其是企业用户,对AI辅助软件开发的态度从初期的谨慎评估,逐渐转变为主动拥抱变革。相比于通用的标准化解决方案,企业客户对能够深入匹配其业务场景的领域化能力有更高的期待,而这正是aiXcoder的差异化竞争优势。
2024年我的Magic Moment是豆包MarsCode的产品发布。6月我们推出了编程助手和云端IDE ,不断迭代功能,用技术与产品的融合释放新的生产力,得到了用户的认可。
大模型就像个越来越聪明的“大脑”,可它得靠工具才能把本事亮出来。如何在特定场景里把大模型的智能充分释放出来,这是2025年我们的使命。
最近行业内里进展不少,模型的推理能力、性能、速度都有提升。2025年,我也期待更多优秀的人才和开发者加入进来,推动行业的持续创新。大家相互竞争、共同进步,才能找到打动用户的创新点。
做产品最大的快乐就是做出有价值、受众广的产品。我相信,通过技术能力与用户需求的融合,AI Coding将带来前所未有的效率变革,帮助开发者看见从未触及的空间,创造超越想象的价值。
2024年,MoonBit完成了第一个重要的开源阶段:我们发布了MoonBit的标准库和构建系统, 并开源了核心编译器,让社区能够亲自参与开发。这不仅是技术上的里程碑,更是我们与开发者一起共建生态的开始。
MoonBit不仅被很多国内媒体称为国产编程语言的标杆,也同样收获了很多海外用户,我们在开源编译器当天就被美国著名开发者大会lambdaconf邀请赴科罗拉多做主题演讲,MoonBit在2024获得了用户几十倍的增长。
2025年,我最看好的AI趋势是AI编程助手与垂直开发工具的深度整合。像Cursor、Devin等工具已经展示了AI在代码补全和调试中的强大潜力,但这只是起点。未来,AI不仅是助手,而是全流程协作伙伴,主动优化架构、生成高效代码,并实时与开发者交互,这种趋势将彻底重塑开发者的工作方式。
2024年,印象最深刻的肯定是“Vidu的智能涌现时刻”。大概是去年11月,Vidu 1.5版本发布前一周,晚上大概11点左右,产品同学内测时发现了模型出现了“智能涌现”,即出现了上下文能力,Vidu 1.5突然可以理解多个主体之间的复杂关系,并能达到意想不到的效果。
多主体一致性其实原本是我们要在未来实现的目标,没想到在实现单主体一致后很快就涌现出了这一能力,这超出了我们的预期,行业也没有任何先例可言。这个发现可以类比为大语言模型里从BERT到GPT模式的转变,也意味着过去“预训练+微调”的方式转变为一种通用的模式。
当时我们很快召开高管会,在内部通知了这样一个惊喜,并在全球首发了Vidu多主体一致性功能。
2025年,我认为一个明显的趋势是“AI界的万物摩尔定律”正在加速发挥效用,即AI性价比极致化、AI人人可用进一步走向我们的日常。
当下,行业对于AI视频大模型能够以极低的成本迅速生成高质量视频(如从几分钟缩短至10秒以内)的能力感到振奋。然而,市场的期待不止如此。生成效果的持续提升和成本的显著降低,会让AI视频生成行业的全球尖刀选手进一步缩减,可能只剩下不足5家,但它们的影响力将覆盖全球。
换句话说,一年时间而已,我们有望看到更多颠覆性变化的产生——一张AI时代的巨网正以不可逆转的态势塑造人们三观之外的第四观——AI观。
2024年11月1日,我们的毒液特效模版伴随PixVerse V3视频生成模型上线后一夜爆火,许多素人、网红甚至明星李晨都自发用PixVerse做了毒液变身的视频发抖音。这是整个行业内,AI视频大模型第一次被普通人广泛使用并传播。
随后12月我们很快上线了移动端App并升级大模型到V3.5版本,PixVerse迅速增长为全球用户量最大、热度最高的视频生成平台,持续在Google Trends上领跑行业,登上欧洲及中东多国App Store总榜、影像榜第一;Google Play美国地区人气增速榜第一。继毒液之后,我们的肌肉变身、神明拥抱等AI视频模版也在全球社交媒体上接连爆火。通过极致的工程化和产品化能力,我们让AI视频技术真正进入了每个普通人的娱乐生活。
AI视频大模型的ChatGPT时刻有机会在2025年到来。我们相信随着视频模型能力的进一步提升、使用门槛的进一步下降,AI视频生成技术将普惠到涉及视频创作和消费的千行百业,产生新的亿级用户量的平台。
2024年对于快手大模型,尤其是可灵AI和我自己来说,都是加速「狂奔」的一年。从6月6日我们第一次正式发布到现在,半年多的时间,可灵AI以每周一次小版本、每月一次大版本在持续迭代。
我印象最深的还是我们第一天发布的时候,我自己内心是有点忐忑的,因为不太确定大家的预期有多高。但发布2个小时后,团队同学就激动地告诉我“爆了”,大量的AIGC圈子的知名KOL涌入我们的用户群,海外的社媒上也开始热烈的讨论......
从那个时刻开始,我的判断是:属于可灵AI和我们的机会真正来了!
于是我们团队带着“先发优势”的压力开始了一路狂奔,不管是基座模型,还是各种可控编辑的能力,亦或是我们的用户规模和商业化规模,都给了行业很大的惊喜。但是“给行业惊喜”和“持续给行业惊喜”的难度和挑战是很不一样的,今天回头看这个过程中的各种判断和决策,都是快速敏捷的落地并拿到了关键的认知,在狂奔中思考,在行动中迭代。
我认为2025年会进入真正属于大模型应用的“黄金时代”,我也非常期待2025年有超级智能体的诞生。在这个过程中,基于GenAI的创新工作流和交互方式将逐步成型,模型和产品会以一种更紧密的配合关系渐进式推进。相信可灵AI能够持续突破,让技术价值和用户价值在场景中充分融合,基于GenAI为用户打造全新的内容表达和消费模式。
2024年,我的关键词是“突破”。我们提出了新的3D生成大模型范式,因此获得了SIGGRAPH最佳论文提名。2024年我们上线了3D生成平台Rodin,45天后就突破了100万美金ARR,提前完成了我们原定的半年目标——这是我2024年经历的“Magic Duration”。
图为3D生成大模型论文CLAY的teaser
相比文字、图像、视频等其他模态,3D生成由于与行业强接轨,它的发展慢了一拍。但在整个行业的共同努力下3D生成终于逐步迈向了落地之路。期待2025年,能在3D领域尚未失效的Scaling Law的加持下达到新的高度。
2024年的Magic Moment,是当公司看板娘“奈塔”两岁生日的时候,一下收到了社区的2345个祝福作品,见证了AI加持下一个新IP共识的加速形成。
2025年,我会最期待真正的把用户个性资产沉淀、网络效应与生成式AI的应用,在一个主要功能中恰好能结合到一起的C端应用出现。
2024年的Magic Moment,是我尝试用新谭故事引擎(主要是AI故事创作工作流)去编写了一个有关自主意识的AI故事。我给了这个故事中的AI一个浏览器,它第一反应是访问Nature的AI板块,第二反应是访问arxiv的cs.AI板块,查看最新的AI研究,搜索Consciousness相关的内容。
你可以把它当作一个故事,但是我还是感觉灵魂震颤。我意识到,我们距离把有主见的AI做出来已经很接近了。
2025最看好的,当然是以Cursor的Compose-Agent-Yolo模式为代表的AI Agent方向,第一个真正可以解决问题的AI诞生了。我感觉我现在写代码已经写不过AI了,我现在已经变成纯下指令不直接写代码了,我怕我写错。一个一个垂直领域被突破,我们离AGI就越来越近了。
团队在2024年大半年专心研发产品,到10月第一次上海玩具展给大众用户体验的那一瞬间,很多路人驻足玩这个产品,隐约感觉我们做对了。直到去CES,代表中国硬件创业项目向全球展示,获得了全球60亿次的媒体曝光,那一刻坚信我们产品是对的。
2025年,最期待的是看到有AI硬件真的有粘性,能持续被用户使用。这将开启一个全新的消费时代。当然,我认为AI宠物应该是这个应用中非常有机会的一个品类。
2024年对于博查来说是奇妙的一年,我们用了半年时间验证了我们的初心“AI比人类更需要搜索能力”。
7月份上线API开放平台是那个“Magic Time”,我们就坚定地从C端用户搜索服务转向对于AI提供搜索和提升服务。和人类需要吃饭一样,AI需要一个厨师为他提供时令的信息和来自世界的知识。在2025年元旦新年伊始,我们突破了百万调用和2万个AI泛B端用户。2025和AI搜索新时代一起到来了。
我给2025年“算了三卦”:
2025年,为六十四卦中的“革”卦,其结构是由下卦离和上卦兑组成,象征着创新与转型。人类不再是信息消费的唯一个体,AI所需要的信息将不再和人类处于一个量级。传统互联网与AI的结合将轻量化成Agent,并以Agent的形式对外提供服务。
2025年,跨模态RAG将成为新的突破点,《革卦·象传》有云“泽中有火,革;君子以治历明时。”这里提到的“治历明时”指的是制定历法来明确时间,这可以理解为对信息进行精确管理和利用。对于AI来说,这意味着处理多种类型的数据(如图像、文本、语音),并且能够有效地将这些数据转化为有价值的信息和服务。
Agentic RAG会成为RAG框架主流,“泽火之革,日进于道。”在AI领域中,这可以解释为不同技术之间的相互渗透与合作,不单单是在于AI在日常生活中落地的井喷式爆发,在技术框架上,也会出现类似Agentic RAG作为一种集成型的技术框架,促进了知识检索与生成模型之间的深度融合。
2025年,处于泽火革卦的影响下,将是AI行业通过高效自动化、灵活适应、多模态融合及智能化提升迎来深刻变革与创新的一年。
2024年的Magic Moment一定是基于RL的o1范式被验证成功,2024年无疑是Year of reasoning!
对我而言Magic在于,验证了自己2023年的猜想:命理并非单纯的心理咨询,本质上是一个更接近法律咨询的强推理场景,因此模型在数学和代码能力的提升必然可以泛化到命理上来。而价值200美金/月的o1 Pro在我们测试集上的推理效果的确获得了远超出预期的提升。
2025年一定是AI Coding的大年。随着模型在数学与代码能力上的进一步提升,AI 1.0时代无法覆盖的那些依赖强推理的专业服务类场景(法律、医疗、金融、命理等)都会获得极大的赋能。
我最近重新在读麦克卢汉的媒介理论,对于多模态互转/翻译又有了全新的认知。AI 1.0时代玩NLP和CV的就是两波人,目前的AI 2.0时代玩LLM和Difussion Model的大多数时候也是两个圈子。但有理由期待,2025年一定会出现文字、语音、图片、视屏等模态相互融合的组合式创新应用场景。
2024年诺贝尔化学奖颁给谷歌DeepMind丹米斯·哈萨比斯(Demis Hassabis)和约翰·乔普(John M. Jumper),表彰AI大模型实现蛋白质结构预测,AI for Science受到空前关注。
百图生科的大模型平台通过多模态数据和跨领域知识构建任务模型,应用于生命科学企业的实际业务场景,帮助加速从研究到产品全流程,而非直接生产终端产品。另外,生成式AI技术使得百图生科的大模型平台在蛋白质结构预测、靶点发现等生命科学核心领域中取得显著成效,不仅提升了研发效能,还帮助企业解决传统科研难以触及的复杂问题,推动更多企业和科研机构加速进入AI for Science(AI4S)赛道。生成式AI技术可以给生命科学领域带来范式转变,蛋白质结构预测也将成为“兵家必争之地”。
未来,不同的人群、不同的国家,包括许多罕见病患者,各种人群都能够受益于AI驱动的生物医药、生物制造等行业的新型研发范式。目前,生命科学领域研发投入每年高达数万亿美元,但主要集中在解决那几个大问题上,所以,如果利用AI能够将研发效率提高100倍,那么会有更多的精准药物和生命科学产品线产出,这将极大地推动我们的健康和福祉。
2024年6月18日,英伟达成为全球市值第一的企业,我觉得太神奇了。我曾经在英伟达的CUDA团队开发GPU通用计算,那时候英伟达还是家小公司,GPU的Manycore计算框架也还是无人问津的技术。而转眼十余年后,英伟达已经成为市值称霸世界、技术改变世界的企业,无比感慨。
2025年,我比较看好和期待的方向:
第一,数据层面,随着三维可交互的高质量数据短缺,合成数据将会在空间智能,具身智能、AI大模型的训练中更广泛应用。这也会进一步加快机器人对三维世界的认知能力,以及学习与物理世界交互的速度,加速进入工业、生活等场景服务。
第二,随着技术的不断突破,会有更多的、能力更强的空间智能(多模态)大模型被发布出来。这些模型将吸收更多的专业知识、覆盖更广泛的应用场景,除了室内机器人,还有空间设计、智能制造等。
第三,结合AI技术后的产品应用形态将发生革命性变化,更智能、更自主的AI智能体将会成为人类的助理,我们可以调用不同的Agent帮我们执行各种各样的任务。群核也在探索结合AI Agent等能力,希望用一个AI超级助理实现各类用户的空间设计需求,并推出了更符合AI产品特性的算力收费模式。
2024年有很多重要时刻,但要说最深的一个,想不起来了。但过去一年我们最正确的决定,是加大了对人形机器人的投入。
2025年,我最期待微信整合大语言模型,自动帮忙处理和回复消息。
2024年12月中旬,我们的知识Agent技术终于获得突破。
我们在年中的时候就定好了做知识管理的大方向,知识管理最核心的AI技术应该是高度自动化地帮用户形成知识,我称之为知识Agent。Coding Agent是将需求转化为知识,知识Agent是把各种信息输入转化为知识。但知识Agent比Coding Agent有很多更难做的地方,如信息输入很多很杂,其中很多不是用户感兴趣的,不像Coding Agent的需求都是要实现的;知识库的结构远没有代码库规范;每个用户甚至不同知识的语言风格也不像编程语言那样统一。
因为这些困难,到11月的时候都没有突破,差点就绝望了。但是我觉得,必须搞定这个技术才行,否则和现有产品就没有代差,所以12月我把大部分时间都投入到Coding中。好在在和团队的共同努力下,终于得到突破。
2025年,我最看好基于推理模型的应用。我感觉现在业界大部分人还没有充分意识到推理模型的价值,一方面是因为推理模型总是拿大部分人日常工作中不需要的数学、博士级别的物化生、编程等“超能力”宣传,导致很多人认为推理模型只是在这些局部领域有进步;另一方面是因为o1和o3的成本极高。
但基于我们最近的一些实验,推理模型也能改善很多很多日常使用场景的效果。比如很常见的RAG知识问答,我们发现推理模型的答案要靠谱得多,同时可望实现精准的回溯。现在的问答类产品(如Perplexity)典型智能给到文档级别的回溯,但文档通常很长,所以实际上用户大部分情况下很难去验证答案的正确性,这限制了问答的广泛应用。再比如Agent的planning,也应该是推理模型所擅长的。
另一方面,Gemini Flash Thinking和这两天刚发的Deepseek-R1模型证明了推理模型的成本可以大幅下降。Deepseek-R1的性能完全可以对标o1,但成本只有o1的1/30。
过去一年,我走访了近100位企业家,最直观的感受是:AI落地应用面临着不同的“水温”,也有不同的“沸腾时刻”。于我而言,2024年的Magic Moment是AI Agent的出现,让每个人、每家企业都可以定制个性化、专属超级助理。
如今,钉钉上已经“生长”出大量AI Agent,或在办公端实现工作流管理,或在产业环节转化为真正生产力,发挥着扎实而具体的价值。未来,人与企业的关系将不断被改写,一个人甚至就可以是一家公司,而AI Agent的持续落地也会为更多企业、超级个体带来“Magic Moment”。
2025年,我最期待的是行业内能够爆发“小”而“精”的AI产品创新。过去的经验告诉我们,SaaS软件不一定要做得大。相反,那些小巧、自由且能灵活切换功能的软件往往更能满足千行百业的多样性需求。在我看来,降本、增效、提质依旧是AI变革的核心任务,而要实现这些目标,关键在于能否持续与客户共创具备行业know-how的AI价值。
2024年第一个Magic Moment,是Cursor的推出,集团里的Coder们主动要求IT部门购买Cursor。短短几个月,超过半数的研发从VS Code转到Cursor。
我问妙多的研发负责人:“你觉得现在的AI能替代几乎所有的Junior Engineer 工作?” 很少冒进的他几乎肯定地回答:“当然会,哪怕AI不再进步,最多也只需要两年。”
第二个Magic Moment在年底,当我看到妙多最新的 AI 生成 UI 界面的效果如下时:
我感到,新的时代“真的”要来了!
因为身在 “局中” 的局限性,新的一年,我个人最期待的 AI 应用当然是一款更新、更强的妙多。产品界面作为我们日常生活中每天都会大量接触的一类生产资料,它的生产模式必然会在生成能力的发展下被重新定义。产品设计将不再是只有优秀产品设计师团队的“特权”,我们将迎来一个“真的”人人都是产品经理的时代。而原本专业的设计师,则有更多的时间来打磨更极致的设计、更好的用户体验。
AI趋势上,只有能力说点窄一些的认知:对于工具类软件,使用工具的用户,操作工具的边际成本有大比例会成为模型的固定成本,“面向结果的操作”会上升为高占比,“面向过程的操作”会下降为低占比。
2024年,像素绽放PixelBloom(AiPPT.com)全球用户数突破了1000万。产品上线后的3个月,月活跃用户数便突破百万大关,在国内AIPPT细分市场排名第1,全球排名第4,这无疑是这一年最具标志性的Magic Moment。
我深切感受到AI正在以一种前所未有的速度改变人们的工作方式,这在传统办公领域是难以想象的。AiPPT不仅帮助了那些原本就频繁使用PPT的用户,还吸引了大量低频用户,比如偶尔需要制作PPT的家长、学生,甚至是企业中的非专业设计师。这让我坚信,AI的普及不仅仅是技术的进步,更是对人类创造力的解放。
2025年,AI赛道将进入一个全新的阶段。大模型赛道的投资收尾,AI应用将成为资本和行业的焦点。
我最期待的AI趋势是AI应用互联互通生态增长。以AiPPT.com的生态增长为例,我们将产品能力全部封装成API接口输出给千行百业的合作伙伴。同时,我也看好AI在多模态领域的进一步突破,这将为创意产业带来巨大的变革,让设计师、教育者、演讲者等能够以更高效的方式表达自己的想法。
我相信,AI将成为人类创造力的延伸,而不仅仅是工具。
2024年,我决定挑战自己成长的边界,离开了中国互联网大平台,开始投身Global AI Cloud创业,目前在GMI Cloud担任亚太区负责人。
我认为2024年是移动互联网时代向通用人工智能(AGI)时代过渡的元年,有两个Magic Moment令我印象深刻:
一是上半年OpenAI首次发布的视频生成模型Sora,它第一次突破了传统单模态生成的限制,开始向多模态信息融合;另一个是下半年OpenAI推出的o1模型,引入 “强化学习+思维链” 训练架构,以解决生成式AI在复杂推理上的短板,再一次极大地增强了人类迈向AGI时代的信心。
2025年,从期待的角度——我相信很多人都期待,原本寄希望于2024年就能爆发的AI智能体,能够在2025年真正从 “增强知识” 向 “增强执行” 转变,在各行各业开始规模化落地。
2025年,从看好的角度,我看好全球范围内将持续加大对AI基础设施的建设投入。GMI Cloud在全球范围内,尤其是北美、东北亚、东南亚等地区,已经规模化上线了NVIDIA H200、H100的GPU Cloud Service,我们也将会在2025年陆续上线NVIDIA B200、B300、GB200、GB300等更高端的GPU,为推动人类迈向AGI时代提供安全稳定、高效便捷的AI基础设施服务。
2024年我的「Magic Moment」有许多,几乎可以说是「Magic Year」了。
因为2023年的所有预判几乎都成真了。这一年里,行业在算力端和模型端都经历了巨大的变革,就像有一双手捏住糖果纸的两端,向相反的方向拧紧。许多模型团队从大规模预训练竞赛中抽身,转战垂直行业落地,年初算力市场“一卡难求”,如今也相应地得到极大缓解。供需格局正发生根本性转变,粗放式算力供给即将被淘汰,当下大模型产业亟需的是面向AI应用落地,具备高附加值的多元化、精细化算力。
无问芯穹在创立之初,就抱着这样一个期待:我们希望从模型和算力的结合场景切入,构建能够连接“M种模型”和“N种芯片”的AI算力基础设施,支持多种大模型算法在多元芯片上的高效协同部署与运行。为此,我们构建了Infini-AI异构云,汇集了市面上绝大多数主流模型,先打通了异构算力的推理,紧接着打通了异构的训练,并且在推理加速和训练优化方面都做到了极致,服务了许多模型伙伴、算力伙伴和下游应用客户。
我相信,2025年会是AI应用爆发最关键的一年。大模型技术的市场教育已经完成,AI与各行业的融合即将达到临界时刻,许多精彩的产品会瓜熟蒂落。作为给各个大模型行业场景「输送弹药」的算力运营商,无问芯穹最终目标是促使AI技术和可控算力的供给像水电煤一样成熟,让更多企业与个人能够无感地使用到最先进模型能力与底层的异构算力,让算力成本指数级下降,真正实现算力普惠,赋能各行各业。
2024年12月某天清晨在灵隐寺,一只白鸽展翅在太阳初升之时,当时非常有幸用手机拍下了这个Magic Moment,如同自己和公司在这一年的重生。
2025年,我最看好的AI趋势是企业级AI应用的爆发。
当前AI在to C领域有非常多的应用和爆款,足以看到AI带来的巨大价值和潜力。但企业级应用受限于数据、安全、采购流程和使用习惯等,尚须时日才能成熟。随着这两年的摸索和试验,甲方逐渐建立了算力和大模型基础能力,并且经过一些试验和摸索,逐渐回归理性,预期趋进于今天AI能带来的实际能力,而不是天马行空的幻想。供应商方面,随着各个玩家在不同领域的创新和实践,能够交付出生产可用的AI应用,具备了以标准化AI产品服务各个客户的能力。
我最期待的AI应用是AI数据智能体,头部企业的数据相对比较完备,在大数据时代完成了治理,拥有良好的数据基础和使用用户。通过数据智能体,能够充分发挥企业的数据价值和潜力,并快速赋能业务和用户。
2024年的关键词:Data, Data, Data。
2024年似乎不像2023年那样有一种被洪流推着走的感觉,似乎也随着GPT-5的难产,开始有人怀疑传统意义上的Scaling Law。(不过下半年开始,基于RL的推理模型开始发光发热,而且 DeepSeek R1的惊艳,似乎又让我有点感到了GPT-4时候的兴奋,但不好意思,这是2025年的事情了)。
而且大家似乎发现真正重要的还是数据本身。当下如果希望用GenAI做点有用的东西,基本上RAG成为了事实标准。但是大家渐渐也发现,RAG本质上也是个Data business,真正有价值的还是数据(个人数据,上下文数据),而大模型本身因为API的标准化,也随着开源模型越来越强,似乎变成了一个可插拔的组件。
所以作为一个Database领域的创业者,感觉到相当的利好呢,也实际感受到企业对于各种数据存储,结构化的也好,非结构化的也好,需求在持续提升中(不管当下有没有用,存下来总是没错的)。
2024年的Magic Moment,是第一次用Cursor的时候,感觉又可以写代码了。 还有一个瞬间是,突然发现最强的头部开源大模型,似乎都是国产的了。
2025年,基于RL的方向会出现新的Scaling Law。DeepSeek R1的思考过程让我感觉我们对智能的理解还是太浅薄了,但是随着R1的爆火,业界一定会集中资源跟进。
我看了下我去年写给今年的自己的问题:“开源模型达到GPT-4水平了吗?”,啧啧,果然达到了。
2024年,我最难忘的Magic Moment,来自于Tesla端到端自动驾驶的试驾体验。它的意义在于,通过多模态数据等方式,逐步消除了驾驶过程中的“断点”,让我首次真正相信AI具备替代人类完成更复杂任务的能力,摆脱传统“Human in the loop”的干预形态。
更进一步延伸,尽管当前,基于文本的LLM研究仍是主流,但人类理解世界的维度远远超越自然语言的范畴。相应的,能以更低的成本高效处理和理解海量多模态数据,将决定我们多久真正走向AGI。
2025年,我有三个判断:
第一,基模之争走向尾声。2025年,国产大模型的模型能力、深度推理能力将基本对齐 GPT-4o乃至OpenAI-o1。而伴随竞争烈度的增加,模型基座的大门彻底向新玩家关闭。
第二,套壳产品批量倒闭,得数据者得天下。应用的大爆发会成为主旋律,但简单套壳 GPT的应用,会迎来批量死亡与逃杀。那些能够通过用户数据积累持续优化模型能力和产品体验的企业,会形成正向循环,跑出百亿甚至千亿市值的新商业形态。
第三,再卷Chat死路一条,多模态潜力挖掘仅有冰山一角。过去两年大家集中卷Chat,但市场空间其实非常有限。形成对比,多模态应用带来意图理解、指令跟随与交互方式的颠覆式变革,反而被低估了。但复盘过去从DOS到Windows,从诺基亚到触摸滑动的苹果,从CPU到GPU,不难发现,百年科技产业史,其实也是百年交互与模态的变革史。
2024年,有段时间特别打鸡血,每天信心满满去做新产品。也有段时间,觉得一切毫无意义,晚上焦虑到2、3点睡不着觉,想要格式化一切。享受ship新产品的过程,也会因为做太多产品导致精力分散,没有代表作而感到迷茫。自由是把双刃剑,也许找到一个平衡,跟自己和解,才是救赎之道。
这一年让我印象深刻的Moment有两个:
一个是ThinkAny,这个我在一个周末写出来的AI搜索引擎产品,短时间内在海外积累了大量的用户,让我感到惊喜,第一次有了踩中AI风口的感觉。
另一个是ShipAny,这个AI SaaS开发框架,是我在2024年写的最后一个产品,4小时收入破万刀,第一次找到了PMF,收获满满。
2025,我最看好AI辅助编程,这会让更多的创意得到落地,或许我们会进入人人都是产品创作者的时代。我也会投入此赛道,做一个新产品CodeAny,帮助有想法的人,更快更好的做出自己的产品。
继续All in AI,相信未来可期。厚积薄发,Make things happen。
2025年,AI大模型领域的竞争势必会更加激烈。评价一家企业的维度有很多,这次我们想把评价权交给读者,请你们根据自己的体验和分析来选择2025年你最看好的海外企业和国内企业。
我们期待看到你们的选择,听到你们的声音。
(封面图由AI生成)