阿里Qwen2.5-Max排名超DeepSeek-V3,中国模型崛起再迎高光时刻
12 小时前 / 阅读约7分钟
来源:36kr
大模型行业“卷”疯了。

随着技术的快速迭代,人工智能领域的竞争将持续加剧。接下来,构建大模型生态、加速技术落地将成为大模型厂商面临新挑战。‍

凭借低训练成本、高性能以及开源开放的颠覆性策略,DeepSeek就像这个春日里的一声惊雷瞬间引爆了大模型行业,它的出现不仅打破了ChatGPT的滤镜,更破碎了大模型行业高门槛和技术垄断的神话。面对DeepSeek冲击,OpenAI迅速推出轻量级推理模型o3-mini试图稳固市场。然而,就在刚刚中国模型再迎高光时刻。

2月4日凌晨,Chatbot Arena LLM Leaderboard更新的最新一期榜单中,对标DeepSeek-V3的阿里云Qwen2.5-Max首次进入全球前十,超越DeepSeek-V3、o1-mini和Claude-3.5-Sonnet等模型。同时,Qwen2.5-Max在数学和编程上排名第一,在Hard prompts方面排名第二。

面对疯狂涌现的中国大模型,各地网友毫不掩饰对Qwen2.5-Max的赞美与喜爱。“这个团队超级牛”“再见了ChatGPT”等评论层出不穷。中国模型近期大爆发,大模型应用也加速落地,服务千行百业之中。而在这场较量中,生态建设将成为大模型厂商在激烈市场竞争中争夺主导权的关键。

01 Qwen2.5-Max登榜Chatbot Arena ,大模型行业“卷”疯了

继DeepSeek之后,中国大模型在全球大模型竞争中再次崭露头角。2月4日凌晨,作为全球大模型的最重要竞技场,由LMSYS Org推出的大模型性能测试平台发布了最新一期榜单。排名显示,阿里云Qwen2.5-Max以1332分位列全球第七名。此外,在数学和编程方面,Qwen2.5-Max排名第一,在Hard prompts方面排名第二。

ChatBot Arena官方评价Qwen2.5-Max称:“在多个领域表现强劲,特别是专业技术向的(编程、数学、硬提示等)。”

众所周知,大语言模型的出现彻底改变了AI的发展进程,实现了大模型从聊天机器人到复杂推理系统的进化,而推动这一技术进步的背后与混合专家(MoE)架构不无关系。

所谓MoE架构,即允许模型使用多个专门的子网络(专家),而不是在每个任务中都依赖单一的密集网络。这种方法使模型效率更高、更擅长专业化处理,并且能够在不消耗过多计算资源的情况下提供更高的性能。

此前,OpenAI通过MoE架构让GPT-4在保持计算效率的同时提升了模型的性能。2024年6月,阿里云就开源了自己的MoE模型Qwen2-57B-A14B,引发了诸多讨论。而春节前爆火的DeepSeek-R1凭借多头潜在注意力(MLA)和DeepSeekMoE架构成为了AI扩展领域的一个里程碑。

据了解,DeepSeek-R1建立在 DeepSeek-V3-Base 模型之上的推理模型,是一个包含6710亿参数的MoE语言模型,其中每个token激活370亿参数。不仅实现了更高的推理效率,在英语、数学、中文等领城实现了综合领先,还有效降低了训练成本,相较OpenAI-o1降低了27倍左右。

现在,阿里云Qwen2.5-Max带着升级后的MoE也加入了竞赛。Qwen2.5-Max性能强劲,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

值得注意的是,此次榜单中,除Qwen2.5-Max外,DeepSeek的R1和V3分别位列第三、第八名。而不管是DeepSeek的爆火,还是Qwen2.5-Max的发布,无一不展示出中国AI技术的快速进步。

02 国产模型降低使用门槛,加速Al应用落地

AI的发展离不开数据与训练。据了解,基于超过20万亿tokens的预训练数据和精心设计的后训练,Qwen2.5-Max综合性能实现跨越式提升。结合监督微调(SFT)和强化学习人类反馈(RLHF),模型在长文本生成、指令遵循等任务中表现更贴近人类偏好。

事实上,无论是芯片、算力,还是大模型,最终只有让技术变得好用、易用,才能在建立生态在市场上形成壁垒。

目前,阿里云与DeepSeek均选择开源路线。阿里云通义团队曾开源Qwen、Qwen1.5、Qwen2及Qwen2.5等四代、数十款模型,国内率先实现“全尺寸、全模态、多场景”开源,全球基于Qwen的衍生模型超过9万个,超越Llama成为全球最大的AI模型族群。

以视觉理解模型为力,阿里云曾开源Qwen-VL及Qwen2-VL两代模型,支持开发者在手机、汽车、教育、金融、天文等不同场景进行AI探索,Qwen-VL系列模型全球总下载量超过3200万次。今年1月,阿里云再次升级开源Qwen2.5-VL,海外开发者称是最强最好用的视觉模型。

作为大模型领域的强劲竞争者,OpenAI虽以闭源模式维持技术壁垒,但面对中国模型的冲击,其态度或有所转变。此前,奥特曼指出,OpenAI过去在开源方面站在“历史错误的一边”,公司曾经开源部分模型,但主要采用闭源的开发模式,未来将重新制定开源战略。

事实上,为了推动大模型的落地应用,过去一年,国内大模型产业内掀起了一波又一波的降价浪潮。其中,阿里云通义千问视觉理解模型的全线降价幅度超过80%,最低每千tokens仅0.0015元;字节跳动豆包视觉理解模型千tokens输入价格仅为3厘,比行业价格便宜85%;百度文心一言更是将两大主力模型ERNIE Speed和ERNIE Lite则直接免费开放给用户使用。

国内云厂商相关人士表示,推理、多模态整合将成为未来大模型行业重要的发展方向,医疗、教育、金融仍然是重要的落地方向。不过,随着技术的快速迭代,人工智能领域的竞争将持续加剧。接下来,构建大模型生态、加速技术落地将成为大模型厂商面临新挑战。

不容忽视的是,国产大模型的崛起让更多人意识到,OpenAI已不再是大模型领域的唯一主导者,其技术能力可以媲美甚至超过国际主流大模型。正如Chatbot Arena官方评价:“以Qwen2.5-Max为代表的中国大模型正在迎头赶上。”而OpenAI首席执行官山姆·奥特曼曾在o3-mini推出后承认,中国AI的崛起削弱了OpenAI的技术领先优势。