阿里推出开源推理模型QwQ-32B 性能媲美DeepSeek-R1满血版
10 小时前 / 阅读约2分钟
来源:C114

C114讯 3月6日消息(颜翊)今日,阿里旗下通义千问Qwen推出最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。测试结果显示,QwQ-32B 的性能和 DeepSeek-R1-671B 不相上下,远胜于相同尺寸的R1蒸馏模型。

通义千问表示,希望能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。

其近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。

目前,QwQ-32B 已在 Hugging Face和 ModelScope开源,并采用了 Apache 2.0 开源协议,同时还贴心提供了在线体验地址。

阿里巴巴近日宣布将不遗余力加速云和AI硬件基础设施建设。阿里巴巴集团CEO吴泳铭表示,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去十年总和。这也创下中国民营企业在云和AI硬件基础设施建设领域有史以来最大规模投资纪录。