DeepSeek走下神坛?阿里QwQ模型32B参数吊打671B
9 小时前 / 阅读约6分钟
来源:36kr
性能媲美巨头,或将引领大模型本地化

3月6日,阿里云通义千问官方宣布推出最新推理模型QwQ-32B,这一模型仅有32B参数,但在效果上与拥有671B参数的DeepSeek-R1相媲美。如果你自己部署DeepSeek-R1但资源不够的话,又多了一个新的选择。

QwQ-32B的独特之处不仅在于其参数规模和效果表现,还集成了与Agent相关的能力。这使得模型在使用工具时能够进行批判性思考,并依据环境反馈灵活调整推理过程,极大提升了模型的适应性与智能性。

那么,降低了部署难度的QwQ-32B会让大模型本地化更加普及吗?阿里的大模型会继续在C端越走越远吗?

QwQ-32B性能如何?

今日凌晨3点30,阿里巴巴正式发布通义千问最新开源模型QwQ-32B,它比DeepSeek有更小的尺寸,性能比肩全球最强开源推理模型。

根据官方披露的测试结果,QwQ-32B在多项关键评测中表现非常出色:

1、在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;

2、在评估代码能力的LiveCodeBench中,表现同样与DeepSeek-R1相当;

3、在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1;

4、在谷歌等提出的指令遵循能力IFEval评测集中,成绩优于DeepSeek-R1;

5、在加州大学伯克利分校等提出的评估准确调用函数或工具的BFCL测试中,同样超越DeepSeek-R1。

据通义千问Qwen团队介绍,近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。

而且,我们还看到,QwQ-32B在开源后,获得用户和业界积极反馈,表明其在C端市场有巨大潜力,有望吸引更多用户使用及开发者参与,推动阿里在C端市场的进一步发展。

阿里大模型在C端越走越远

随着QwQ-32B大模型的发布,阿里通义千问正以独特的方式面向C端用户,从而希望AI技术更加普惠。

比如,从知识获取的角度来看,通义千问打破了传统知识传播的壁垒。以往,人们获取知识往往依赖于书籍、学校教育等相对固定的渠道,存在一定的局限性和时效性。

而通义千问凭借其强大的数据整合与分析能力,能够迅速汇聚海量信息,并以通俗易懂且准确的形式呈现给用户。无论是学生在学习中遇到的复杂历史事件、物理难题,还是职场人士需要了解的行业前沿动态、专业技能培训等内容,通义千问都能精准地提供相应知识解析。

据相关数据显示,在学习类查询中,超过80%的用户表示通过通义千问能够更快地理解知识点,且知识记忆的准确性平均提升了30%左右。例如,一位初中生在使用通义千问询问物理中的电磁感应现象时,不仅得到了详细的原理解释,还获取了多个相关的实验视频链接以及在生活中的实际应用案例,这种全方位的知识展示方式远胜于单一的教材讲解,极大地激发了学生的学习兴趣与探索欲望。

在日常生活的应用场景中,通义千问成为人们贴心的生活助手。它能够提供生活小窍门、旅游攻略制定、美食推荐等服务。

以旅游为例,当用户计划前往一个陌生城市旅行时,在通义千问输入目的地,即可迅速生成包含景点推荐、行程安排、住宿选择以及当地特色美食介绍等一整套旅游攻略。根据平台统计,使用通义千问制定旅游计划的用户,对旅行满意度的评价相比传统自行规划旅行的用户高出25%。而且在出行过程中,如遇到突发情况如天气变化需要调整行程,通义千问也能及时根据最新信息提供应对方案,确保旅行的顺利进行,让普通用户在日常生活中感受到科技带来的便捷与高效。

对于内容创作群体,通义千问更是发挥着重要作用。无论是自媒体创作者、文案撰写人员还是艺术设计者,都能从中汲取灵感。它可以帮助创作者进行选题策划,提供当下热门话题趋势分析;在文案创作时,辅助生成多样化的写作思路与风格示范;甚至在艺术创作方面,通过提供不同艺术流派的特点介绍以及经典作品赏析,激发创作者的创意灵感。

有数据显示,在使用通义千问辅助创作后,内容创作者的创作效率平均提升约40%,作品的创新性与受欢迎程度也显著提高。比如一位自媒体博主在撰写关于环保主题的文章时,借助通义千问找到了最新的全球环保数据、不同国家的环保政策创新案例以及读者关注度较高的环保细分领域等信息,从而使文章发布后获得了远超以往的阅读量与互动量。

然而,通义千问面向C也面临一些挑战。如在信息准确性方面,由于网络信息繁杂,尽管其有一套严谨的数据筛选机制,但偶尔仍可能出现信息更新不及时或存在偏差的情况。

再者,部分用户过于依赖通义千问,可能导致自身独立思考能力的弱化。但总体而言,通义千问以其丰富的功能、便捷的操作以及对知识传播、生活服务和内容创作等多方面的积极影响,正在逐步改变着C端用户的生活方式与思维模式,成为普通大众在数字时代不可或缺的重要工具,持续推动着个人成长与社会进步的车轮滚滚向前,其在未来的发展中也必将发挥更加卓越的作用,为C端用户创造更多可能与价值。

写在最后

整体来看,阿里发布的QwQ-32B模型,凭借其高性能、低成本、易部署等优势,使其在C端市场的拓展上迈出了重要一步。它不仅降低了使用门槛,满足了广大C端用户多样化的需求,还在内容创作、教育普及等多个领域发挥着重要作用。

未来,随着阿里在C端应用的不断深入与拓展,QwQ-32B模型有望进一步推动阿里在C端市场的影响力与竞争力提升。