暴击GPT-4.5,DeepSeek-V3-0324官方报告出炉,系统提示、最佳温度全放出
6 天前 / 阅读约5分钟
来源:36kr
DeepSeek-V3-0324开源模型660B参数,数学编程超GPT-4.5/Claude 3.7。

只有660B参数的开源模型,在数学和编程性能上击败了GPT-4.5和Claude 3.7。DeepSeek-V3-0324新版本的发布让全球网友为之疯狂,推理能力提升近20%,模型权重已全面开源!

DeepSeek-V3-0324新版本发布,推理能力大幅提升,在数学、代码上超过GPT-4.5!

网友表示,这是OpenAI的噩梦,模型参数量只有660B,100%开源。

进入官网、APP或小程序后,关闭深度思考即可体验。官方建议,非复杂推理任务用V3新版本更好。

模型权重现已开源:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

性能全面提升,中文能力更强

DeepSeek-V3-0324全面超越了Claude 3.7!

新版模型借鉴DeepSeek-R1中的强化学习技术,在数学、代码类评测集上超过了GPT-4.5。

推理能力方面,DeepSeek-V3-0324相较于第一代V3,基准测试的准确率最高提升了近20%:

  • MMLU-Pro:75.9 → 81.2 (+5.3)
  • GPQA:59.1 → 68.4 (+9.3)
  • AIME:39.6 → 59.4 (+19.8)
  • LiveCodeBench:39.2 → 49.2 (+10.0)

在HTML等前端开发任务上,DeepSeek-V3-0324生成的代码可用性更高,视觉上也更有设计感:

  • 提升了代码的执行效率
  • 网页和游戏前端界面更美观

多个小球在指定空间范围内运动的p5.js程序:包含若干可以调整重力、摩擦力等参数的滑动按钮,并以赛博朋克风格的HTML呈现

中文写作任务上,DeepSeek-V3-0324基于R1进行了优化,提升了中长篇文本的创作风格和内容质量:

  • 符合R1写作规范
  • 提高了中长篇写作的质量
  • 改进了多轮交互式内容重写
  • 优化了翻译质量和信函写作

中文搜索场景下,DeepSeek-V3-0324提升了对报告的分析能力,输出内容更详实、准确,排版更清晰美观:

  • 增强了报告分析请求功能,提供更详细的输出结果

除此之外,DeepSeek-V3-0324还提高了API函数调用的准确性,修复了之前V3版本中的问题。

国外网友已玩嗨

网友「Haider」表示,新的DeepSeek V3更新比预期要大得多,尤其是编程,赞其为目前最强大的完全免费的AI。

他用新模型构建的「声波可视化器」游戏如下,结果好得难以置信。

@BrainYoung利用DeepSeek-V3-0324的巨大改进制作了以下游戏:

制作一个酷炫的three.js游戏。

官方使用指南

系统提示

在官方网页/应用中,DeepSeek使用带有特定日期的统一系统提示词。

  • 该助手为DeepSeek Chat,由深度求索公司创造。
  • 今天是{current date}。

例如:

  • 该助手为DeepSeek Chat,由深度求索公司创造。
  • 今天是3月24日,星期一。

采样温度

在网页和应用环境中,模型温度参数T_model设置为0.3。

由于许多用户在API调用中会使用默认温度1.0,为此,DeepSeek贴心地设置了一个API温度T_api映射机制——可以自动将输入的API温度1.0调整为模型最优温度0.3。

换句话说,如果是通过API调用V3,那么温度1.0就等同于温度0.3。

本地运行

DeepSeek-V3-0324的模型结构与DeepSeek-V3完全相同,支持函数调用、JSON输出和FIM(填充中间)完成等功能。

参考资料:

https://mp.weixin.qq.com/s/XK6ymJL7y0vo_GQXxmpuBA

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

https://x.com/deepseek_ai/status/1904526863604883661