苹果杀疯了,Mac Studio内存狂飙,跑满血DeepSeek R1消耗448GB,M3 Ultra竟然稳住了
1 天前 / 阅读约16分钟
来源:36kr
“M3 Ultra 的 AI 计算能力远超想象”

一周前,苹果低调发布了最新款 Mac Studio,提供 M3 Ultra 和 M4 Max 两种芯片选项。其中,M3 Ultra 版本搭载 32 核 CPU 和 80 核 GPU,最高支持 512GB 统一内存。官方宣称此版本可运行超过 6000 亿参数的 LLM,也就是在家就能跑满血版的 DeepSeek R1。

这引得不少人驻足围观,并产生了一些疑问:在 AI 大模型时代,买 Mac Studio 会比买单买 GPU 更划算吗?在 AI 任务中的实际表现,它会比其他高端 PC 表现更强吗?

最近,不少国外网友在收到新设备后,纷纷开始测试模式。其中,硅谷咨询公司 Creative Strategies 的技术分析师 Max Weinbach 率先上手 256GB 版 Mac Studio,测试了 QwQ 32B、Llama 8B、Gemma2 9B 等模型,并分享了在不同设备上的评测对比数据。另外还有 YouTube 博主 Dave Lee 直接把配置拉满,在 512 GB 的 Mac Studio 上跑了满血 DeepSeek R1,那么,Mac Studio 在 AI 领域的表现到底如何?一起来看看!

话不多说,可以先看结论:

Max Weinba 表示,Nvidia RTX 5090 在 GPU 基准测试和部分 AI 任务上表现出色,但苹果芯片在使用体验和稳定性上更胜一筹。适合开发者的最佳组合是:Mac Studio(M3 Ultra)用于桌面 AI 开发 + 租用 Nvidia H100 服务器做高强度计算任务。

Dave Lee 表示:macOS 默认对 VRAM 分配有限制,需要手动调高了上限,把可用 VRAM 提升到了 448GB,才让 DeepSeek R1 模型顺利运行。运行庞大的 DeepSeek R1 模型时,整个系统的功耗不到 200W。如果用传统多 GPU 配置来跑这个模型,功耗起码是 M3 Ultra 的 10 倍。

01 购入 32 核 GPU、搭载 M3 Ultra 的新版 Mac Studio

首先,我们先看 Max Weinba 的测试过程与经历。自 2020 年购入第一台 M1 MacBook Pro 以来,Max Weinbach 便成为 Apple Silicon 的忠实用户。从 M1 MacBook Pro 升级到 M1 Max,再到 M3 Max,他最看重的始终是内存性能。这不仅是因为 Chrome 浏览器对内存的高需求,更在于他认为,内存始终是影响电脑性能的最大瓶颈。

在选择 M3 Max 时,他特意配置了 128GB 内存,因为 Llama.cpp 和 MLX 这些 AI 框架越来越流行,会迅速把可用内存全占完。但说实话,现在随着 AI 模型规模的增长和自动化工作流的复杂化,128GB 内存在实际使用中早已不够用,显得捉襟见肘。

而搭载 M3 Ultra 芯片的 Mac Studio 让他真正感受到性能的飞跃。在 Max Weinbach 看来,这是一款专为 AI 开发者打造的工作站:超强 GPU + 最高 512GB 统一内存(LPDDR5x)+ 819GB/s 的超高内存带宽,堪称 AI 开发者的终极理想设备。

Max Weinbach 提及, AI 开发者几乎清一色都用 Mac,甚至可以夸张地说——所有顶级实验室、顶级开发者的工作环境中,Mac 早已成为标配。

所以在看到新版 Mac Studio 出来之后,他就迫不及待地买了一台,具体配置如下:

搭载 M3 Ultra 芯片

32 核 CPU

80 核 GPU

256GB 统一内存(其中 192GB 可用作 VRAM)

4TB SSD

Max Weinbach 直言,M3 Ultra 是他用过最快的电脑,甚至在 AI 任务上的表现比他的高端游戏 PC 还要强。而他的游戏 PC 配置可不低——Intel i9 13900K + RTX 5090 + 64GB DDR5 + 2TB NVMe SSD。

为了验证这一点,他对 M3 Ultra、M3 Max 和自己的游戏 PC 进行了 Geekbench AI 基准测试。

Geekbench AI 将按照全精度、半精度和量化模式顺序排序。

结果如何?直接来看数据:

02 运行 LLM,为什么“吃”内存?

在正式聊 M3 Ultra Mac Studio 运行 LLM 的表现之前,先来讲讲 LLM 为什么需要这么多内存。如果对这部分已经了解,可以直接跳过,这里主要是解释内存的重要性。

LLM 主要有两个部分会大量占用内存,不过其中有些可以优化:

1. 模型本身的大小

LLM 通常以 FP16(半精度浮点)格式存储,也就是每个参数占 2 字节。因此,计算方法很简单:参数数量 × 2 = 模型大小(GB 为单位)。

举个例子:Llama 3.1 8B(80 亿参数)大约需要 16GB 内存。而 DeepSeek R1 这种大模型用的是 FP8 格式(每个参数 1 字节),所以 6850 亿参数(685B)大约需要 685GB 内存。当前最强的开源模型是阿里巴巴的 QwQ 32B,跟 DeepSeek R1 旗鼓相当!它采用 BF16(16 位浮点),完整模型大约 64GB。

在 LLM 运行时,如果将模型量化到 4-bit,所需的内存可以减少一半甚至四分之一,具体取决于模型本身。例如,8B 参数模型在 4-bit 量化后大约占 4GB,QwQ 32B 约 20GB,而 DeepSeek R1 依然需要 350GB 内存。当然,还有更激进的 1.5-bit 或 2-bit 量化方式,但这通常会导致模型质量下降,除了做演示用途,基本上没什么实用价值。对于 DeepSeek R1 这样的超大模型来说,虽然 2-bit 量化能把需求降到 250GB,但依然是个庞大的数字。即便是最小版本的 DeepSeek R1,也需要 180GB 内存,但这还不是全部。

2. 上下文窗口

另一个占用大量内存的因素是上下文窗口(Context Window),也就是 LLM 处理信息的记忆范围。简单来说,模型能一次性处理多少文本,决定了它生成回应时的上下文理解能力。现在,大多数模型的上下文窗口已经扩展到 128K tokens,但一般用户实际使用的远低于这个数,大概 32K tokens 就够用了(ChatGPT Plus 也是 32K)。这些 token 需要存储在 KV Cache 里,它记录了模型输入的所有 token 以生成输出。

在客户端运行 LLM 最常用的框架是 llama.cpp,它会一次性加载完整的上下文窗口缓存 + 模型,比如QwQ 32B 本身只有 19GB,但加载后总共占用约 51GB 内存!这并不是坏事,在许多应用场景下,这种方式是合理的。

不过,像 Apple 的 MLX 框架就采用了更灵活的策略:仅在需要时才使用系统内存来存储 KV Cache。这样一来,QwQ 32B 初始加载时只占 19GB,随着使用逐步占用更多内存,最终在填满整个上下文窗口时达到 51GB。对于 M3 Ultra 或 M4 Max 这种配备超大内存的芯片来说,这种机制能让它们支持更高精度的模型。例如,QwQ 32B 在原生 BF16 精度下,完整上下文窗口加载后需要超过 180GB 内存。换句话说,一个 32B 级别的模型,光是运行就可能吃掉 180GB 内存,这些大模型的现实情况就是:有多少内存,它们就能用多少。

未来的趋势是:上下文窗口会越来越大,所以高内存才是最值得关注的“保值配置”。像 Qwen 和 Grok 3 这样的模型已经扩展到 100 万 tokens 上下文窗口,而 Grok 3 未来还计划开源。虽然大模型的大小会受到 Scaling law(扩展定律)的限制,但更大的上下文窗口对实际应用来说更重要,而这意味着需要大量内存。目前一些 RAG(检索增强生成)技术能一定程度上缓解内存需求,但从长远来看,上下文窗口的大小才是关键。想同时跑大模型 + 超大上下文窗口?512GB 内存起步,甚至更高。

另外,Mac Studio 还能通过 Thunderbolt 5 连接多台设备,并利用苹果专门的高速通道进行分布式计算,实现 1TB+ 的共享内存。不过,这个话题可以留到以后再聊。

总的来说,虽然你可以在手机或任何笔记本上运行 LLM,它确实能跑,但想要真正流畅地用在生产环境,进行模型评估,甚至作为 AI 工作站来使用,就必须要有足够大的 GPU 内存。

而目前,Mac Studio(M3 Ultra)是唯一能做到这一点的机器。

当然,如果直接买 H100 或 AMD Instinct 级别的 GPU,在推理速度上确实会更快,但从成本上看,这些设备的价格至少是 Mac Studio 的 6-80 倍,而且多数人最终还是要在云端部署模型,所以对本地开发者来说,性价比并不高。

至于训练大模型,那是另一个完全不同的难题。专注于在不同设备上运行大模型的实验室 Exo Labs 目前正在开发一个基于 Apple Silicon 的 LLM 训练集群,他们肯定更专业,未来可能会分享更多关于训练所需的内存细节。不过,最终的结论很简单:内存越大,体验越好。

03 LLM 性能实测

在不同设备上跑大模型,重点来了!Max Weinbach 指出——Mac Studio 的 LLM 运行表现,几乎是所有桌面设备里最好的。

相比市面上的大多数 PC,Mac Studio 或其他配备统一内存(Unified Memory)的 Mac 可以更快地运行更强的模型,并且支持更大的上下文窗口。这不仅得益于 Apple Silicon 的硬件优势,还与 Apple 的 MLX 框架密切相关。MLX 不仅能够让模型高效运行,同时还能避免提前将 KV 缓存全部加载到内存中,并且在上下文窗口增大的情况下依然保持较快的 Token 生成速度。

不过,他强调,这次的测试并不是一个完全公平的对比。英伟达的 Blackwell 架构确实在数据中心和消费级 AI 应用上表现出色,但本次测试的重点是评估 AI 工作站上的 LLM 实际性能,因此测试结果更适合作为参考,而非直接比较。

以下是相同模型、相同种子、相同输入提示在三台不同机器上的表现,所有测试均在 128K Token 的上下文窗口下运行(或使用模型支持的最大窗口)。游戏 PC 使用 llama.cpp,Mac 设备则使用 MLX 进行测试:

当然,RTX 5090 也不是不能跑更大的大模型,它可以可以通过 CPU 卸载、惰性加载等方式,在推理过程中动态使用系统内存和 CPU 来运行更大的模型。不过,这会增加延迟,说实话,有了这么强的显卡,折腾这些其实没啥意义。

另外,还有像 TensorRT-LLM 这样的工具,可以把模型量化成 Blackwell 支持的原生 fp4 数据类型,但 Max Weinbach 透露,在尝试给 RTX 5090 编译时,遇到了不少错误,也没时间慢慢调试。理论上,如果用上 Nvidia 官方的优化,RTX 5090 在 Windows 上的表现应该比上面的测试结果好得多,但问题还是出在内存上——RTX 5090 只有 32GB,而 M3 Ultra 起步就是 96GB,最高能到 512GB。

这也就是 Apple Silicon 的另一大优势:省心。所有东西都优化好了,开箱即用。MLX 是目前最好的框架,不光苹果在更新,开源社区也在贡献,它能充分利用 Apple Silicon 的统一内存。虽然 RTX 5090 在 AI 计算的峰值性能上确实比 M3 Ultra 的 GPU 强,但 CUDA、TensorRT 这些软件栈在单机环境下反而成了限制。而在数据中心里,CUDA 和 TensorRT 确实无可替代。

所以,Max Weinbach 认为,最适合开发者使用的最佳组合其实是:桌面上用 M3 Ultra Mac Studio,数据中心租一台 8 张 H100 的服务器。Hopper 和 Blackwell 适合服务器,M3 Ultra 适合个人工作站。“虽然对比这些设备很有趣,但实际情况是,不同设备各有所长,不能直接替代彼此”,Max Weinbach 说道。

04 Mac Studio 跑 DeepSeek R1 情况又如何?

除了 Max Weinbach 之外,正如文章伊始所述,YouTube 博主 Dave Lee 使用 512GB 内存的 Mac Studio 跑起了 DeepSeek R1 这个超大模型。

Dave Lee 表示,DeepSeek R1 模型有 6710 亿个参数,体积高达 404GB,需要超高带宽的内存,一般来说只能靠 GPU 的专用显存(VRAM)来支撑。但得益于苹果的统一内存架构,M3 Ultra 直接把这部分需求整合进了系统内存里,在低功耗的情况下跑出了不错的效果。

测试中,Dave Lee 把 M3 Ultra 跑 DeepSeek R1 的表现跟苹果之前的芯片做了对比。像 R1 这么大的模型,传统 PC 方案通常需要多块 GPU 配合超大显存才能撑得住,功耗也会飙升。但 M3 Ultra 依靠统一内存架构,让 AI 模型可以像使用 VRAM 一样调用高带宽内存,单芯片就能高效运行。

不过值得注意的是,Dave Lee 强调,跑小模型时,M3 Ultra 还能留有余力,但面对 6710 亿参数的 DeepSeek R1,就必须用上最高配的 512GB 内存版本。另外,macOS 默认对 VRAM 分配有限制,Dave Lee 还特地手动调高了上限,把可用 VRAM 提升到了 448GB,才让模型顺利运行。

最终,DeepSeek R1 在 M3 Ultra Mac Studio 表现不错。虽然这里用的是 4-bit 量化版本,牺牲了一定的精度,但模型依然保持了完整的 6710 亿参数,速度为 16-18 tokens/秒。整体效果超出预期。相比之下,其他平台需要多块 GPU 才能达到相同性能,而 M3 Ultra 的优势在于能效——整机功耗不到 200W!

Dave 还提到,如果用传统多 GPU 配置来跑这个模型,功耗起码是 M3 Ultra 的 10 倍。

总的来说,Dave Lee 表示,M3 Ultra 的 AI 计算能力远超想象。而在 Max Weinbach 看来,「目前市场上根本没有可与 Mac Studio 匹敌的 AI 工作站」。

原文链接:

https://creativestrategies.com/mac-studio-m3-ultra-ai-workstation-review/

https://wccftech.com/m3-ultra-chip-handles-deepseek-r1-model-with-671-billion-parameters/