本地部署DeepSeek,对电脑有什么要求?
4 小时前 / 阅读约7分钟
来源:36kr
该走的路and该踩的坑,齐了!

在PC上“跑”大模型已成趋势。当ChatGPT、Claude等海外模型因合规性、隐私性等问题不能在中国落地时,国产开源模型DeepSeek凭借透明架构和轻量化优势,成为PC用户的新宠。

然而,从硬件选购到部署优化,再到规避市场乱象,每个环节都暗藏门道。《IT时报》为你拆解PC部署DeepSeek的核心逻辑。

最低1080显卡“起跑”,流畅用至少30系显卡

DeepSeek官方文档显示,本地部署DeepSeek大模型需严格遵循“显存——内存——存储”三级资源匹配原则。这也意味着如果再加上CPU,需重点关注四大核心硬件。

用量化技术降低硬件要求知多少

在DeepSeek大模型运行前引入量化技术,以牺牲部分精度换取速度,可以降低硬件需求。据Hugging Face基准测试,4-bit量化可将DeepSeek-R1版本(以下均以DeepSeek-R1版本为例)的7B参数量模型显存占用从13GB压缩至4.2GB,但会损失约8%的准确性。因此最低运行DeepSeek 7B模型要求如下:

1.GPU:英伟达GTX 1080(8GB显存)或同等性能显卡。这一显卡需要支持FP16计算,并且要兼容英伟达CUDA模型。在模型运行过程中,FP16计算能够在保证一定精度的前提下,显著提升计算效率,而CUDA模型则为英伟达显卡提供并行计算能力,两者对于模型的顺利运行至关重要。

2.CPU:4核以上,例如英特尔i5/i7或AMD Ryzen 5/7系列处理器。虽然大语言模型的计算主力通常是GPU,但CPU在数据预处理、任务调度等方面也发挥着不可或缺的作用,足够的核心数能够确保这些任务的高效执行。

3.内存:16GB DDR4内存。在模型运行时,内存需要存储模型参数、中间计算结果等大量数据,16GB的DDR4内存能够满足基本的存储需求,保证模型的正常运行。建议不要同时运行其他程序,否则可能会面临内存紧张。

4.存储:至少20GB固态硬盘容量。SSD的高速读写特性能够快速加载模型文件,减少等待时间。20GB的容量基本能够满足7B及以下参数量模型的4-bit量化版本的运行需求。

四大硬件需全方面配合

如果希望流畅运行13B+参数量的模型,对硬件则有更高要求:

1.GPU:英伟达RTX 3090/4090显卡(24GB显存)。显存大小直接决定了模型运行时能够处理的数据规模,显存越大,可运行的模型也就越大。随着模型参数量的大幅增加,模型结构变得更加复杂,需要处理的数据量呈指数级增长。例如,13B参数量的模型在处理较长文本时,需要在显存中存储大量的中间结果和注意力机制计算所需的数据。24GB显存能够为这些数据提供充足的存储空间,确保模型在运行过程中不会因为显存不足而出现卡顿甚至崩溃的情况。

2.CPU:8核以上,如英特尔i9或AMD Ryzen 9系列处理器。随着模型参数量的增加,数据处理量和复杂度大幅提升,8核以上的CPU能够更好地应对这些任务。

3.内存:32GB DDR5内存。相较于DDR4,DDR5内存在速度和带宽上都有显著提升,32GB的大容量结合DDR5的高速特性,能够满足大模型运行时对数据快速存取的需求,进一步优化运行体验。

4.存储:1TB容量以上支持NVMe协议的固态硬盘。NVMe协议的SSD拥有较高的读写速度,1TB的大容量能容纳大模型文件,还能大幅提升模型加载速度,减少等待时间。

实测:旧电脑也能跑

经过众多技术爱好者和专业人士的实际测试,6~7年前的电脑(如搭载GTX 1060显卡+16GB内存)可勉强运行1.5B模型,生成速度约2-3tokens/秒;近3~4年的主流配置(如RTX3060+32GB内存)可流畅运行7B/8B模型(10+tokens/秒);32B模型运行需英伟达RTX30/40系显卡(显存≥12GB),但生成速度仍受限于显存带宽。

需要说明的是,Windows系统因底层架构限制,性能通常比Linux低10%~15%。若追求效率,建议在Ubuntu等Linux系统下使用DeepSeek大模型。

推荐,使用Ollama安装

在硬件准备妥当后,建议使用Ollama进行安装部署DeepSeek大模型。Ollama是一个开源的LLM(大型语言模型)服务工具,其主要作用是简化在本地运行大语言模型的流程,降低使用门槛。访问Ollama官网(https://ollama.ai/),下载安装Windows、macOS、Linux所对应版本。然后用终端输入命令拉取DeepSeek模型,低配置电脑建议使用Ollama内置量化功能,将模型压缩至4-bit或8-bit,以便后续能顺利运行。拉取存储完成后,即可在PC上启动DeepSeek交互。

梳理:入门级选3060显卡

建议用户可以按照需求选择显卡,入门级使用RTX 3060显卡,运行7B参数4-bit量化版本,可实现文档摘要、轻量问答;基础级使用RTX 4080显卡,运行13B参数8-bit量化版本,可实现代码生成、完成多轮对话;企业使用建议直接调用DeepSeek API,降低本地硬件投入。

显卡优先选择英伟达显卡,确认CUDA核心数>显存容量(如RTX 4070的5888 CUDA cores优于4060 Ti 16GB的4352 cores),谨慎选择英特尔Arc显卡,因为有些大模型开发工具与Arc显卡的指令集存在兼容性问题。内存优先选择支持XMP 3.0超频的DDR5内存。另外据说今年将量产的英特尔Lunar Lake(45TOPS NPU)或支持本地运行70B-4bit模型,PCIe 5.0接口、GDDR7显存等新标准可能提升运行速度。

慎选:“DeepSeek专用PC”

目前市场中有部分中小品牌推出“预装DeepSeek 32B模型”的AI PC主机,但《IT时报》记者仔细对比其售价,实际较市面同配置机型高出15%~30%。

例如某型号(配置为Ryzen7 9800X3D+B650+32GB DDR5内存+2TB M2固态硬盘+RTX5080-16GB显卡)标价2.3万元,而电商平台DIY商家的组装价仅1.7万元左右。价格要贵15%以上。即便与平台上大品牌官方组装店的同配置电脑相比,价格也依然偏高。

DeepSeek本身是免费开源使用的大模型,对于略懂计算机知识的用户来说,完全可以跟着教学图文、视频自行进行本地部署。因此强烈不建议购买此类打着DeepSeek擦边球的AI主机,以免花冤枉钱。

图片/ 豆包AI