从零开始：用 Ollama + Open WebUI 本地部署 DeepSeek-R1 满血版/蒸馏版实战指南

前言：2026 年大模型领域依旧火热，而 DeepSeek-R1 凭借其独树一帜的强化学习推理（CoT）能力与超高的性价比，成为了本地私有化部署的首选。

对于注重数据隐私、或者处于无网/弱网环境下的开发者而言，利用 Ollama 在本地把 DeepSeek 跑起来是一个极佳的方案。本文将以最接地气、不废话的步骤，带你在自己的 Mac/PC/服务器上优雅地实现本地大模型自建！🚀

🖥️ 阶段一：硬件对齐与版本选择

DeepSeek-R1 的满血版高达 671B（6710 亿参数），这显然不是普通消费级硬件能吃下的。因此，官方发布了基于 Llama 和 Qwen 的一系列蒸馏版（Distilled Models）。请根据你的硬件显存（VRAM）对照下表进行选择：

蒸馏架构	模型大小	推荐显存 (Q4 量化)	适合硬件环境
R1-Distill-Qwen-1.5B	~1.1 GB	>= 4GB	备用机、轻薄本、手机端
R1-Distill-Qwen-7B / 8B	~4.7 GB	>= 8GB	绝大多数常规独立显卡（如 RTX 3060/4060, Apple M系列）
R1-Distill-Qwen-14B	~9.0 GB	>= 16GB	进阶消费级显卡（如 RTX 4070/4080, Apple M系 16G+）
R1-Distill-Qwen-32B	~20 GB	>= 24GB	旗舰消费级显卡（如 RTX 3090/4090, M系 32G+）
R1-Distill-Llama-70B	~42 GB	>= 48GB	双卡 RTX 3090/4090 或专业级 Mac Ultra/Studio
DeepSeek-R1 (Full-671B)	~400 GB	>= 640GB	专业多卡 AI 服务器（8 * A100 / H100 级别）

💡 个人建议：日常编程辅助与逻辑推理，14B 版本的性价比最高，具备优异的指令遵循与逻辑涌现能力，且运行速度较快。

📥 阶段二：利用 Ollama 极速本地拉取

Ollama 是目前本地大模型引擎的绝对霸主，支持跨平台且能自动调度你的 CPU 和 GPU 并行计算。

1. 安装 Ollama

Mac/Windows：直接去 Ollama 官网下载安装包一键安装。

Linux 极客终端一键安装：

curl -fsSL https://ollama.com/install.sh | sh

2. 拉取并启动 DeepSeek-R1

打开你的终端（Terminal 或 PowerShell），运行以下命令拉取并直接交互运行你选定的蒸馏版（以 14B 为例）：

# 这条命令会自动检测当前显卡，下载对应模型并调入显存
ollama run deepseek-r1:14b

当终端出现 >>> 提示符时，表明模型已经成功常驻显存。你可以输入诸如 "用 Python 写一段冒泡排序，并解释推理过程" 来观察它经典的 <think> 推理思考块输出。

🎨 阶段三：部署 Open WebUI 极客图形界面

如果你不习惯难看的命令行终端，想要拥有类似于 ChatGPT 般高颜值、支持多轮对话、管理历史、甚至支持联网搜索的 Web 界面，可以使用 Docker 极速部署 Open WebUI。

在本地装好 Docker 后，运行以下单行命令（将 Web 端口映射到本地的 3000 端口）：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

⚙️ 参数详解：

--add-host=host.docker.internal:host-gateway：这行是通关秘籍！它能允许 Docker 容器内部无缝访问你宿主机里运行的本地 Ollama 引擎（127.0.0.1:11434）。
-v open-webui:/app/backend/data：持久化挂载对话数据，升级容器不丢历史记录。

安装完成后，打开浏览器访问 http://localhost:3000，创建首个管理员账号，在顶部的模型下拉菜单中即可选择我们刚下载好的 deepseek-r1:14b，尽情享受沉浸式的推理快感！

⚡ 阶段四：性能榨干与调优指南

本地大模型运行时，最怕的就是**“吐字慢（Token/s 低）”**。以下是几条能够明显改善本地推理速度的压榨调优配置：

1. 显存持久化常驻（避免频繁调入调出）

默认情况下，Ollama 会在空闲 5 分钟后把模型移出显存。如果你希望模型永久常驻，可以在启动 Ollama 服务前，在宿主机中配置环境变量：

Linux / macOS：

export OLLAMA_KEEP_ALIVE="24h" # 常驻显存 24 小时，设为 "-1" 则无限期保留

Windows：在“系统环境变量”中添加全局变量 OLLAMA_KEEP_ALIVE，值填入 24h。

2. 限制并发防爆显存

如果你自己或者局域网内有多人使用，频繁的并发请求可能触发 GPU OOM（显存溢出崩溃），可以限制并发数：

export OLLAMA_NUM_PARALLEL="1" # 限制为单队列串行，保证绝对稳定

3. 上下文截断保护

DeepSeek 蒸馏版虽然原生支持 128k 上下文，但是在本地显存受限时，过长的上下文会导致推理耗时呈指数级增长。可以在 Open WebUI 的高级设置中将 System Context Length 限制在 8192 或 16388 字节，以此来平衡长期对话记忆和响应延迟。

📝 总结与思考

利用 Ollama + Open WebUI 本地离线化部署 DeepSeek-R1 并不复杂。在 2026 年，仅凭一张百元级别的普通独立显卡，我们就能在本地私有空间中随心所欲地调配拥有强悍思维涌现能力的“数字助理”。

数据完全不出局域网，不需要付 API Token 费用，告警排错和辅助编程在弹指间即可完成。这就是我们作为技术人构建数字花园和 Homelab 的乐趣所在！🍀

前言：2026 年大模型领域依旧火热，而 DeepSeek-R1 凭借其独树一帜的强化学习推理（CoT）能力与超高的性价比，成为了本地私有化部署的首选。

对于注重数据隐私、或者处于无网/弱网环境下的开发者而言，利用 Ollama 在本地把 DeepSeek 跑起来是一个极佳的方案。本文将以最接地气、不废话的步骤，带你在自己的 Mac/PC/服务器上优雅地实现本地大模型自建！🚀

🖥️ 阶段一：硬件对齐与版本选择

蒸馏架构	模型大小	推荐显存 (Q4 量化)	适合硬件环境
R1-Distill-Qwen-1.5B	~1.1 GB	>= 4GB	备用机、轻薄本、手机端
R1-Distill-Qwen-7B / 8B	~4.7 GB	>= 8GB	绝大多数常规独立显卡（如 RTX 3060/4060, Apple M系列）
R1-Distill-Qwen-14B	~9.0 GB	>= 16GB	进阶消费级显卡（如 RTX 4070/4080, Apple M系 16G+）
R1-Distill-Qwen-32B	~20 GB	>= 24GB	旗舰消费级显卡（如 RTX 3090/4090, M系 32G+）
R1-Distill-Llama-70B	~42 GB	>= 48GB	双卡 RTX 3090/4090 或专业级 Mac Ultra/Studio
DeepSeek-R1 (Full-671B)	~400 GB	>= 640GB	专业多卡 AI 服务器（8 * A100 / H100 级别）

💡 个人建议：日常编程辅助与逻辑推理，14B 版本的性价比最高，具备优异的指令遵循与逻辑涌现能力，且运行速度较快。

📥 阶段二：利用 Ollama 极速本地拉取

Ollama 是目前本地大模型引擎的绝对霸主，支持跨平台且能自动调度你的 CPU 和 GPU 并行计算。

1. 安装 Ollama

Mac/Windows：直接去 Ollama 官网下载安装包一键安装。

Linux 极客终端一键安装：

curl -fsSL https://ollama.com/install.sh | sh

2. 拉取并启动 DeepSeek-R1

打开你的终端（Terminal 或 PowerShell），运行以下命令拉取并直接交互运行你选定的蒸馏版（以 14B 为例）：

# 这条命令会自动检测当前显卡，下载对应模型并调入显存
ollama run deepseek-r1:14b

🎨 阶段三：部署 Open WebUI 极客图形界面

在本地装好 Docker 后，运行以下单行命令（将 Web 端口映射到本地的 3000 端口）：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

⚙️ 参数详解：

--add-host=host.docker.internal:host-gateway：这行是通关秘籍！它能允许 Docker 容器内部无缝访问你宿主机里运行的本地 Ollama 引擎（127.0.0.1:11434）。
-v open-webui:/app/backend/data：持久化挂载对话数据，升级容器不丢历史记录。

⚡ 阶段四：性能榨干与调优指南

本地大模型运行时，最怕的就是**“吐字慢（Token/s 低）”**。以下是几条能够明显改善本地推理速度的压榨调优配置：

1. 显存持久化常驻（避免频繁调入调出）

默认情况下，Ollama 会在空闲 5 分钟后把模型移出显存。如果你希望模型永久常驻，可以在启动 Ollama 服务前，在宿主机中配置环境变量：

Linux / macOS：

export OLLAMA_KEEP_ALIVE="24h" # 常驻显存 24 小时，设为 "-1" 则无限期保留

Windows：在“系统环境变量”中添加全局变量 OLLAMA_KEEP_ALIVE，值填入 24h。

2. 限制并发防爆显存

如果你自己或者局域网内有多人使用，频繁的并发请求可能触发 GPU OOM（显存溢出崩溃），可以限制并发数：

export OLLAMA_NUM_PARALLEL="1" # 限制为单队列串行，保证绝对稳定

3. 上下文截断保护

📝 总结与思考

数据完全不出局域网，不需要付 API Token 费用，告警排错和辅助编程在弹指间即可完成。这就是我们作为技术人构建数字花园和 Homelab 的乐趣所在！🍀

从零开始：用 Ollama + Open WebUI 本地部署 DeepSeek-R1 满血版/蒸馏版实战指南

🖥️ 阶段一：硬件对齐与版本选择

📥 阶段二：利用 Ollama 极速本地拉取

1. 安装 Ollama

2. 拉取并启动 DeepSeek-R1

🎨 阶段三：部署 Open WebUI 极客图形界面

⚙️ 参数详解：

⚡ 阶段四：性能榨干与调优指南

1. 显存持久化常驻（避免频繁调入调出）

2. 限制并发防爆显存

3. 上下文截断保护

📝 总结与思考

相关文章

实录：手机跑通 Gemma 4 离线多模态大模型的踩坑笔记

从零开始：用 Ollama + Open WebUI 本地部署 DeepSeek-R1 满血版/蒸馏版实战指南

🖥️ 阶段一：硬件对齐与版本选择

📥 阶段二：利用 Ollama 极速本地拉取

1. 安装 Ollama

2. 拉取并启动 DeepSeek-R1

🎨 阶段三：部署 Open WebUI 极客图形界面

⚙️ 参数详解：

⚡ 阶段四：性能榨干与调优指南

1. 显存持久化常驻（避免频繁调入调出）

2. 限制并发防爆显存

3. 上下文截断保护

📝 总结与思考

相关文章

实录：手机跑通 Gemma 4 离线多模态大模型的踩坑笔记