AI 大模型本地部署指南 (Local AI)
NAS 不仅是存储,只要内存够大,它就是你的私人 AI 算力中心。通过 Ollama,我们可以在 NAS 上轻松运行 Llama 3、Qwen 等大语言模型,打造完全隐私的“私人 ChatGPT”。
1. 硬件准备
AI 对硬件有一定要求,并非所有 NAS 都能跑。
- CPU:必须支持 AVX2 指令集(J4125、N5105、AMD Ryzen 系列均支持)。老旧 CPU(如 J3455)可能无法运行或极慢。
- 内存 (RAM):
- 8GB:勉强运行 7B (70 亿参数) 模型。
- 16GB+:推荐配置。可以流畅运行 7B/14B 模型,或者更大量级的量化模型。
- GPU (可选):如果你的 NAS 有独显(如 DVA3221 或 PCIe 扩展卡),Ollama 支持调用 GPU 加速,速度提升 10 倍以上。
2. 部署 Ollama (后端核心)
Ollama 是目前最流行的本地 LLM 运行时工具。
Docker Compose 部署
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- /volume1/docker/ollama:/root/.ollama
restart: always
# 如果你有 NVIDIA 显卡,取消下面注释
# deploy:
# resources:
# reservations:
# devices:
# - driver: nvidia
# count: 1
# capabilities: [gpu]
下载模型
容器启动后,需要下载模型才能使用。 1. SSH 进入 NAS。 2. 进入容器:docker exec -it ollama bash 3. 下载模型: * Llama 3 (8B):ollama run llama3 (英文能力强) * Qwen 2 (7B):ollama run qwen2 (通义千问,中文能力极佳) * Gemma 2 (9B):ollama run gemma2 (谷歌出品)
3. 部署 Open WebUI (前端界面)
光有后端不行,我们需要一个类似 ChatGPT 的漂亮界面。Open WebUI (原 Ollama WebUI) 是最佳选择。
Docker Compose 部署
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://192.168.1.x:11434 # 填 NAS 的局域网 IP
volumes:
- /volume1/docker/open-webui:/app/backend/data
restart: always
4. 进阶玩法:RAG (知识库问答)
Open WebUI 自带 RAG (检索增强生成) 功能。你可以把你的 PDF 文档、Markdown 笔记喂给它,让 AI 基于你的私有数据回答问题。
- 打开 Open WebUI 网页 (
http://NAS_IP:3000)。 - 点击左侧 Documents。
- 上传你的 PDF/TXT 文件(例如《群晖 DSM 说明书》)。
- 在聊天框输入
#号,选择刚才上传的文档集合。 - 提问:“怎么修复 RAID?”AI 会根据说明书内容回答你,且不会产生幻觉。
5. 远程访问
- 配合 Tailscale 或 Cloudflare Tunnel,你可以在手机上随时随地访问家里的私有 AI。
- Open WebUI 适配了移动端界面,体验极佳。
6. 注意事项
- CPU 占用:推理时 CPU 会瞬间飙升到 100%,这是正常的。建议限制容器的 CPU 权重,防止影响 NAS 其他服务。
- 模型大小:不要贪大。NAS 这种纯 CPU 推理环境,7B 或 8B 的 Q4_K_M 量化版本是速度与质量的最佳平衡点。尝试运行 70B 模型会让你的 NAS 卡死。