この記事の要点
この記事の重要ポイント
- 1
Privacy First
- 2
Mac Studio (Unified Memory):突破 VRAM 壁垒的唯一解。如果是 192GB 内存,不仅是 Llama 3 70B 量化模型,Mixtral 8x22B 也能轻松运行
- 3
Jetson Orin AGX:嵌入式 AI 的最高峰。功耗 60W,如果要制作常时不间断运行的代理 (JARVIS) 就选这个
- 4
Ollama:一个命令启动 LLM。API 兼容,现有的 LangChain 应用可以直接运行
- 5
RAG (Retrieval Augmented Generation):全搜索自己的 Notion 和 Obsidian,生成回答。数据一步也不出家门
引言:云端 AI 的界限
ChatGPT 虽然方便,但不能喂给它公司机密代码或私人日记。 也有审查。不只是“炸弹的制作方法”,连“过激的玩笑”也会被拒绝。
要得到真正的自由 (Uncensored Model),只有购买硬件。
1. The VRAM King: Mac Studio (M3 Ultra)
Nvidia 的 GPU (RTX 4090) 虽然强大,但 VRAM 只有 24GB。 这对于运行 70B 级别的模型来说是不够的。 Apple Silicon 的统一内存结构,破坏了这个瓶颈。
Apple Mac Studio (M2 Ultra)
最大 192GB 的统一内存。拥有相当于 2 张 A100 80GB (数百万日元) 的 LLM 推理能力。风扇噪音也是听不到的级别,能把这个怪物放在桌子上的时代。
Apple MLX Framework
如果不经过 PyTorch,使用针对 Apple Silicon 优化的 MLX 框架,推理速度会进一步加速。
因为从 Python 直接叩击 Metal (GPU),没有开销。
2. The Edge AI King: Nvidia Jetson Orin AGX
如果想“24 小时 365 天持续运行”,Mac Studio 的功耗令人在意。 Jetson Orin 是作为机器人的大脑开发的,因此拥有压倒性的每瓦性能。
NVIDIA Jetson AGX Orin 开发者套件
手掌大小拥有 275 TOPS 的 AI 处理能力。运行 Ubuntu,原生使用 CUDA。功耗最大 60W。作为自家服务器 (Homelab) 的 AI 担当收纳在机架里。
3. Operations: Ollama & Open WebUI
没必要在黑画面里推理。 在后端运行 Ollama,前端放置 Open WebUI (旧 Ollama WebUI),外观就完全是 ChatGPT。
# 启动 Llama 3
ollama run llama3:70b
仅此就能启动本地 API 服务器 (localhost:11434)。 如果把 Windsurf 或 Cursor 的端点改写成这里,编码也能离线进行。
Deep Dive: 模型大小与 VRAM 计算公式
运行 70B 级模型所需的 VRAM(统一内存)可以通过以下简化公式计算:
内存消耗 (GB) ≈ (参数数量 * 量化位数 / 8) * 1.2 (额外开销)
示例: 以 4bit (Q4_K_M) 运行 Llama 3 70B
(70 * 4 / 8) * 1.2 = 42GB
这就是为什么在 Mac Studio (M2/M3 Ultra) 中应配备 128GB 或更多内存的原因。如果扩大上下文长度(如 128k token),还需要额外的 10GB 至 20GB 用于 KV 缓存,因此留有余量的设计至关重要。
结论:不要租赁大脑
云端 AI 是“租赁”。只要付房租 (订阅) 就能用,但不能改造。 本地 LLM 是“自有住房”。 重新粉刷墙壁,扩建,可以培养你喜欢的从最强助手。
初期投资虽然高,但如果认为是通往自由的门票就很便宜。






⚠️ コメントのルール
※違反コメントはAIおよび管理者により予告なく削除されます
まだコメントがありません。最初のコメントを投稿しましょう!