💡

この記事の要点

この記事の重要ポイント

  • 1

    Privacy First

  • 2

    Mac Studio (Unified Memory):突破 VRAM 壁垒的唯一解。如果是 192GB 内存,不仅是 Llama 3 70B 量化模型,Mixtral 8x22B 也能轻松运行

  • 3

    Jetson Orin AGX:嵌入式 AI 的最高峰。功耗 60W,如果要制作常时不间断运行的代理 (JARVIS) 就选这个

  • 4

    Ollama:一个命令启动 LLM。API 兼容,现有的 LangChain 应用可以直接运行

  • 5

    RAG (Retrieval Augmented Generation):全搜索自己的 Notion 和 Obsidian,生成回答。数据一步也不出家门

引言:云端 AI 的界限

ChatGPT 虽然方便,但不能喂给它公司机密代码或私人日记。 也有审查。不只是“炸弹的制作方法”,连“过激的玩笑”也会被拒绝。

要得到真正的自由 (Uncensored Model),只有购买硬件。

1. The VRAM King: Mac Studio (M3 Ultra)

Nvidia 的 GPU (RTX 4090) 虽然强大,但 VRAM 只有 24GB。 这对于运行 70B 级别的模型来说是不够的。 Apple Silicon 的统一内存结构,破坏了这个瓶颈。

Apple Mac Studio (M2 Ultra)

最大 192GB 的统一内存。拥有相当于 2 张 A100 80GB (数百万日元) 的 LLM 推理能力。风扇噪音也是听不到的级别,能把这个怪物放在桌子上的时代。

Apple MLX Framework

如果不经过 PyTorch,使用针对 Apple Silicon 优化的 MLX 框架,推理速度会进一步加速。 因为从 Python 直接叩击 Metal (GPU),没有开销。

2. The Edge AI King: Nvidia Jetson Orin AGX

如果想“24 小时 365 天持续运行”,Mac Studio 的功耗令人在意。 Jetson Orin 是作为机器人的大脑开发的,因此拥有压倒性的每瓦性能。

NVIDIA Jetson AGX Orin 开发者套件

手掌大小拥有 275 TOPS 的 AI 处理能力。运行 Ubuntu,原生使用 CUDA。功耗最大 60W。作为自家服务器 (Homelab) 的 AI 担当收纳在机架里。

3. Operations: Ollama & Open WebUI

没必要在黑画面里推理。 在后端运行 Ollama,前端放置 Open WebUI (旧 Ollama WebUI),外观就完全是 ChatGPT。

# 启动 Llama 3
ollama run llama3:70b

仅此就能启动本地 API 服务器 (localhost:11434)。 如果把 Windsurf 或 Cursor 的端点改写成这里,编码也能离线进行。

Deep Dive: 模型大小与 VRAM 计算公式

运行 70B 级模型所需的 VRAM(统一内存)可以通过以下简化公式计算:

内存消耗 (GB) ≈ (参数数量 * 量化位数 / 8) * 1.2 (额外开销)

示例: 以 4bit (Q4_K_M) 运行 Llama 3 70B
(70 * 4 / 8) * 1.2 = 42GB

这就是为什么在 Mac Studio (M2/M3 Ultra) 中应配备 128GB 或更多内存的原因。如果扩大上下文长度(如 128k token),还需要额外的 10GB 至 20GB 用于 KV 缓存,因此留有余量的设计至关重要。

结论:不要租赁大脑

云端 AI 是“租赁”。只要付房租 (订阅) 就能用,但不能改造。 本地 LLM 是“自有住房”。 重新粉刷墙壁,扩建,可以培养你喜欢的从最强助手。

初期投资虽然高,但如果认为是通往自由的门票就很便宜。

相关文章