🍎
🍎

Inference King

  • Mac Studio (M5 Ultra) 是推理专用机的最强之选。

  • 128GB 统一内存轻松容纳 70B 模型。

  • 作为 24 小时常驻助手,能效比无敌。

Slide 1 of 3Remaining 2

云端 API 成本是不是让你在意? 把私密数据发送给 OpenAI 你会介意吗?

2026 年,许多工程师开始 “AI 回归本地部署” 。 因为 70B(700 亿参数)级高性能模型已经能在家用硬件上以实用速度运行。

本文比较把“最强 AI”请进家里的两条主流路线。

1. Mac Studio (M5 Ultra):推理的省电怪兽

Apple 芯片的“统一内存”结构对 AI 来说几乎是作弊。 CPU 与 GPU 共享内存,轻松跨过 VRAM 的墙(在 NVIDIA 上就是 24GB 的墙)。

ℹ️
128GB 内存的世界

即便是未量化的全精度 Llama 3 70B 也能轻松装进内存。而且功耗只相当于几只灯泡。24 小时运行电费几乎可以忽略。

2. 自作 PC (RTX 5090):硬实力就是力量

另一方面,如果你不只想做推理,还想制作 LoRA(追加训练),那就离不开拥有 CUDA 核心的 NVIDIA GPU。 插两张 RTX 5090(32GB VRAM),就能得到 64GB 的 VRAM 空间。

GPU 监控
watch -n 1 nvidia-smi

# GPU 0: RTX 5090 (32GB) - Usage: 98%
# GPU 1: RTX 5090 (32GB) - Usage: 95%
# Power: 900W / Temp: 82C

但如你所见,伴随而来的是可能跳闸的电力消耗,以及堪比暖气的发热。

成本与性能对比

项目 Mac Studio (M5 Ultra) 自作 PC (RTX 5090 x2)
内存(VRAM) 128GB (Unified) 64GB (32GB x2)
推理速度 快 (50 t/s) 极快 (100 t/s)
训练能力 不擅长(慢) 最强(CUDA 优化)
电费 便宜(约 1000 日元/月) 高(约 10000 日元/月)
价格 约 80 万日元 约 120 万日元

结论

  • 想要 24 小时常驻助手 : Mac Studio
  • 想培养自己的模型 : 自作 PC
💡

推理之王

静音、省电、大容量内存。作为放在家里的 AI 服务器,没有比这更精致的硬件了。