なぜ今、Wan2.1 × SCAIL なのか?
それは、従来困難だった『キャラクターの一貫性』と『3D整合性』を、民生用GPUで実現できる唯一の解だからです。2024年までの「運ゲー」的な生成とは一線を画す、その理由を解説します。
2024年までのAI動画生成は、いわば「運ゲー」に近い側面がありました。OpenPose等の2Dポーズ制御では、キャラクターが回転したり重なったりすると、AIが関節の位置を見失い、結果として動画が崩れてしまうのが常でした。
そこに登場したのが、Alibabaの Wan2.1 と、清華大学チームによる SCAIL です。
Alibaba公式によるWan 2.1の発表。生成される動画のクオリティと一貫性が話題を呼びました。
SCAIL (Studio-grade Character Animation via In-Context Learning) は、従来の2D骨格ではなく、 3D空間における円筒(シリンダー)表現 をボーンとして用います。
僕の環境(RTX 3070 8GB…と言いたいところですが、今回は12GB以上を推奨)で、14Bという巨大なモデルを動かすには、以下の最適化が必須です。
30GB近いモデルウェイトを、画質を維持したまま約10GBまで圧縮します。これにより、OSのメモリにスワップすることなく、VRAM上にモデルを載せきることができます。
OpenAIが開発したGPUコンパイラ言語です。Windows環境では公式サポートがありませんが、有志によるビルド版を使うことで、Attention計算を爆速化できます。
最新の最適化技術で、推論精度を落とさずに速度を30-40%向上させます。これがないと、1フレームの生成に数分かかってしまい、お風呂に入っている間にしか動画が作れません。
Windowsで構築する場合、特にTriton周りで挫折する人が多いです。ここでは、僕が実際に成功した「黄金の構成」と手順を公開します。
以下のバージョン整合性を厳密に守るのが、成功への最短ルートです。
| ソフトウェア | 推奨バージョン | 備考 |
|---|---|---|
| Python | 3.12.x | 安定性が最も高い |
| CUDA Toolkit | 12.6 | 最新のSageAttentionが要求 |
| PyTorch | 2.6.0+cu126 | CUDA 12.6対応版を使用 |
| VS Build Tools | 2022 | C++コンパイラ(MSVC v143)が必要 |
主要なモデルファイルは以下のリンクから揃えましょう。
手動での環境構築はミスが多いため、PowerShellで一気に環境を整える「一撃スクリプト」を用意しました。
# 1. 管理者権限でPowerShellを起動
# 2. 以下のコマンドを実行してスクリプトをダウンロード&実行
Invoke-WebRequest -Uri "https://raw.githubusercontent.com/ryuhat/honogear/main/scripts/install_wan_scail.ps1" -OutFile "install.ps1"
.\install.ps1
このスクリプトは、ComfyUIのクローンから、Python仮想環境の構築、GPU版PyTorchのインストール、そしてカスタムノードのセットアップまでを自動で行います。モデルのダウンロードも Hugging Face CLI 経由で行う優れものです!
原因 :
Tritonのインストールに失敗しているか、Pythonのバージョンが合っていません。
対策 : pip list で triton-windows
が存在するか確認し、ない場合は手動でWheelファイルを再インストールしてください。
原因 :
Tritonのライブラリファイル(include/libs)がPythonのディレクトリに配置されていません。
対策 : リリースzipに含まれる python_3.12.x_include_libs.zip
を解凍し、中身をPythonのルートフォルダにコピーしてください。
原因 : SCAILポーズの前処理解像度が間違っています。 対策 : resolution
パラメータが、最終生成解像度の ちょうど半分(0.5倍)
の設定になっているか確認してください。
原因 :
FP16モデルをロードしている、またはデコード時のタイルサイズが大きすぎます。
対策 : Unet Loaderで必ず Q4_K_M.gguf を選び、VAE Decodeの tile_size を
128 まで下げてください。
実際に触ってみて感じた、他の主要モデルとの比較です。
| 項目 AnimateDiff | Wan2.1 × SCAIL |
|---|---|
| キャラ一貫性, △ (要LoRA), ◎ (デフォルト最高) | |
| ポーズ追随性, ○, ◎ (3D制御) | |
| 生成速度, ◎ (軽量), △ (要最適化) | |
| 実用性, ホビー向け, スタジオ品質向け |
ComfyUIでの運用時には、以下の設定を強く推奨します。
Wan2.1 × SCAILの登場により、AI動画はもはや「たまたま綺麗にできた」ものを探す遊びではなく、 「望みの動きを、完璧な品質で出力する」開発業務 になりました。
エンジニアリングとクリエイティブがこれほど密接に関係する分野は他にありません。皆さんもぜひ、この「最強の環境」を構築して、驚きの動画を作ってみてください!
今回使用した最適化スクリプトやComfyUI用ワークフローのJSONは、GitHubで公開する予定です(準備中)。
このワークフローを動かすなら、最低でもこのクラスを選びましょう。
執筆:GADGET.LAB (HonoGear)